BpFile(id=247, bpId=153, name=数据湖-在线学习场景数据分析, author=null, keyword=数据湖,数据分析,OSS,EMR,在线教育场景, description=本场景以在线教育中一个答题闯关类的应用为例,使用Web Server来模拟演示这类
日志数据的分析处理。通过Nginx和Python flask搭建Web Server,模拟应用中的关
键页面,比如登录、课程内容等,之后构造若干用户使用的模拟日志数据,投递到数
据湖进行分析后获取应用PV、UV、课程内容访问排行、平均得分等等。, position=null, ossUrl=bp-27XKFH7MNOFCUX8F.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=0, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=
场景描述
本场景以在线教育中一个答题闯关类的应用为
例,使用WebServer来模拟演示这类日志数据
的分析处理。通过Nginx和Pythonflask搭建
WebServer,模拟应用中的关键页面,比如登
录、课程内容等,之后构造若干用户使用的模拟
日志数据,投递到数据湖进行分析后获取应用
PV、UV、课程内容访问排行、平均得分等等。
解决问题
基于数据湖(EMR+OSS)搭建大数据平台。
EMR和OSS使用和配置。
数据统一存储到OSS。
产品列表
E-MapReduce
对象存储OSS
云服务器ECS
访问控制RAM
专有网络VPC
, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null)
1数据湖-在线学习场景数据分析 最佳实践
场景描述
业务架构
本场景以在线教育中一个答题闯关类的应用为例,
使用WebServer来模拟演示这类日志数据的分析
处理。通过Nginx和Python flask搭建Web
Server,模拟应用中的关键页面,比如登录、课程
内容等,之后构造若干用户使用的模拟日志数据,
投递到数据湖进行分析后获取应用PV、UV、课程
内容访问排行、平均得分等等。
解决问题
1. 基于数据湖(EMR+OSS)搭建大数据平台。
2. EMR和OSS使用和配置。
3. 数据统一存储到OSS。
产品列表
E-MapReduce
对象存储OSS
云服务器ECS
访问控制RAM
专有网络VPC
2云服务器ECS(产品名称) 文档模板(手册名称)/
阿里云
企业上云实践
数据湖-在线学习场景数据分析
最佳实践
文档版本:20200331
文档版本:20150122(发布日期) 2
3数据湖-在线学习场景数据分析 文档版本信息
文档版本信息
文本信息
属性 内容
文档名称 数据湖-在线学习场景数据分析
文档编号 153
文档版本 V1.2
版本日期 2020-03-31
文档状态 外部发布
制作人 期会
审阅人 游圣
文档变更记录
版本编号 日期 作者 审核人 说明
阿瑟 雷飙 周皓
V1.0 2020-03-03 云魁敬海 创建
华颋期会
V1.1 2020-03-31 筱晖 期会 文档优化
V1.2 2021-02-01 期会 - 增加CADT、
EMR 更 新
3.33
文档版本:20200331 I
4数据湖-在线学习场景数据分析 前言
前言
概述
本实践以WebServer为例来模拟在线教育的应用场景,通过Nginx和Pythonflask
搭建WebServer,模拟应用中的关键页面,比如登录、课程内容等,之后构造若干用
户使用的模拟日志数据,投递到数据湖进行分析后获取应用PV、UV、课程内容访问
排行等。
应用范围
通用行业。
名词解释
专有网络VPC:VirtualPrivateCloud,简称VPC,是基于阿里云创建的自定义私
有网络,不同的专有网络之间二层逻辑隔离。您可以在自己创建的专有网络内创
建和管理云产品实例,比如ECS、负载均衡、RDS等。在部署云资源前,您需要
结合具体业务,规划VPC和交换机的数量及网段等。更多信息,请参见:
www.aliyun.com/product/vpc
访问控制RAM:RAM使您能够安全地集中管理对阿里云服务和资源的访问。您
可以使用 RAM 创建和管理用户和组,并使用各种权限来允许或拒绝他们对云资
源的访问。更多信息,请参见:www.aliyun.com/product/ram
对象存储OSS:OSS是海量、安全、低成本、高可靠的云存储服务,提供
99.9999999999%的数据可靠性。使用RESTfulAPI 可以在互联网任何位置存储
和访问,容量和处理能力弹性扩展,多种存储类型供选择全面优化存储成本。更
多信息,请参见:www.aliyun.com/product/oss
文档版本:20200331 III
5数据湖-在线学习场景数据分析 目录
目录
文档版本信息..................................................................................................................................................................I
法律声明.........................................................................................................................................................................II
................................................................................................................................................................................
前言 III
目录...............................................................................................................................................................................IV
.................................................................................................................................................................
最佳实践概述 1
前置条件.........................................................................................................................................................................3
演示环境说明及附件下载............................................................................................................................................4
.......................................................................................................................................................................
1.数据湖 5
...................................................................................................................................................
1.1.EMR+OSS 5
.................................................................................................................................................
1.2.JindoFS简介 6
1.3.与OSS、HDFS对比...................................................................................................................................8
2.基础环境配置...........................................................................................................................................................9
................................................................................................................................................
2.1.基础环境配置 9
2.2.安全组规则设置.........................................................................................................................................12
..............................................................................................
2.3.配置对象存储OSS用于JindoFS的目录 14
2.4.为EMR创建RAM角色............................................................................................................................14
2.5.EMR集群界面介绍.....................................................................................................................................21
....................................................................................................................................
2.6.EMRJindoFS 配置 23
3.应用场景.................................................................................................................................................................31
......................................................................................................................................................
3.1.场景描述 31
3.2.日志格式......................................................................................................................................................32
3.3.模拟应用系统..............................................................................................................................................32
..............................................................................................................................................
3.4.模拟数据生成 36
3.5.数据投递......................................................................................................................................................37
.....................................................................................................................................................
3.6.添加UDF 46
3.7.添加event_log数据投递..........................................................................................................................47
3.8.数据加工分析..............................................................................................................................................50
.......................................................................................................................................
3.9.配置EMR工作流 53
4.附录-TPCDS.........................................................................................................................................................62
...............................................................................................................................................
4.1.JindoFS测试 62
4.2.OSS测试.....................................................................................................................................................63
文档版本:20200331 IV
6数据湖-在线学习场景数据分析 最佳实践概述
最佳实践概述
方案架构
本场景以在线教育中一个答题闯关类的应用为例,使用WebServer来模拟演示这类
日志数据的分析处理。通过Nginx和Pythonflask搭建WebServer,模拟应用中的关
键页面,比如登录、课程内容等,之后构造若干用户使用的模拟日志数据,投递到数
据湖进行分析后获取应用PV、UV、课程内容访问排行、平均得分等等。
方案优势
支持超过10亿条元数据规模的数据管理,同时支持高可靠和高可用。
支持元数据实时备份和重建集群快速恢复导入。
支持数据归档备份和重建集群快速数据恢复。
支持冷热数据分层存储,可以对目录/表进行cache/archive操作。
支持缓存加速能力,提高数据吞吐100%以上,多个集群可以共享同一份缓存数据。
支持细化的数据湖权限管理,支持Ranger 权限集成。
支持Hadoop,Hive,Spark,Flink,Presto,HBase,Impala,Druid等引擎高
性能的运行在数据湖之上。
文档版本:20200331 1
7数据湖-在线学习场景数据分析 最佳实践概述
支持Fuse/Posix 文件接口。
支持混合云的方案,支持云上云下同时读写访问。
文档版本:20200331 2
8数据湖-在线学习场景数据分析 前置条件
前置条件
在执行本文操作前,请完成以下准备工作:
注册阿里云账号,并完成实名认证。您可以登录阿里云控制台,并前往实名认证
页面(account.console.aliyun.com/v2/#/authc/home)查看是否已经完成实名认
证。
阿里云账户余额大于100元。您可以登录阿里云控制台,并前往账户总览页面
(expense.console.aliyun.com/#/account/home)查看账户余额。
开通以下服务:
ˉ ECS:详情请参见ecs.console.aliyun.com
ˉ VPC:详情请参见vpc.console.aliyun.com
ˉ RAM:详情请参见ram.console.aliyun.com/overview
ˉ OSS:详情请参见oss.console.aliyun.com/overview
ˉ EMR:详情请参见emr.console.aliyun.com
文档版本:20200331 3