相关产品

客户案例

相关推荐

广州市乐无边教育科技有限公司
广州市乐无边教育科技有限公司

高考直通车是广州市乐无边教育科技有限公司打造的全国中学生 在线学习交流平台。作为全国中学生在线学习平台,数据分析能力是我们业务的核心,近期我们在做 云上大数据 架构选型,云上的产品非常多,选择合适的产品和架构非常困难,通过阿里云业务团队和最佳实践团队的推荐,如数据湖-在线学习场景 数据分析、MaxCompute湖仓一体化方案、离线大数据分析 等最佳实践,让我们快速了解 云上大数据 不同场景的应用,帮助我们选择 合适的架构,而且所有 最佳实践都有 完整可落地的 实操,参考最佳实践实操上云非常方便,大大节约了我们的摸索的过程,有效促进项目落地。

Transbyte
Transbyte

Transbyte是由"非洲之王"传音集团孵化,国内头部互联网企业快手战略投资的互联网企业,主营移动端聚合新闻资讯类APP应用,主要面向非洲、东南亚等新兴市场,提供类似于今日头条的多媒体新闻聚合服务,当前日活上千万,并于2020年从传音独立,计划2021年高速拓展非洲市场,目标整体业务量翻倍。

探索阿里云产品,构建云上应用和服务

免费试用

相关产品

客户案例

相关推荐

广州市乐无边教育科技有限公司
广州市乐无边教育科技有限公司

高考直通车是广州市乐无边教育科技有限公司打造的全国中学生 在线学习交流平台。作为全国中学生在线学习平台,数据分析能力是我们业务的核心,近期我们在做 云上大数据 架构选型,云上的产品非常多,选择合适的产品和架构非常困难,通过阿里云业务团队和最佳实践团队的推荐,如数据湖-在线学习场景 数据分析、MaxCompute湖仓一体化方案、离线大数据分析 等最佳实践,让我们快速了解 云上大数据 不同场景的应用,帮助我们选择 合适的架构,而且所有 最佳实践都有 完整可落地的 实操,参考最佳实践实操上云非常方便,大大节约了我们的摸索的过程,有效促进项目落地。

Transbyte
Transbyte

Transbyte是由"非洲之王"传音集团孵化,国内头部互联网企业快手战略投资的互联网企业,主营移动端聚合新闻资讯类APP应用,主要面向非洲、东南亚等新兴市场,提供类似于今日头条的多媒体新闻聚合服务,当前日活上千万,并于2020年从传音独立,计划2021年高速拓展非洲市场,目标整体业务量翻倍。

探索阿里云产品,构建云上应用和服务

免费试用

温馨提示

抱歉,登录前您只能看到8页哦。立刻登录,浏览全部技术解决方案最佳实践案例内容!

如果您是企业账号,可以生成子账号授权访问。

BpFile(id=247, bpId=153, name=数据湖-在线学习场景数据分析, author=null, keyword=数据湖,数据分析,OSS,EMR,在线教育场景, description=本场景以在线教育中一个答题闯关类的应用为例,使用Web Server来模拟演示这类 日志数据的分析处理。通过Nginx和Python flask搭建Web Server,模拟应用中的关 键页面,比如登录、课程内容等,之后构造若干用户使用的模拟日志数据,投递到数 据湖进行分析后获取应用PV、UV、课程内容访问排行、平均得分等等。, position=null, ossUrl=bp-27XKFH7MNOFCUX8F.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=0, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述 本场景以在线教育中一个答题闯关类的应用为 例,使用WebServer来模拟演示这类日志数据 的分析处理。通过Nginx和Pythonflask搭建 WebServer,模拟应用中的关键页面,比如登 录、课程内容等,之后构造若干用户使用的模拟 日志数据,投递到数据湖进行分析后获取应用 PV、UV、课程内容访问排行、平均得分等等。 解决问题 基于数据湖(EMR+OSS)搭建大数据平台。 EMR和OSS使用和配置。 数据统一存储到OSS。 产品列表 E-MapReduce 对象存储OSS 云服务器ECS 访问控制RAM 专有网络VPC

, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null)
1数据湖-在线学习场景数据分析 最佳实践 场景描述 业务架构 本场景以在线教育中一个答题闯关类的应用为例, 使用WebServer来模拟演示这类日志数据的分析 处理。通过Nginx和Python flask搭建Web Server,模拟应用中的关键页面,比如登录、课程 内容等,之后构造若干用户使用的模拟日志数据, 投递到数据湖进行分析后获取应用PV、UV、课程 内容访问排行、平均得分等等。 解决问题 1. 基于数据湖(EMR+OSS)搭建大数据平台。 2. EMR和OSS使用和配置。 3. 数据统一存储到OSS。 产品列表  E-MapReduce  对象存储OSS  云服务器ECS  访问控制RAM  专有网络VPC
2云服务器ECS(产品名称) 文档模板(手册名称)/ 阿里云 企业上云实践 数据湖-在线学习场景数据分析 最佳实践 文档版本:20200331 文档版本:20150122(发布日期) 2
3数据湖-在线学习场景数据分析 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 数据湖-在线学习场景数据分析 文档编号 153 文档版本 V1.2 版本日期 2020-03-31 文档状态 外部发布 制作人 期会 审阅人 游圣 文档变更记录 版本编号 日期 作者 审核人 说明 阿瑟 雷飙 周皓 V1.0 2020-03-03 云魁敬海 创建 华颋期会 V1.1 2020-03-31 筱晖 期会 文档优化 V1.2 2021-02-01 期会 - 增加CADT、 EMR 更 新 3.33 文档版本:20200331 I
4数据湖-在线学习场景数据分析 前言 前言 概述 本实践以WebServer为例来模拟在线教育的应用场景,通过Nginx和Pythonflask 搭建WebServer,模拟应用中的关键页面,比如登录、课程内容等,之后构造若干用 户使用的模拟日志数据,投递到数据湖进行分析后获取应用PV、UV、课程内容访问 排行等。 应用范围 通用行业。 名词解释  专有网络VPC:VirtualPrivateCloud,简称VPC,是基于阿里云创建的自定义私 有网络,不同的专有网络之间二层逻辑隔离。您可以在自己创建的专有网络内创 建和管理云产品实例,比如ECS、负载均衡、RDS等。在部署云资源前,您需要 结合具体业务,规划VPC和交换机的数量及网段等。更多信息,请参见: www.aliyun.com/product/vpc  访问控制RAM:RAM使您能够安全地集中管理对阿里云服务和资源的访问。您 可以使用 RAM 创建和管理用户和组,并使用各种权限来允许或拒绝他们对云资 源的访问。更多信息,请参见:www.aliyun.com/product/ram  对象存储OSS:OSS是海量、安全、低成本、高可靠的云存储服务,提供 99.9999999999%的数据可靠性。使用RESTfulAPI 可以在互联网任何位置存储 和访问,容量和处理能力弹性扩展,多种存储类型供选择全面优化存储成本。更 多信息,请参见:www.aliyun.com/product/oss 文档版本:20200331 III
5数据湖-在线学习场景数据分析 目录 目录 文档版本信息..................................................................................................................................................................I 法律声明.........................................................................................................................................................................II ................................................................................................................................................................................ 前言 III 目录...............................................................................................................................................................................IV ................................................................................................................................................................. 最佳实践概述 1 前置条件.........................................................................................................................................................................3 演示环境说明及附件下载............................................................................................................................................4 ....................................................................................................................................................................... 1.数据湖 5 ................................................................................................................................................... 1.1.EMR+OSS 5 ................................................................................................................................................. 1.2.JindoFS简介 6 1.3.与OSS、HDFS对比...................................................................................................................................8 2.基础环境配置...........................................................................................................................................................9 ................................................................................................................................................ 2.1.基础环境配置 9 2.2.安全组规则设置.........................................................................................................................................12 .............................................................................................. 2.3.配置对象存储OSS用于JindoFS的目录 14 2.4.为EMR创建RAM角色............................................................................................................................14 2.5.EMR集群界面介绍.....................................................................................................................................21 .................................................................................................................................... 2.6.EMRJindoFS 配置 23 3.应用场景.................................................................................................................................................................31 ...................................................................................................................................................... 3.1.场景描述 31 3.2.日志格式......................................................................................................................................................32 3.3.模拟应用系统..............................................................................................................................................32 .............................................................................................................................................. 3.4.模拟数据生成 36 3.5.数据投递......................................................................................................................................................37 ..................................................................................................................................................... 3.6.添加UDF 46 3.7.添加event_log数据投递..........................................................................................................................47 3.8.数据加工分析..............................................................................................................................................50 ....................................................................................................................................... 3.9.配置EMR工作流 53 4.附录-TPCDS.........................................................................................................................................................62 ............................................................................................................................................... 4.1.JindoFS测试 62 4.2.OSS测试.....................................................................................................................................................63 文档版本:20200331 IV
6数据湖-在线学习场景数据分析 最佳实践概述 最佳实践概述 方案架构 本场景以在线教育中一个答题闯关类的应用为例,使用WebServer来模拟演示这类 日志数据的分析处理。通过Nginx和Pythonflask搭建WebServer,模拟应用中的关 键页面,比如登录、课程内容等,之后构造若干用户使用的模拟日志数据,投递到数 据湖进行分析后获取应用PV、UV、课程内容访问排行、平均得分等等。 方案优势  支持超过10亿条元数据规模的数据管理,同时支持高可靠和高可用。  支持元数据实时备份和重建集群快速恢复导入。  支持数据归档备份和重建集群快速数据恢复。  支持冷热数据分层存储,可以对目录/表进行cache/archive操作。  支持缓存加速能力,提高数据吞吐100%以上,多个集群可以共享同一份缓存数据。  支持细化的数据湖权限管理,支持Ranger 权限集成。  支持Hadoop,Hive,Spark,Flink,Presto,HBase,Impala,Druid等引擎高 性能的运行在数据湖之上。 文档版本:20200331 1
7数据湖-在线学习场景数据分析 最佳实践概述  支持Fuse/Posix 文件接口。  支持混合云的方案,支持云上云下同时读写访问。 文档版本:20200331 2
8数据湖-在线学习场景数据分析 前置条件 前置条件 在执行本文操作前,请完成以下准备工作:  注册阿里云账号,并完成实名认证。您可以登录阿里云控制台,并前往实名认证 页面(account.console.aliyun.com/v2/#/authc/home)查看是否已经完成实名认 证。  阿里云账户余额大于100元。您可以登录阿里云控制台,并前往账户总览页面 (expense.console.aliyun.com/#/account/home)查看账户余额。  开通以下服务: ˉ ECS:详情请参见ecs.console.aliyun.com ˉ VPC:详情请参见vpc.console.aliyun.com ˉ RAM:详情请参见ram.console.aliyun.com/overview ˉ OSS:详情请参见oss.console.aliyun.com/overview ˉ EMR:详情请参见emr.console.aliyun.com 文档版本:20200331 3