BpFile(id=163, bpId=36, name=EMR弹性数据湖分析, author=null, keyword=大数据分析,计算存储分离,低成本, description=利用阿里云日志服务、存储服务以及EMR构建弹性低成本大数据日志离线分析系统, position=null, ossUrl=bp-D49APX3CYIP1OG1H.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=
场景描述
基于阿里云的E-MapReduce(EMR) 、对象
存储OSS、日志服务SLS、抢占式ECS实
例、大数据开发平台DataWorks构建弹性、低成本的弹性数据湖。
方案优势
⚫弹性低成本,集群快速部署
⚫支持多种大数据计算模式
⚫无缝对接开源生态
⚫一站式管理平台
解决问题
1.大数据平台运维管理成本高
2.计算资源弹性能力不足
3.海量日志数据下的存储容量不足
4.离线分析场景下的计算资源成本控制
产品列表
⚫E-MapReduce
⚫对象存储OSS
⚫日志服务SLS
⚫专有网络VPC
⚫负载均衡SLB
⚫弹性计算ECS
, templateId=XMRC252GTZ9YU1LI, freetry=null, visitTime=null, visitCount=null, video_url=https://yqh.aliyun.com/live/detail/21999, buttonName=null, buttonUrl=null, targetId=XMRC252GTZ9YU1LI, partner=null, partnerUrl=null, partnerLogo=null, cooperation=, cooperationList=null)
1
EMR弹性数据湖分析 最佳实践
业务架构 场景描述
基于阿里云的 E-MapReduce(EMR) 、对象存
储 OSS、日志服务 SLS、抢占式 ECS实例、
DataWorks构建弹性、低成本的弹性数据湖分
析系统。
方案优势
弹性低成本,集群快速部署
支持多种大数据计算模式
无缝对接开源生态
一站式管理平台
产品列表
解决问题
E-MapReduce
1. 大数据平台运维管理成本高
对象存储 OSS
2. 计算资源弹性能力不足
日志服务 SLS
3. 海量日志数据下的存储容量不足
专有网络 VPC
4. 离线分析场景下的计算资源成本控制
负载均衡 SLB
5. 数据分析作业调度与管理
弹性计算 ECS
数据开发平台 DataWorks
最佳实践频道
阿里云最佳实践技术分享群
2文档模板(手册名称)/Error! Use the Home tab to apply 标
云服务器 ECS(产品名称) 题 to the text that you want to appear here.
阿里云
企业上云实践
EMR弹性数据湖分析
文档版本:20210712(发布日期)
文档版本:20210712(发布日期) 1
3EMR弹性低成本离线大数据分析 文档版本信息
文档版本信息
文本信息
属性 内容
文档名称 EMR弹性数据湖分析
文档编号 036
文档版本 V1.7
版本日期 2021/07/12
文档状态 外部发布
制作人 明誉
审阅人
文档变更记录
版本编号 日期 作者 审核人 说明
V1.0 2019/04/25 明誉 弦望 创建以及文档验证
V1.1 2019/06/17 明誉 更新文档封面等内容
V1.2 2019/08/15 明誉 调整文档格式和内容
V1.3 2020/02/01 明誉 修改在日志投递到 OSS时
的数据类型
V1.4 2020/02/11 明誉 1.根据日志服务 SLS 和
EMR的最新功能进行迭代;;
2.完善一些技术细节说明
V1.5 2020/3/23 明誉 1.增加对数据存储在 OSS
上通过 Hive 外部表的关于
数据表分区及示例加载
OSS日志分区说明;
2.增加对 EMR JindoFS选
型的描述;
3.增加 EMR 的存储选择
OSS或者 HDFS的对比说
明描述;
V1.6 2020/12/14 明誉 使用 CADT开通方案所需资
文档版本:20210712(发布日期) I
4EMR弹性低成本离线大数据分析 文档版本信息
源,并且根据产品功能更新
进行了迭代
V1.7 2021/07/12 衾影 明誉 引入 DataWorks 作为大数
据开发管理平台
文档版本:20210712(发布日期) II
5EMR弹性数据湖分析 前言
前言
概述
大数据是一项设计不同业务和技术的领域的技术和工具的集合,海量离线数据分析可
以应用于多种商业系统环境,例如电商海量日志分析、用户行为画像分析、科研行业
的海量离线计算分析任务等场景。
应用范围
互联网、科学计算等行业用于海量数据离线分析、数据仓库、BI分析等。
名词解释
E-MapReduce(EMR): 阿里云构建于阿里云云服务器 ECS之上的基于开源生态
的大数据系统处理解决方案,包含 Hadoop、Spark、Kafka、Flink、Storm等组
件,让用户可以方便地使用 Hadoop和 Spark生态系统中的其他周边系统(例如
Hive、Pig、HBase等)来分析和处理自己的数据。
日志服务 LOG:LogService,简称 LOG/原 SLS是针对实时数据一站式服务,在
阿里集团经历大量大数据场景锤炼而成,提供日志类数据采集、消费、投递及查
询分析功能,全面提升海量日志处理/分析能力,服务智能研发/运维/运营/安全等
场景。
CADT(云架构设计工具): 是一款为上云应用提供自助式云架构管理的产品,显著
地降低应用云上管理的难度和时间成本。本产品提供大量预制的应用架构模版,
同时也支持自助拖拽方式定义云上架构;支持大量阿里云服务的配置和管理。
对象存储(OSS):对象存储(OSS):是阿里云提供的海量、安全、低成本、高可靠的
云存储服务。用户可以在任何应用、任何时间、任何地点存储和访问任意类型的
数据。
弹性伸缩服务(ESS):弹性伸缩可以根据用户设置的伸缩规则,自动调整弹性资源
大小,在业务需求增长时自动增加 ECS实例以保证计算能力,在业务需求下降时
自动减少 ECS实例以节约成本。
抢占式 ECS实例:抢占式 ECS实例是一种按需实例,可以降低用户在部分应用
场景下使用 ECS的成本,例如可弹性伸缩的 Web站点服务、图像渲染、大数据
分析和大规模并行计算等,应用程序的分布度、可扩展性和容错能力越高,使用
抢占式实例越能节省成本和提升吞吐量。
文档版本:20210712(发布日期) IV
6EMR弹性数据湖分析 前言
DataWorks: DataWorks(数据工场,原大数据开发套件 )是阿里云重要的
PaaS(Platform as a Service)平台产品,为用户提供数据集成、数据开发、数据地
图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企
业专注于数据价值的挖掘和探索。
联系作者钉钉二维码
文档版本:20210712(发布日期) V
7EMR弹性数据湖分析 最佳实践概述
最佳实践描述
概述
本实践结合阿里云 EMR以及日志服务 LOG、对象存储 OSS、抢占式 ECS实例、弹
性伸缩等产品,以电商网站日志埋点采集存储投递并利用 EMR进行日志消费分析并
且利用阿里云 DataWorks 来作为大数据开发管理平台来展示了如何构建弹性低成本
的离线海量日志大数据分析最佳实践。
场景描述
主流的三大分布式计算框架系统分别为 Hadoop、Spark和 Storm, Hadoop可以运用
在 很多商业应用系统,可以轻松集成结构化、半结构化以及非结构化数据集,Spark
采用了内存计算,允许数据载入内存作反复查询,融合数据仓库、流处理和图形计算
等多种计算范式,Spark能够与 Hadoop很好地结合,Storm用于处理高速、大型数
据流的分布式实时计算系用,为 Hadoop添加可靠的实时数据处理能力。海量离线数
据分析可以应用于多种商业系统环境,例如电商海量日志分析、用户行为画像分析;
科研行业例如海量离线计算分析和数据查询;游戏行业的游戏日志分析、用户行为分
析;商业用户数据仓库解决方案的 BI分析、多维分析报表;大型企业的海量 IT运维
日志分析等。
方案架构和优势
方案架构
方案优势
ᅳ 高性能、低成本
ᅳ 快速部署
文档版本:20210712(发布日期) VI
8EMR弹性数据湖分析 最佳实践概述
ᅳ 弹性
ᅳ 多种计算模式
ᅳ 无缝对接开源生态
ᅳ 一站式管理平台
文档版本:20210712(发布日期) VII