Ctrl+F / Command+F 全文检索

相关产品

客户案例

相关最佳实践
业务上云 |

传统企业、零售和游戏行业系统分级后单库单服系统云上搭建最佳实践,涉及大部分基础云产品。

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版 负载均衡 SLB CDN 云速搭
DevOps | 容器&微服务 |

使用云效完成容器应用自动化构建和持续部署

专有网络 VPC 负载均衡 SLB 容器服务 ACK 云效 云速搭
业务上云 |

使用云桌面和VPN网关产品快速构建远程办公环境,在云桌面可以访问企业IDC内的应用和资源

云服务器ECS NAT网关 VPN网关 智能接入网关 云桌面
数据分析 |

利用阿里云日志服务、存储服务以及EMR构建弹性低成本大数据日志离线分析系统

块存储 云服务器ECS 对象存储 OSS 日志服务(SLS) E-MapReduce 云速搭
容器&微服务 |

使用ACK上运行常规业务,业务突发波动时突增业务运行在ECI上/达到成本的最优控制

云数据库RDS MySQL 版 文件存储NAS 容器服务 ACK 云数据库 Redis 版 弹性容器实例 ECI 云速搭
安全&合规 |

使用阿里云实现电商网站运营期间的安全防护,包括防爬风险管理、DDoS防御、风险管理产品的能力及操作

云数据库RDS MySQL 版 负载均衡 SLB DDoS防护 风险识别 爬虫风险管理
数据分析 |

针对资讯聚合类业务场景,Step by Step介绍如何搭建实时数仓

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版 NAT网关 云原生数据仓库AnalyticDB MySQL版 云速搭
数据分析 |

使用阿里云服务实现电商网站销售数据离线分析后在大屏幕上展示/极大地增强数据的可读性。

云服务器ECS 云数据库RDS MySQL 版 DataWorks 大数据计算服务 MaxCompute DataV数据可视化 API网关 云速搭
数据分析 |

Spark和云原生结合提供计算与存储分离的高性价比大数据分析

专有网络 VPC 对象存储 OSS 容器服务 ACK 弹性容器实例 ECI 文件存储HDFS
数据分析 |

电商网站向用户推荐带有商品属性物品以促进交易,提升购买率和转化率

云服务器ECS 云数据库RDS MySQL 版 日志服务(SLS) 大数据计算服务 MaxCompute 智能推荐 云速搭

温馨提示

未登录用户仅可预览8页内容,请您前往登录后浏览更多企业上云最佳实践案例内容。企业账号建议生成子账号授权访问。

BpFile(id=163, bpId=36, name=EMR弹性数据湖分析, author=null, keyword=大数据分析,计算存储分离,低成本, description=利用阿里云日志服务、存储服务以及EMR构建弹性低成本大数据日志离线分析系统, position=null, ossUrl=bp-CQRE28WW20L9CYNV.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述 基于阿里云的E-MapReduce(EMR) 、对象 存储OSS、日志服务SLS、抢占式ECS实 例、大数据开发平台DataWorks构建弹性、低成本的弹性数据湖。 方案优势 ⚫弹性低成本,集群快速部署 ⚫支持多种大数据计算模式 ⚫无缝对接开源生态 ⚫一站式管理平台 解决问题 1.大数据平台运维管理成本高 2.计算资源弹性能力不足 3.海量日志数据下的存储容量不足 4.离线分析场景下的计算资源成本控制 产品列表 ⚫E-MapReduce ⚫对象存储OSS ⚫日志服务SLS ⚫专有网络VPC ⚫负载均衡SLB ⚫弹性计算ECS

, templateId=XEKYZ31H96RYF68V, freetry=null, visitTime=null, visitCount=null, video_url=https://yqh.aliyun.com/live/detail/21999, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null)
1 EMR弹性数据湖分析 最佳实践 业务架构 场景描述 基于阿里云的 E-MapReduce(EMR) 、对象存 储 OSS、日志服务 SLS、抢占式 ECS实例、 DataWorks构建弹性、低成本的弹性数据湖分 析系统。 方案优势 弹性低成本,集群快速部署 支持多种大数据计算模式 无缝对接开源生态 一站式管理平台 产品列表 解决问题 E-MapReduce 1. 大数据平台运维管理成本高 对象存储 OSS 2. 计算资源弹性能力不足 日志服务 SLS 3. 海量日志数据下的存储容量不足 专有网络 VPC 4. 离线分析场景下的计算资源成本控制 负载均衡 SLB 5. 数据分析作业调度与管理 弹性计算 ECS 数据开发平台 DataWorks 最佳实践频道 阿里云最佳实践技术分享群
2文档模板(手册名称)/Error! Use the Home tab to apply 标 云服务器 ECS(产品名称) 题 to the text that you want to appear here. 阿里云 企业上云实践 EMR弹性数据湖分析 文档版本:20210712(发布日期) 文档版本:20210712(发布日期) 1
3EMR弹性低成本离线大数据分析 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 EMR弹性数据湖分析 文档编号 036 文档版本 V1.7 版本日期 2021/07/12 文档状态 外部发布 制作人 明誉 审阅人 文档变更记录 版本编号 日期 作者 审核人 说明 V1.0 2019/04/25 明誉 弦望 创建以及文档验证 V1.1 2019/06/17 明誉 更新文档封面等内容 V1.2 2019/08/15 明誉 调整文档格式和内容 V1.3 2020/02/01 明誉 修改在日志投递到 OSS时 的数据类型 V1.4 2020/02/11 明誉 1.根据日志服务 SLS 和 EMR的最新功能进行迭代;; 2.完善一些技术细节说明 V1.5 2020/3/23 明誉 1.增加对数据存储在 OSS 上通过 Hive 外部表的关于 数据表分区及示例加载 OSS日志分区说明; 2.增加对 EMR JindoFS选 型的描述; 3.增加 EMR 的存储选择 OSS或者 HDFS的对比说 明描述; V1.6 2020/12/14 明誉 使用 CADT开通方案所需资 文档版本:20210712(发布日期) I
4EMR弹性低成本离线大数据分析 文档版本信息 源,并且根据产品功能更新 进行了迭代 V1.7 2021/07/12 衾影 明誉 引入 DataWorks 作为大数 据开发管理平台 文档版本:20210712(发布日期) II
5EMR弹性数据湖分析 前言 前言 概述 大数据是一项设计不同业务和技术的领域的技术和工具的集合,海量离线数据分析可 以应用于多种商业系统环境,例如电商海量日志分析、用户行为画像分析、科研行业 的海量离线计算分析任务等场景。 应用范围 互联网、科学计算等行业用于海量数据离线分析、数据仓库、BI分析等。 名词解释 E-MapReduce(EMR): 阿里云构建于阿里云云服务器 ECS之上的基于开源生态 的大数据系统处理解决方案,包含 Hadoop、Spark、Kafka、Flink、Storm等组 件,让用户可以方便地使用 Hadoop和 Spark生态系统中的其他周边系统(例如 Hive、Pig、HBase等)来分析和处理自己的数据。 日志服务 LOG:LogService,简称 LOG/原 SLS是针对实时数据一站式服务,在 阿里集团经历大量大数据场景锤炼而成,提供日志类数据采集、消费、投递及查 询分析功能,全面提升海量日志处理/分析能力,服务智能研发/运维/运营/安全等 场景。 CADT(云架构设计工具): 是一款为上云应用提供自助式云架构管理的产品,显著 地降低应用云上管理的难度和时间成本。本产品提供大量预制的应用架构模版, 同时也支持自助拖拽方式定义云上架构;支持大量阿里云服务的配置和管理。 对象存储(OSS):对象存储(OSS):是阿里云提供的海量、安全、低成本、高可靠的 云存储服务。用户可以在任何应用、任何时间、任何地点存储和访问任意类型的 数据。 弹性伸缩服务(ESS):弹性伸缩可以根据用户设置的伸缩规则,自动调整弹性资源 大小,在业务需求增长时自动增加 ECS实例以保证计算能力,在业务需求下降时 自动减少 ECS实例以节约成本。 抢占式 ECS实例:抢占式 ECS实例是一种按需实例,可以降低用户在部分应用 场景下使用 ECS的成本,例如可弹性伸缩的 Web站点服务、图像渲染、大数据 分析和大规模并行计算等,应用程序的分布度、可扩展性和容错能力越高,使用 抢占式实例越能节省成本和提升吞吐量。 文档版本:20210712(发布日期) IV
6EMR弹性数据湖分析 前言 DataWorks: DataWorks(数据工场,原大数据开发套件 )是阿里云重要的 PaaS(Platform as a Service)平台产品,为用户提供数据集成、数据开发、数据地 图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企 业专注于数据价值的挖掘和探索。 联系作者钉钉二维码 文档版本:20210712(发布日期) V
7EMR弹性数据湖分析 最佳实践概述 最佳实践描述 概述 本实践结合阿里云 EMR以及日志服务 LOG、对象存储 OSS、抢占式 ECS实例、弹 性伸缩等产品,以电商网站日志埋点采集存储投递并利用 EMR进行日志消费分析并 且利用阿里云 DataWorks 来作为大数据开发管理平台来展示了如何构建弹性低成本 的离线海量日志大数据分析最佳实践。 场景描述 主流的三大分布式计算框架系统分别为 Hadoop、Spark和 Storm, Hadoop可以运用 在 很多商业应用系统,可以轻松集成结构化、半结构化以及非结构化数据集,Spark 采用了内存计算,允许数据载入内存作反复查询,融合数据仓库、流处理和图形计算 等多种计算范式,Spark能够与 Hadoop很好地结合,Storm用于处理高速、大型数 据流的分布式实时计算系用,为 Hadoop添加可靠的实时数据处理能力。海量离线数 据分析可以应用于多种商业系统环境,例如电商海量日志分析、用户行为画像分析; 科研行业例如海量离线计算分析和数据查询;游戏行业的游戏日志分析、用户行为分 析;商业用户数据仓库解决方案的 BI分析、多维分析报表;大型企业的海量 IT运维 日志分析等。 方案架构和优势 方案架构 方案优势 ᅳ 高性能、低成本 ᅳ 快速部署 文档版本:20210712(发布日期) VI
8EMR弹性数据湖分析 最佳实践概述 ᅳ 弹性 ᅳ 多种计算模式 ᅳ 无缝对接开源生态 ᅳ 一站式管理平台 文档版本:20210712(发布日期) VII