BpFile(id=295, bpId=169, name=MaxCompute湖仓一体方案, author=null, keyword=专有网络 VPC,云服务器ECS,访问控制,运维编排,大数据计算服务 MaxCompute, description=自建数据湖与云数仓的融合解决方案,将MaxCompute与自建的Hive集群做数据打通,通过存储共享,元数据镜像等方式,解决传统模式下的存储冗余,计算资源弹性能力弱的痛点。可大幅度增强系统的资源弹性,解决业务高峰期计算资源不足的问题。, position=null, ossUrl=bp-BBKJTLSE9VHUOQVF.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=
场景描述
自建数据湖与云数仓的融合解决方案,将
MaxCompute与自建的Hive集群做数据打
通,通过存储共享,元数据镜像等方式,解
决传统模式下的存储冗余,计算资源弹性能
力弱的痛点。可大幅度增强系统的资源弹
性,解决业务高峰期计算资源不足的问题。
方案优势
1.业务无侵入性:现有业务无需改造。
2.性能优化:MaxCompute在SQL上做
了大量优化与能力沉淀,可提高SQL
运行性能,降低计算成本。
3.灵活管理:元数据实时同步,无需额外
管理数据同步任务。
4.资源弹性:利用MaxCompute计算池
弹性进行海量数据计算。
解决问题
1.增强业务高峰期的资源弹性。
2.优化自建数据湖的数据治理能力。
3.减少跨平台数据处理的存储冗余。
产品列表
⚫专有网络VPC
⚫云服务器ECS
⚫访问控制RAM
⚫运维编排OOS
⚫MaxCompute(原ODPS)
⚫云企业网CEN
, templateId=A9KAHEZ2BKUCFA9D, freetry=null, visitTime=null, visitCount=null, video_url=https://yqh.aliyun.com/live/detail/21793, buttonName=null, buttonUrl=null, targetId=A9KAHEZ2BKUCFA9D, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null)
1
MaxCompute湖仓一体方案 最佳实践
业务架构 场景描述
自建数据湖与云数仓的融合解决方案,将
MaxCompute与自建的 Hive集群做数据打
通,通过存储共享,元数据镜像等方式,解
决传统模式下的存储冗余,计算资源弹性能
力弱的痛点。可大幅度增强系统的资源弹
性,解决业务高峰期计算资源不足的问题。
湖仓一体兼具数据湖的灵活性与数据仓库
的成长性。
方案优势
1. 业务无侵入性:现有业务无需改造。
2. 性能优化:MaxCompute在 SQL上做
了大量优化与能力沉淀,可提高 SQL
运行性能,降低计算成本。
产品列表
3. 灵活管理:元数据实时同步,无需额外
专有网络 VPC
管理数据同步任务。
云服务器 ECS
4. 资源弹性:利用 MaxCompute计算池
访问控制 RAM
弹性进行海量数据计算。
DataWorks
MaxCompute(原 ODPS)
云企业网 CEN
解决问题
加入我们
1. 增强业务高峰期的资源弹性。
2. 优化自建数据湖的数据治理能力。
获取更多最佳实践资讯,请手机钉钉扫码加入阿里云最佳实践生
3. 减少跨平台数据处理的存储冗余。
态群:
2文档模板(手册名称)/Error! Use the Home tab to apply
云服务器 ECS(产品名称) 标题 to the text that you want to appear here.
阿里云
MaxCompute湖仓一体方案
最佳实践
文档版本:20150122(发布日期) II
3文档模板(手册名称)/Error! Use the Home tab to apply
云服务器 ECS(产品名称) 标题 to the text that you want to appear here.
文档版本:20210219
文档版本:20150122(发布日期) III
4MaxCompute湖仓一体方案 文档版本信息
文档版本信息
文本信息
属性 内容
文档名称 MaxCompute湖仓一体方案
文档编号 169
文档版本 V1.3
版本日期 2021-06-28
文档状态 外部发布
制作人 启浪
审阅人 明中,七凌
文档变更记录
版本编号 日期 作者 审核人 说明
V1.0 2020-09-22 启浪 明中,七凌 创建
用 EMR 模拟自建
V1.1 2020-12-18 毕役 Hadoop,使用 CADT创建
阿里云资源
V1.2 2021-02-19 毕役 修改第三章节
V1.3 2021-06-28 毕役 删掉 set设置
文档版本:20201218 I
5MaxCompute湖仓一体方案
名词解释
VPC:专有网络 VPC(Virtual Private Cloud)是用户基于阿里云创建的自定义私
有网络, 不同的专有网络之间二层逻辑隔离,用户可以在自己创建的专有网络内创
建和管理云产品实例,比如 ECS、负载均衡、RDS 等。更多信息,请参见:
www.aliyun.com/product/vpc
ECS:云服务器 ECS(Elastic Compute Service)是一种简单高效、处理能力可
弹性伸缩的计算服务。帮助您构建更稳定、安全的应用,提升运维效率,降低 IT
成本,使您更专注于核心业务创新。更多信息,请参见:
www.aliyun.com/product/ecs
DataWorks:DataWorks基于 MaxCompute/EMR/MC-Hologres等大数据计算引
擎,为客户提供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴
巴数据中台与数据治理最佳实践,赋能各行业数字化转型。每天阿里巴巴集团内
部有数万名数据/算法工程师正在使用 DataWorks,承担集团 99%数据业务构建。
更多信息,请参见:https://www.aliyun.com/product/bigdata
MaxCompute: MaxCompute(原 ODPS)是一项大数据计算服务,它能提供快速、
完全托管的 PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。
更多信息,请参见:www.aliyun.com/product/odps
CEN:云企业网(Cloud Enterprise Network)帮助您在 VPC间,VPC与本地数
据中心间搭建私网通信通道,通过自动路由分发及学习,提高网络的快速收敛和
跨网络通信的质量和安全性,实现全网资源的互通,帮助您打造一张具有企业级
规模和通信能力的互联网络。
HDFS:Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分
布式文件系统,它和现有的分布式文件系统有很多共同点。但同时,它和其他的分
布式文件系统的区别也是很明显的。HDFS 是一个高度容错性的系统,适合部署
在廉价的机器上。HDFS 能提供高吞吐量的数据访问,非常适合大规模数据集上
的应用。
Apache Hive:Apache Hive是基于 Hadoop的一个数据仓库工具,可以将结构化
的数据文件映射为一张数据库表,并提供简单的 SQL查询功能,可以将 SQL语
句转换为 MapReduce任务进行运行。其优点是学习成本低,可以通过类 SQL语
句快速实现简单的 MapReduce统计,不必开发专门的 MapReduce应用,十分适
合数据仓库的统计分析。
文档版本:20201218 III
6MaxCompute湖仓一体方案
EMR:阿里云 E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源
Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上
使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等
场 景 下 的 大 数 据 解 决 方 案 。 更 多 信 息 , 请 参 见 :
https://www.aliyun.com/product/emapreduce
文档版本:20201218 IV
7MaxCompute湖仓一体方案
目录
文档版本信息 ........................................................................................................................................................ I
法律声明 ............................................................................................................................................................... II
名词解释 .............................................................................................................................................................. III
目录 ...................................................................................................................................................................... V
最佳实践概述 ....................................................................................................................................................... 6
前置条件 ............................................................................................................................................................... 8
1. 权限管理 ....................................................................................................................................................... 9
1.1. 创建 RAM用户 .............................................................................................................................. 9
1.2. 授权 MaxCompute角色 ............................................................................................................... 12
1.3. 使用 TPCDS生成测试数据集 ....................................................................................................... 14
2. 资源创建 ..................................................................................................................................................... 13
2.1. CADT构建 .................................................................................................................................... 13
2.2. 资源确认 ...................................................................................................................................... 15
3. 云数仓 MaxCompute ................................................................................................................................... 17
3.1. 创建工作空间 .............................................................................................................................. 17
3.2. 配置 MaxCompute客户端 ........................................................................................................... 18
4. 湖仓连通 ..................................................................................................................................................... 21
4.1. 申请 MaxCompute与 VPC的网络连通 ........................................................................................ 21
4.2. 配置 Hadoop集群的网络安全规则 ............................................................................................. 21
4.3. 创建 Hive数据库和表 .................................................................................................................. 23
4.4. 创建 External Project .................................................................................................................... 25
5. 命令行校验 ................................................................................................................................................. 27
5.1. 查看数据库表 .............................................................................................................................. 27
5.2. 执行 SQL任务 .............................................................................................................................. 27
6. DataWorks执行 ........................................................................................................................................... 30
文档版本:20201218 V
8MaxCompute湖仓一体方案 最佳实践概述
最佳实践概述
技术架构
湖仓一体方案涉及到自下而上三个层面的打通:
1. 网络层:将 MaxCompute数仓集群与 Hadoop数据湖集群打通
2. 存储层:MaxCompute读取 Hadoop HDFS数据,通过智能算法缓存热数据
3. 计算层:MaxCompute读取存放在 Hive的元数据,实现 DB级镜像。
业务部署
1. 假定数据湖 Hadoop集群和云数仓 MaxCompute部署在不同地域,通过云企业网
CEN打通
2. MaxCompute端创建外部项目,镜像 Hive元数据,通过 IPC端口与 namenode和
datanode通信
文档版本:20201218 VI