Ctrl+F / Command+F 全文检索

相关产品

客户案例

相关最佳实践
业务上云 |

传统企业、零售和游戏行业系统分级后单库单服系统云上搭建最佳实践,涉及大部分基础云产品。

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版 负载均衡 SLB CDN 云速搭
DevOps | 容器&微服务 |

使用云效完成容器应用自动化构建和持续部署

专有网络 VPC 负载均衡 SLB 容器服务 ACK 云效 云速搭
业务上云 |

使用云桌面和VPN网关产品快速构建远程办公环境,在云桌面可以访问企业IDC内的应用和资源

云服务器ECS NAT网关 VPN网关 智能接入网关 云桌面
安全&合规 |

使用阿里云实现电商网站运营期间的安全防护,包括防爬风险管理、DDoS防御、风险管理产品的能力及操作

云数据库RDS MySQL 版 负载均衡 SLB DDoS防护 风险识别 爬虫风险管理
容器&微服务 |

使用ACK上运行常规业务,业务突发波动时突增业务运行在ECI上/达到成本的最优控制

云数据库RDS MySQL 版 文件存储NAS 容器服务 ACK 云数据库 Redis 版 弹性容器实例 ECI 云速搭
数据分析 | 数据迁移 |

介绍如何将自建Hadoop集群及生态组件迁移到阿里云MaxCompute大数据服务。

云服务器ECS DataWorks 大数据计算服务 MaxCompute 云数据库 HBase 版 数据总线 云速搭
中间件 | 容器&微服务 |

Spring Cloud应用经过简单改造,迁移到云上企业级分布式应用服务(EDAS),利用EDAS的监控、调用链、限流降级

专有网络 VPC 云服务器ECS 负载均衡 SLB 企业级分布式应用服务 EDAS
中间件 |

介绍如何用 Serverless 应用引擎(SAE)帮助企业极速构建云上微服务应用

专有网络 VPC 负载均衡 SLB 应用实时监控服务 ARMS 云监控 Serverless 应用引擎

温馨提示

未登录用户仅可预览8页内容,请您前往登录后浏览更多企业上云最佳实践案例内容。企业账号建议生成子账号授权访问。

BpFile(id=295, bpId=169, name=MaxCompute湖仓一体方案, author=null, keyword=专有网络 VPC,云服务器ECS,访问控制,运维编排,大数据计算服务 MaxCompute, description=自建数据湖与云数仓的融合解决方案,将MaxCompute与自建的Hive集群做数据打通,通过存储共享,元数据镜像等方式,解决传统模式下的存储冗余,计算资源弹性能力弱的痛点。可大幅度增强系统的资源弹性,解决业务高峰期计算资源不足的问题。, position=null, ossUrl=bp-AOMWBP415LQ92N4H.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=0, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述 自建数据湖与云数仓的融合解决方案,将 MaxCompute与自建的Hive集群做数据打 通,通过存储共享,元数据镜像等方式,解 决传统模式下的存储冗余,计算资源弹性能 力弱的痛点。可大幅度增强系统的资源弹 性,解决业务高峰期计算资源不足的问题。 方案优势 1.业务无侵入性:现有业务无需改造。 2.性能优化:MaxCompute在SQL上做 了大量优化与能力沉淀,可提高SQL 运行性能,降低计算成本。 3.灵活管理:元数据实时同步,无需额外 管理数据同步任务。 4.资源弹性:利用MaxCompute计算池 弹性进行海量数据计算。 解决问题 1.增强业务高峰期的资源弹性。 2.优化自建数据湖的数据治理能力。 3.减少跨平台数据处理的存储冗余。 产品列表 ⚫专有网络VPC ⚫云服务器ECS ⚫访问控制RAM ⚫运维编排OOS ⚫MaxCompute(原ODPS) ⚫云企业网CEN

, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=https://yqh.aliyun.com/live/detail/21793, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null)
1 MaxCompute湖仓一体方案 最佳实践 业务架构 场景描述 自建数据湖与云数仓的融合解决方案,将 MaxCompute与自建的 Hive集群做数据打 通,通过存储共享,元数据镜像等方式,解 决传统模式下的存储冗余,计算资源弹性能 力弱的痛点。可大幅度增强系统的资源弹 性,解决业务高峰期计算资源不足的问题。 湖仓一体兼具数据湖的灵活性与数据仓库 的成长性。 方案优势 1. 业务无侵入性:现有业务无需改造。 2. 性能优化:MaxCompute在 SQL上做 了大量优化与能力沉淀,可提高 SQL 运行性能,降低计算成本。 产品列表 3. 灵活管理:元数据实时同步,无需额外 专有网络 VPC 管理数据同步任务。 云服务器 ECS 4. 资源弹性:利用 MaxCompute计算池 访问控制 RAM 弹性进行海量数据计算。 DataWorks MaxCompute(原 ODPS) 云企业网 CEN 解决问题 加入我们 1. 增强业务高峰期的资源弹性。 2. 优化自建数据湖的数据治理能力。 获取更多最佳实践资讯,请手机钉钉扫码加入阿里云最佳实践生 3. 减少跨平台数据处理的存储冗余。 态群:
2文档模板(手册名称)/Error! Use the Home tab to apply 云服务器 ECS(产品名称) 标题 to the text that you want to appear here. 阿里云 MaxCompute湖仓一体方案 最佳实践 文档版本:20150122(发布日期) II
3文档模板(手册名称)/Error! Use the Home tab to apply 云服务器 ECS(产品名称) 标题 to the text that you want to appear here. 文档版本:20210219 文档版本:20150122(发布日期) III
4MaxCompute湖仓一体方案 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 MaxCompute湖仓一体方案 文档编号 169 文档版本 V1.3 版本日期 2021-06-28 文档状态 外部发布 制作人 启浪 审阅人 明中,七凌 文档变更记录 版本编号 日期 作者 审核人 说明 V1.0 2020-09-22 启浪 明中,七凌 创建 用 EMR 模拟自建 V1.1 2020-12-18 毕役 Hadoop,使用 CADT创建 阿里云资源 V1.2 2021-02-19 毕役 修改第三章节 V1.3 2021-06-28 毕役 删掉 set设置 文档版本:20201218 I
5MaxCompute湖仓一体方案 名词解释 VPC:专有网络 VPC(Virtual Private Cloud)是用户基于阿里云创建的自定义私 有网络, 不同的专有网络之间二层逻辑隔离,用户可以在自己创建的专有网络内创 建和管理云产品实例,比如 ECS、负载均衡、RDS 等。更多信息,请参见: www.aliyun.com/product/vpc ECS:云服务器 ECS(Elastic Compute Service)是一种简单高效、处理能力可 弹性伸缩的计算服务。帮助您构建更稳定、安全的应用,提升运维效率,降低 IT 成本,使您更专注于核心业务创新。更多信息,请参见: www.aliyun.com/product/ecs DataWorks:DataWorks基于 MaxCompute/EMR/MC-Hologres等大数据计算引 擎,为客户提供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴 巴数据中台与数据治理最佳实践,赋能各行业数字化转型。每天阿里巴巴集团内 部有数万名数据/算法工程师正在使用 DataWorks,承担集团 99%数据业务构建。 更多信息,请参见:https://www.aliyun.com/product/bigdata MaxCompute: MaxCompute(原 ODPS)是一项大数据计算服务,它能提供快速、 完全托管的 PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。 更多信息,请参见:www.aliyun.com/product/odps CEN:云企业网(Cloud Enterprise Network)帮助您在 VPC间,VPC与本地数 据中心间搭建私网通信通道,通过自动路由分发及学习,提高网络的快速收敛和 跨网络通信的质量和安全性,实现全网资源的互通,帮助您打造一张具有企业级 规模和通信能力的互联网络。 HDFS:Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分 布式文件系统,它和现有的分布式文件系统有很多共同点。但同时,它和其他的分 布式文件系统的区别也是很明显的。HDFS 是一个高度容错性的系统,适合部署 在廉价的机器上。HDFS 能提供高吞吐量的数据访问,非常适合大规模数据集上 的应用。 Apache Hive:Apache Hive是基于 Hadoop的一个数据仓库工具,可以将结构化 的数据文件映射为一张数据库表,并提供简单的 SQL查询功能,可以将 SQL语 句转换为 MapReduce任务进行运行。其优点是学习成本低,可以通过类 SQL语 句快速实现简单的 MapReduce统计,不必开发专门的 MapReduce应用,十分适 合数据仓库的统计分析。 文档版本:20201218 III
6MaxCompute湖仓一体方案 EMR:阿里云 E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上 使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等 场 景 下 的 大 数 据 解 决 方 案 。 更 多 信 息 , 请 参 见 : https://www.aliyun.com/product/emapreduce 文档版本:20201218 IV
7MaxCompute湖仓一体方案 目录 文档版本信息 ........................................................................................................................................................ I 法律声明 ............................................................................................................................................................... II 名词解释 .............................................................................................................................................................. III 目录 ...................................................................................................................................................................... V 最佳实践概述 ....................................................................................................................................................... 6 前置条件 ............................................................................................................................................................... 8 1. 权限管理 ....................................................................................................................................................... 9 1.1. 创建 RAM用户 .............................................................................................................................. 9 1.2. 授权 MaxCompute角色 ............................................................................................................... 12 1.3. 使用 TPCDS生成测试数据集 ....................................................................................................... 14 2. 资源创建 ..................................................................................................................................................... 13 2.1. CADT构建 .................................................................................................................................... 13 2.2. 资源确认 ...................................................................................................................................... 15 3. 云数仓 MaxCompute ................................................................................................................................... 17 3.1. 创建工作空间 .............................................................................................................................. 17 3.2. 配置 MaxCompute客户端 ........................................................................................................... 18 4. 湖仓连通 ..................................................................................................................................................... 21 4.1. 申请 MaxCompute与 VPC的网络连通 ........................................................................................ 21 4.2. 配置 Hadoop集群的网络安全规则 ............................................................................................. 21 4.3. 创建 Hive数据库和表 .................................................................................................................. 23 4.4. 创建 External Project .................................................................................................................... 25 5. 命令行校验 ................................................................................................................................................. 27 5.1. 查看数据库表 .............................................................................................................................. 27 5.2. 执行 SQL任务 .............................................................................................................................. 27 6. DataWorks执行 ........................................................................................................................................... 30 文档版本:20201218 V
8MaxCompute湖仓一体方案 最佳实践概述 最佳实践概述 技术架构 湖仓一体方案涉及到自下而上三个层面的打通: 1. 网络层:将 MaxCompute数仓集群与 Hadoop数据湖集群打通 2. 存储层:MaxCompute读取 Hadoop HDFS数据,通过智能算法缓存热数据 3. 计算层:MaxCompute读取存放在 Hive的元数据,实现 DB级镜像。 业务部署 1. 假定数据湖 Hadoop集群和云数仓 MaxCompute部署在不同地域,通过云企业网 CEN打通 2. MaxCompute端创建外部项目,镜像 Hive元数据,通过 IPC端口与 namenode和 datanode通信 文档版本:20201218 VI