阿里云全部技术解决方案

MaxCompute湖仓一体方案

客户案例

相关推荐

专有网络 VPC

帮助您基于阿里云构建出一个隔离的网络环境，并可以自定义IP 地址范围、网段、路由表和网关等；此外，也可以通过专线/VPN/GRE等连接方式实现云上VPC与传统IDC的互联，构建混合云业务。

云服务器ECS

云服务器 ECS（Elastic Compute Service）是一种弹性可伸缩的计算服务，助您降低 IT 成本，提升运维效率，使您更专注于核心业务创新。

云企业网

阿里云致力于为用户提供优质、高效、稳定的网络传输环境，云企业网（Cloud Enterprise Network）将提供一种能够快速构建混合云和分布式业务系统的全球网络，帮助用户打造一张具有企业级规模和通信能力的云上网络。

E-MapReduce

E-MapReduce是构建于阿里云ECS弹性虚拟机之上，利用开源大数据生态系统，包括Hadoop、Spark、Kafka和Storm，为用户提供集群、作业、数据等管理的一站式大数据处理分析业务。

大数据计算服务 MaxCompute

MaxCompute（原ODPS）是一项大数据计算服务，它能提供快速、完全托管的PB级数据仓库解决方案，使您可以经济并高效的分析处理海量数据。

运维编排

阿里云运维编排服务（OOS）是一个全面的云上自动化运维平台，提供了运维任务的管理和执行。使用场景有：事件驱动，批量操作，定时运维任务，跨地域等，OOS特别为重要的场景提供了审批，通知等功能。OOS支持跨产品使用，您可以使用OOS管理ECS、RDS、SLB、VPC等云产品。

云速搭CADT

云速搭CADT是一款为上云应用提供自助式云架构管理的产品，显著地降低应用云上管理的难度和时间成本。本产品提供丰富的预制应用架构模板，同时也支持自助拖拽方式定义应用云上架构；支持较多阿里云服务的配置和管理。用户可以方便的对云上架构方案的成本、部署、运维、回收进行全生命周期的管理。

广州市乐无边教育科技有限公司

高考直通车是广州市乐无边教育科技有限公司打造的全国中学生在线学习交流平台。作为全国中学生在线学习平台，数据分析能力是我们业务的核心，近期我们在做云上大数据架构选型，云上的产品非常多，选择合适的产品和架构非常困难，通过阿里云业务团队和最佳实践团队的推荐，如数据湖-在线学习场景数据分析、MaxCompute湖仓一体化方案、离线大数据分析等最佳实践，让我们快速了解云上大数据不同场景的应用，帮助我们选择合适的架构，而且所有最佳实践都有完整可落地的实操，参考最佳实践实操上云非常方便，大大节约了我们的摸索的过程，有效促进项目落地。

上海数禾信息技术有限公司

数禾科技成立于2015年8月，是分众传媒、红杉资本、新浪等联合投资的C轮金融科技公司。公司的愿景是做陪伴用户一生的智能金融家，秉承开放，挑战，专业，创新的价值观，让人人享有金融服务最优解。公司的主要产品是还呗和拿铁智投，主要提供信贷，理财，电商等服务，已经拥有8000万注册用户。作为国内金融科技代表性企业，数禾科技率先将大数据和AI技术引入智能获客、智能风控、智能运营、智能客服等多个方面。截至目前，数禾科技已与包括银行、信贷、持牌消金、基金和保险等在内的100余家金融机构展开合作。

上海领视信息科技公司

领视信息科技是一家致力于网络智能教育的科技公司，旗下领视教育服务云系统专注为各类培训学校搭建自己的“互联网平台”，打造自己品牌的教学招生APP，为培训学校提供完整的线下、线上教学和管理的解决方案。

云上网站经典架构

基于ECS、RDS和SLB经典云上架构，应对传统IDC在成本预估、系统稳定性、灾备等方面的挑战。

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版对象存储 OSS 负载均衡 SLB CDN 云速搭CADT

云效+ACK构建容器云Devops平台

使用云效完成容器应用自动化构建和持续部署

专有网络 VPC 负载均衡 SLB 容器服务 ACK 云效云速搭CADT

云桌面远程办公

使用云桌面和VPN网关产品快速构建远程办公环境，在云桌面可以访问企业IDC内的应用和资源

云服务器ECS NAT网关 VPN网关智能接入网关云桌面

电商网站业务安全

使用阿里云实现电商网站运营期间的安全防护，包括防爬风险管理、DDoS防御、风险管理产品的能力及操作

云数据库RDS MySQL 版负载均衡 SLB DDoS防护风险识别爬虫风险管理云速搭CADT

基于ECI的ACK集群高弹性架构

使用ACK上运行常规业务，业务突发波动时突增业务运行在ECI上/达到成本的最优控制

云数据库RDS MySQL 版文件存储NAS 容器服务 ACK 云数据库 Redis 版弹性容器实例 ECI 云速搭CADT

自建Hadoop迁移MaxCompute

介绍如何将自建Hadoop集群及生态组件迁移到阿里云MaxCompute大数据服务。

云服务器ECS DataWorks 大数据计算服务 MaxCompute 云数据库 HBase 版数据总线云速搭CADT

基于MaxCompute的大数据BI分析

在互联网、电商及游戏等行业通常需要对海量数据做快速实时分析和决策/本文演示如何将业务数据和日志数据通过MaxCompute处理后汇总到ADB/并通过QuickBI等工具进行可视化分析的方案。

日志服务（SLS）大数据计算服务 MaxCompute 云原生数据仓库AnalyticDB MySQL版 Quick BI 云速搭CADT

Spring Cloud Netflix应用迁移EDAS

Spring Cloud应用经过简单改造，迁移到云上企业级分布式应用服务(EDAS），利用EDAS的监控、调用链、限流降级

专有网络 VPC 云服务器ECS 负载均衡 SLB 企业级分布式应用服务 EDAS

微服务应用的Serverless(SAE)部署

介绍如何通过 Serverless 应用引擎（SAE）帮助企业极速构建云上微服务应用

专有网络 VPC 负载均衡 SLB 应用实时监控服务 ARMS 云监控 Serverless 应用引擎

服务器迁移

使用阿里云提供的迁移工具将物理服务器、虚拟机以及其他云平台云主机一站式地迁移到阿里云ECS

专有网络 VPC 云服务器ECS 服务器迁移中心云速搭CADT

资源管理

指定结算账号统筹管理企业多个阿里云账号及资源，使用资源组按照项目或应用视角来进行分组管理和访问管控。

资源管理

数据湖-在线学习场景数据分析

本场景以在线教育中一个答题闯关类的应用为例，使用Web Server来模拟演示这类日志数据的分析处理。通过Nginx和Python flask搭建Web Server，模拟应用中的关键页面，比如登录、课程内容等，之后构造若干用户使用的模拟日志数据，投递到数据湖进行分析后获取应用PV、UV、课程内容访问排行、平均得分等等。

专有网络 VPC 云服务器ECS 对象存储 OSS 访问控制 E-MapReduce

探索阿里云产品，构建云上应用和服务

免费试用

客户案例

探索阿里云产品，构建云上应用和服务

免费试用

BpFile(id=295, bpId=169, name=MaxCompute湖仓一体方案, author=null, keyword=专有网络 VPC,云服务器ECS,访问控制,运维编排,大数据计算服务 MaxCompute, description=自建数据湖与云数仓的融合解决方案，将MaxCompute与自建的Hive集群做数据打通，通过存储共享，元数据镜像等方式，解决传统模式下的存储冗余，计算资源弹性能力弱的痛点。可大幅度增强系统的资源弹性，解决业务高峰期计算资源不足的问题。, position=null, ossUrl=bp-BBKJTLSE9VHUOQVF.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述自建数据湖与云数仓的融合解决方案，将 MaxCompute与自建的Hive集群做数据打通，通过存储共享，元数据镜像等方式，解决传统模式下的存储冗余，计算资源弹性能力弱的痛点。可大幅度增强系统的资源弹性，解决业务高峰期计算资源不足的问题。方案优势 1.业务无侵入性：现有业务无需改造。 2.性能优化：MaxCompute在SQL上做了大量优化与能力沉淀，可提高SQL 运行性能，降低计算成本。 3.灵活管理：元数据实时同步，无需额外管理数据同步任务。 4.资源弹性：利用MaxCompute计算池弹性进行海量数据计算。解决问题 1.增强业务高峰期的资源弹性。 2.优化自建数据湖的数据治理能力。 3.减少跨平台数据处理的存储冗余。产品列表 ⚫专有网络VPC ⚫云服务器ECS ⚫访问控制RAM ⚫运维编排OOS ⚫MaxCompute（原ODPS） ⚫云企业网CEN

, templateId=A9KAHEZ2BKUCFA9D, freetry=null, visitTime=null, visitCount=null, video_url=https://yqh.aliyun.com/live/detail/21793, buttonName=null, buttonUrl=null, targetId=A9KAHEZ2BKUCFA9D, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null)

1 MaxCompute湖仓一体方案最佳实践业务架构场景描述自建数据湖与云数仓的融合解决方案，将 MaxCompute与自建的 Hive集群做数据打通，通过存储共享，元数据镜像等方式，解决传统模式下的存储冗余，计算资源弹性能力弱的痛点。可大幅度增强系统的资源弹性，解决业务高峰期计算资源不足的问题。湖仓一体兼具数据湖的灵活性与数据仓库的成长性。方案优势 1. 业务无侵入性：现有业务无需改造。 2. 性能优化：MaxCompute在 SQL上做了大量优化与能力沉淀，可提高 SQL 运行性能，降低计算成本。产品列表 3. 灵活管理：元数据实时同步，无需额外专有网络 VPC 管理数据同步任务。云服务器 ECS 4. 资源弹性：利用 MaxCompute计算池访问控制 RAM 弹性进行海量数据计算。 DataWorks MaxCompute（原 ODPS）云企业网 CEN 解决问题加入我们 1. 增强业务高峰期的资源弹性。 2. 优化自建数据湖的数据治理能力。获取更多最佳实践资讯，请手机钉钉扫码加入阿里云最佳实践生 3. 减少跨平台数据处理的存储冗余。态群：

2文档模板（手册名称）/Error! Use the Home tab to apply 云服务器 ECS（产品名称）标题 to the text that you want to appear here. 阿里云 MaxCompute湖仓一体方案最佳实践文档版本：20150122（发布日期） II

3文档模板（手册名称）/Error! Use the Home tab to apply 云服务器 ECS（产品名称）标题 to the text that you want to appear here. 文档版本：20210219 文档版本：20150122（发布日期） III

4MaxCompute湖仓一体方案文档版本信息文档版本信息文本信息属性内容文档名称 MaxCompute湖仓一体方案文档编号 169 文档版本 V1.3 版本日期 2021-06-28 文档状态外部发布制作人启浪审阅人明中，七凌文档变更记录版本编号日期作者审核人说明 V1.0 2020-09-22 启浪明中，七凌创建用 EMR 模拟自建 V1.1 2020-12-18 毕役 Hadoop，使用 CADT创建阿里云资源 V1.2 2021-02-19 毕役修改第三章节 V1.3 2021-06-28 毕役删掉 set设置文档版本：20201218 I

5MaxCompute湖仓一体方案名词解释 VPC：专有网络 VPC（Virtual Private Cloud）是用户基于阿里云创建的自定义私有网络, 不同的专有网络之间二层逻辑隔离，用户可以在自己创建的专有网络内创建和管理云产品实例，比如 ECS、负载均衡、RDS 等。更多信息，请参见： www.aliyun.com/product/vpc ECS：云服务器 ECS（Elastic Compute Service）是一种简单高效、处理能力可弹性伸缩的计算服务。帮助您构建更稳定、安全的应用，提升运维效率，降低 IT 成本，使您更专注于核心业务创新。更多信息，请参见： www.aliyun.com/product/ecs DataWorks：DataWorks基于 MaxCompute/EMR/MC-Hologres等大数据计算引擎，为客户提供专业高效、安全可靠的一站式大数据开发与治理平台，自带阿里巴巴数据中台与数据治理最佳实践，赋能各行业数字化转型。每天阿里巴巴集团内部有数万名数据/算法工程师正在使用 DataWorks，承担集团 99%数据业务构建。更多信息，请参见：https://www.aliyun.com/product/bigdata MaxCompute： MaxCompute（原 ODPS）是一项大数据计算服务，它能提供快速、完全托管的 PB级数据仓库解决方案，使您可以经济并高效的分析处理海量数据。更多信息，请参见：www.aliyun.com/product/odps CEN：云企业网（Cloud Enterprise Network）帮助您在 VPC间，VPC与本地数据中心间搭建私网通信通道，通过自动路由分发及学习，提高网络的快速收敛和跨网络通信的质量和安全性，实现全网资源的互通，帮助您打造一张具有企业级规模和通信能力的互联网络。 HDFS：Hadoop分布式文件系统（HDFS）被设计成适合运行在通用硬件上的分布式文件系统，它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS 是一个高度容错性的系统，适合部署在廉价的机器上。HDFS 能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。 Apache Hive：Apache Hive是基于 Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的 SQL查询功能，可以将 SQL语句转换为 MapReduce任务进行运行。其优点是学习成本低，可以通过类 SQL语句快速实现简单的 MapReduce统计，不必开发专门的 MapReduce应用，十分适合数据仓库的统计分析。文档版本：20201218 III

6MaxCompute湖仓一体方案 EMR：阿里云 E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。更多信息，请参见： https://www.aliyun.com/product/emapreduce 文档版本：20201218 IV

7MaxCompute湖仓一体方案目录文档版本信息 ........................................................................................................................................................ I 法律声明 ............................................................................................................................................................... II 名词解释 .............................................................................................................................................................. III 目录 ...................................................................................................................................................................... V 最佳实践概述 ....................................................................................................................................................... 6 前置条件 ............................................................................................................................................................... 8 1. 权限管理 ....................................................................................................................................................... 9 1.1. 创建 RAM用户 .............................................................................................................................. 9 1.2. 授权 MaxCompute角色 ............................................................................................................... 12 1.3. 使用 TPCDS生成测试数据集 ....................................................................................................... 14 2. 资源创建 ..................................................................................................................................................... 13 2.1. CADT构建 .................................................................................................................................... 13 2.2. 资源确认 ...................................................................................................................................... 15 3. 云数仓 MaxCompute ................................................................................................................................... 17 3.1. 创建工作空间 .............................................................................................................................. 17 3.2. 配置 MaxCompute客户端 ........................................................................................................... 18 4. 湖仓连通 ..................................................................................................................................................... 21 4.1. 申请 MaxCompute与 VPC的网络连通 ........................................................................................ 21 4.2. 配置 Hadoop集群的网络安全规则 ............................................................................................. 21 4.3. 创建 Hive数据库和表 .................................................................................................................. 23 4.4. 创建 External Project .................................................................................................................... 25 5. 命令行校验 ................................................................................................................................................. 27 5.1. 查看数据库表 .............................................................................................................................. 27 5.2. 执行 SQL任务 .............................................................................................................................. 27 6. DataWorks执行 ........................................................................................................................................... 30 文档版本：20201218 V

8MaxCompute湖仓一体方案最佳实践概述最佳实践概述技术架构湖仓一体方案涉及到自下而上三个层面的打通： 1. 网络层：将 MaxCompute数仓集群与 Hadoop数据湖集群打通 2. 存储层：MaxCompute读取 Hadoop HDFS数据，通过智能算法缓存热数据 3. 计算层：MaxCompute读取存放在 Hive的元数据，实现 DB级镜像。业务部署 1. 假定数据湖 Hadoop集群和云数仓 MaxCompute部署在不同地域，通过云企业网 CEN打通 2. MaxCompute端创建外部项目，镜像 Hive元数据，通过 IPC端口与 namenode和 datanode通信文档版本：20201218 VI

MaxCompute湖仓一体方案

相关产品

客户案例

相关推荐

探索阿里云产品，构建云上应用和服务

相关产品

客户案例

相关推荐

探索阿里云产品，构建云上应用和服务

MaxCompute湖仓一体方案

相关产品

客户案例

相关推荐

探索阿里云产品，构建云上应用和服务

相关产品

客户案例

相关推荐

探索阿里云产品，构建云上应用和服务

温馨提示