相关产品

客户案例

相关推荐

广州市乐无边教育科技有限公司
广州市乐无边教育科技有限公司

高考直通车是广州市乐无边教育科技有限公司打造的全国中学生 在线学习交流平台。作为全国中学生在线学习平台,数据分析能力是我们业务的核心,近期我们在做 云上大数据 架构选型,云上的产品非常多,选择合适的产品和架构非常困难,通过阿里云业务团队和最佳实践团队的推荐,如数据湖-在线学习场景 数据分析、MaxCompute湖仓一体化方案、离线大数据分析 等最佳实践,让我们快速了解 云上大数据 不同场景的应用,帮助我们选择 合适的架构,而且所有 最佳实践都有 完整可落地的 实操,参考最佳实践实操上云非常方便,大大节约了我们的摸索的过程,有效促进项目落地。

上海数禾信息技术有限公司
上海数禾信息技术有限公司

数禾科技成立于2015年8月,是分众传媒、红杉资本、新浪等联合投资的C轮金融科技公司。公司的愿景是做陪伴用户一生的智能金融家,秉承开放,挑战,专业,创新的价值观,让人人享有金融服务最优解。公司的主要产品是还呗和拿铁智投,主要提供信贷,理财,电商等服务,已经拥有8000万注册用户。作为国内金融科技代表性企业,数禾科技率先将大数据和AI技术引入智能获客、智能风控、智能运营、智能客服等多个方面。截至目前,数禾科技已与包括银行、信贷、持牌消金、基金和保险等在内的100余家金融机构展开合作。

上海领视信息科技公司
上海领视信息科技公司

领视信息科技是一家致力于网络智能教育的科技公司,旗下领视教育服务云系统专注为各类培训学校搭建自己的“互联网平台”,打造自己品牌的教学招生APP,为培训学校提供完整的线下、线上教学和管理的解决方案。

探索阿里云产品,构建云上应用和服务

免费试用

相关产品

客户案例

相关推荐

广州市乐无边教育科技有限公司
广州市乐无边教育科技有限公司

高考直通车是广州市乐无边教育科技有限公司打造的全国中学生 在线学习交流平台。作为全国中学生在线学习平台,数据分析能力是我们业务的核心,近期我们在做 云上大数据 架构选型,云上的产品非常多,选择合适的产品和架构非常困难,通过阿里云业务团队和最佳实践团队的推荐,如数据湖-在线学习场景 数据分析、MaxCompute湖仓一体化方案、离线大数据分析 等最佳实践,让我们快速了解 云上大数据 不同场景的应用,帮助我们选择 合适的架构,而且所有 最佳实践都有 完整可落地的 实操,参考最佳实践实操上云非常方便,大大节约了我们的摸索的过程,有效促进项目落地。

上海数禾信息技术有限公司
上海数禾信息技术有限公司

数禾科技成立于2015年8月,是分众传媒、红杉资本、新浪等联合投资的C轮金融科技公司。公司的愿景是做陪伴用户一生的智能金融家,秉承开放,挑战,专业,创新的价值观,让人人享有金融服务最优解。公司的主要产品是还呗和拿铁智投,主要提供信贷,理财,电商等服务,已经拥有8000万注册用户。作为国内金融科技代表性企业,数禾科技率先将大数据和AI技术引入智能获客、智能风控、智能运营、智能客服等多个方面。截至目前,数禾科技已与包括银行、信贷、持牌消金、基金和保险等在内的100余家金融机构展开合作。

上海领视信息科技公司
上海领视信息科技公司

领视信息科技是一家致力于网络智能教育的科技公司,旗下领视教育服务云系统专注为各类培训学校搭建自己的“互联网平台”,打造自己品牌的教学招生APP,为培训学校提供完整的线下、线上教学和管理的解决方案。

探索阿里云产品,构建云上应用和服务

免费试用

温馨提示

抱歉,登录前您只能看到8页哦。立刻登录,浏览全部技术解决方案最佳实践案例内容!

如果您是企业账号,可以生成子账号授权访问。

BpFile(id=295, bpId=169, name=MaxCompute湖仓一体方案, author=null, keyword=专有网络 VPC,云服务器ECS,访问控制,运维编排,大数据计算服务 MaxCompute, description=自建数据湖与云数仓的融合解决方案,将MaxCompute与自建的Hive集群做数据打通,通过存储共享,元数据镜像等方式,解决传统模式下的存储冗余,计算资源弹性能力弱的痛点。可大幅度增强系统的资源弹性,解决业务高峰期计算资源不足的问题。, position=null, ossUrl=bp-BBKJTLSE9VHUOQVF.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述 自建数据湖与云数仓的融合解决方案,将 MaxCompute与自建的Hive集群做数据打 通,通过存储共享,元数据镜像等方式,解 决传统模式下的存储冗余,计算资源弹性能 力弱的痛点。可大幅度增强系统的资源弹 性,解决业务高峰期计算资源不足的问题。 方案优势 1.业务无侵入性:现有业务无需改造。 2.性能优化:MaxCompute在SQL上做 了大量优化与能力沉淀,可提高SQL 运行性能,降低计算成本。 3.灵活管理:元数据实时同步,无需额外 管理数据同步任务。 4.资源弹性:利用MaxCompute计算池 弹性进行海量数据计算。 解决问题 1.增强业务高峰期的资源弹性。 2.优化自建数据湖的数据治理能力。 3.减少跨平台数据处理的存储冗余。 产品列表 ⚫专有网络VPC ⚫云服务器ECS ⚫访问控制RAM ⚫运维编排OOS ⚫MaxCompute(原ODPS) ⚫云企业网CEN

, templateId=A9KAHEZ2BKUCFA9D, freetry=null, visitTime=null, visitCount=null, video_url=https://yqh.aliyun.com/live/detail/21793, buttonName=null, buttonUrl=null, targetId=A9KAHEZ2BKUCFA9D, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null)
1 MaxCompute湖仓一体方案 最佳实践 业务架构 场景描述 自建数据湖与云数仓的融合解决方案,将 MaxCompute与自建的 Hive集群做数据打 通,通过存储共享,元数据镜像等方式,解 决传统模式下的存储冗余,计算资源弹性能 力弱的痛点。可大幅度增强系统的资源弹 性,解决业务高峰期计算资源不足的问题。 湖仓一体兼具数据湖的灵活性与数据仓库 的成长性。 方案优势 1. 业务无侵入性:现有业务无需改造。 2. 性能优化:MaxCompute在 SQL上做 了大量优化与能力沉淀,可提高 SQL 运行性能,降低计算成本。 产品列表 3. 灵活管理:元数据实时同步,无需额外 专有网络 VPC 管理数据同步任务。 云服务器 ECS 4. 资源弹性:利用 MaxCompute计算池 访问控制 RAM 弹性进行海量数据计算。 DataWorks MaxCompute(原 ODPS) 云企业网 CEN 解决问题 加入我们 1. 增强业务高峰期的资源弹性。 2. 优化自建数据湖的数据治理能力。 获取更多最佳实践资讯,请手机钉钉扫码加入阿里云最佳实践生 3. 减少跨平台数据处理的存储冗余。 态群:
2文档模板(手册名称)/Error! Use the Home tab to apply 云服务器 ECS(产品名称) 标题 to the text that you want to appear here. 阿里云 MaxCompute湖仓一体方案 最佳实践 文档版本:20150122(发布日期) II
3文档模板(手册名称)/Error! Use the Home tab to apply 云服务器 ECS(产品名称) 标题 to the text that you want to appear here. 文档版本:20210219 文档版本:20150122(发布日期) III
4MaxCompute湖仓一体方案 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 MaxCompute湖仓一体方案 文档编号 169 文档版本 V1.3 版本日期 2021-06-28 文档状态 外部发布 制作人 启浪 审阅人 明中,七凌 文档变更记录 版本编号 日期 作者 审核人 说明 V1.0 2020-09-22 启浪 明中,七凌 创建 用 EMR 模拟自建 V1.1 2020-12-18 毕役 Hadoop,使用 CADT创建 阿里云资源 V1.2 2021-02-19 毕役 修改第三章节 V1.3 2021-06-28 毕役 删掉 set设置 文档版本:20201218 I
5MaxCompute湖仓一体方案 名词解释 VPC:专有网络 VPC(Virtual Private Cloud)是用户基于阿里云创建的自定义私 有网络, 不同的专有网络之间二层逻辑隔离,用户可以在自己创建的专有网络内创 建和管理云产品实例,比如 ECS、负载均衡、RDS 等。更多信息,请参见: www.aliyun.com/product/vpc ECS:云服务器 ECS(Elastic Compute Service)是一种简单高效、处理能力可 弹性伸缩的计算服务。帮助您构建更稳定、安全的应用,提升运维效率,降低 IT 成本,使您更专注于核心业务创新。更多信息,请参见: www.aliyun.com/product/ecs DataWorks:DataWorks基于 MaxCompute/EMR/MC-Hologres等大数据计算引 擎,为客户提供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴 巴数据中台与数据治理最佳实践,赋能各行业数字化转型。每天阿里巴巴集团内 部有数万名数据/算法工程师正在使用 DataWorks,承担集团 99%数据业务构建。 更多信息,请参见:https://www.aliyun.com/product/bigdata MaxCompute: MaxCompute(原 ODPS)是一项大数据计算服务,它能提供快速、 完全托管的 PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。 更多信息,请参见:www.aliyun.com/product/odps CEN:云企业网(Cloud Enterprise Network)帮助您在 VPC间,VPC与本地数 据中心间搭建私网通信通道,通过自动路由分发及学习,提高网络的快速收敛和 跨网络通信的质量和安全性,实现全网资源的互通,帮助您打造一张具有企业级 规模和通信能力的互联网络。 HDFS:Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分 布式文件系统,它和现有的分布式文件系统有很多共同点。但同时,它和其他的分 布式文件系统的区别也是很明显的。HDFS 是一个高度容错性的系统,适合部署 在廉价的机器上。HDFS 能提供高吞吐量的数据访问,非常适合大规模数据集上 的应用。 Apache Hive:Apache Hive是基于 Hadoop的一个数据仓库工具,可以将结构化 的数据文件映射为一张数据库表,并提供简单的 SQL查询功能,可以将 SQL语 句转换为 MapReduce任务进行运行。其优点是学习成本低,可以通过类 SQL语 句快速实现简单的 MapReduce统计,不必开发专门的 MapReduce应用,十分适 合数据仓库的统计分析。 文档版本:20201218 III
6MaxCompute湖仓一体方案 EMR:阿里云 E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上 使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等 场 景 下 的 大 数 据 解 决 方 案 。 更 多 信 息 , 请 参 见 : https://www.aliyun.com/product/emapreduce 文档版本:20201218 IV
7MaxCompute湖仓一体方案 目录 文档版本信息 ........................................................................................................................................................ I 法律声明 ............................................................................................................................................................... II 名词解释 .............................................................................................................................................................. III 目录 ...................................................................................................................................................................... V 最佳实践概述 ....................................................................................................................................................... 6 前置条件 ............................................................................................................................................................... 8 1. 权限管理 ....................................................................................................................................................... 9 1.1. 创建 RAM用户 .............................................................................................................................. 9 1.2. 授权 MaxCompute角色 ............................................................................................................... 12 1.3. 使用 TPCDS生成测试数据集 ....................................................................................................... 14 2. 资源创建 ..................................................................................................................................................... 13 2.1. CADT构建 .................................................................................................................................... 13 2.2. 资源确认 ...................................................................................................................................... 15 3. 云数仓 MaxCompute ................................................................................................................................... 17 3.1. 创建工作空间 .............................................................................................................................. 17 3.2. 配置 MaxCompute客户端 ........................................................................................................... 18 4. 湖仓连通 ..................................................................................................................................................... 21 4.1. 申请 MaxCompute与 VPC的网络连通 ........................................................................................ 21 4.2. 配置 Hadoop集群的网络安全规则 ............................................................................................. 21 4.3. 创建 Hive数据库和表 .................................................................................................................. 23 4.4. 创建 External Project .................................................................................................................... 25 5. 命令行校验 ................................................................................................................................................. 27 5.1. 查看数据库表 .............................................................................................................................. 27 5.2. 执行 SQL任务 .............................................................................................................................. 27 6. DataWorks执行 ........................................................................................................................................... 30 文档版本:20201218 V
8MaxCompute湖仓一体方案 最佳实践概述 最佳实践概述 技术架构 湖仓一体方案涉及到自下而上三个层面的打通: 1. 网络层:将 MaxCompute数仓集群与 Hadoop数据湖集群打通 2. 存储层:MaxCompute读取 Hadoop HDFS数据,通过智能算法缓存热数据 3. 计算层:MaxCompute读取存放在 Hive的元数据,实现 DB级镜像。 业务部署 1. 假定数据湖 Hadoop集群和云数仓 MaxCompute部署在不同地域,通过云企业网 CEN打通 2. MaxCompute端创建外部项目,镜像 Hive元数据,通过 IPC端口与 namenode和 datanode通信 文档版本:20201218 VI