相关产品

相关推荐

探索阿里云产品,构建云上应用和服务

免费试用

相关产品

相关推荐

探索阿里云产品,构建云上应用和服务

免费试用

温馨提示

抱歉,登录前您只能看到8页哦。立刻登录,浏览全部技术解决方案最佳实践案例内容!

如果您是企业账号,可以生成子账号授权访问。

BpFile(id=325, bpId=199, name=基于湖仓一体架构使用MaxCompute对OSS湖数据分析预测, author=null, keyword=数据湖,数据仓库,大数据计算,智能分析,智能预测, description=数据湖和数据仓库是当前大数据技术条件下构建分布式系统的两种数据架构设计取向,数据湖偏向灵活性,数据仓库侧重成本、性能、安全、治理等企业级特性。但是数据湖和数据仓库的边界正在慢慢模糊,数据湖自身的治理能力、数据仓库延伸到外部存储的能力都在加强。在这样的背景之下,阿里云MaxCompute率先提出湖仓一体,为业界和用户展现了一种数据湖和数据仓湖互相补充,协同工作的架构。这样的架构同时为用户提供了数据湖的灵活性和数据仓库的诸多企业级特性,将用户使用大数据的总体拥有成本进一步降低。, position=null, ossUrl=bp-HHG7YD5BZ7HP0SLG.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

本篇最佳实践先创建EMR集群作为数据湖对象,Hive元数据存储在DLF,外表数据存储在OSS。然后使用阿里云数据仓库MaxCompute以创建外部项目的方式与存储在DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测demo,演示云数仓MaxCompute如何对于存储在EMR数据湖的数据进行加工处理以达到业务预期。

, templateId=289CAWVI9X7DCDCB, freetry=, visitTime=null, visitCount=null, video_url=, buttonName=null, buttonUrl=null, targetId=289CAWVI9X7DCDCB, partner=null, partnerUrl=null, partnerLogo=null, cooperation=, cooperationList=null)
1 基于湖仓一体架构使用 MaxCompute对 OSS湖数据分析预测最佳实践 业务架构 场景描述 方案优势 1. 融合数据湖和数据仓库优势,在灵活性和效率上 数据湖和数据仓库是当前大数据技术条件下构建分布式 找到最佳平衡。 系统的两种数据架构设计取向,数据湖偏向灵活性,数据 2. MaxCompute在 SQL上做了大量优化与能力沉 仓库侧重成本、性能、安全、治理等企业级特性。但是数 淀,可提高 SQL运行性能,降低计算成本。基于 据湖和数据仓库的边界正在慢慢模糊,数据湖自身的治理 集群学习 PAI封装出多种贴近业务场景的算法服 务,满足更多的业务需求。 能力、数据仓库延伸到外部存储的能力都在加强。在这样 3. MaxCompute云原生的弹性资源和 EMR集群资 的背景之下,阿里云 MaxCompute率先提出湖仓一体, 源形成互补,两套体系之间进行资源的削峰填 为业界和用户展现了一种数据湖和数据仓湖互相补充,协 谷,不仅减少作业排队,且降低整体成本。 同工作的架构。这样的架构同时为用户提供了数据湖的灵 活性和数据仓库的诸多企业级特性,将用户使用大数据的 产品列表 总体拥有成本进一步降低。 数据湖构建 DLF 最佳 实践频道 阿里云最佳实践生态群 MaxCompute DataWorks E-MapReduce EMR 对象存储 OSS
2文档模板(手册名称)/Error! Use the Home tab to apply 云服务器 ECS(产品名称) 标题 to the text that you want to appear here. 阿里云 基于湖仓一体架构使用 MaxCompute对 OSS湖数据分析预测 最佳实践 文档版本:20210207 文档版本:20210205 2
3基于湖仓一体架构使用 MaxCompute对OSS湖数据分析预测 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 基于湖仓一体架构使用 MaxCompute对 OSS湖数据分析预测 文档编号 199 文档版本 V1.0 版本日期 2021-02-07 文档状态 外部发布 制作人 毕役,孟硕,子关 审阅人 川知 文档变更记录 版本编号 日期 作者 审核人 说明 V0.9 2021-02-05 毕役 - 创建 V1.0 2021-02-07 毕役 孟硕 修改 文档版本:20210205 I
4基于湖仓一体架构使用 MaxCompute对OSS湖数据分析预测 名词解释 名词解释 数据湖:数据湖是一个集中式存储库,可存储任意规模结构化和非结构化数据,支 持大数据和 AI计算。如开源大数据的 Hadoop HDFS存储系统就是一个标准的数 据湖架构。各大云厂商也有云上数据湖方案,如阿里云 EMR+OSS是基于云上托 管存储系统的数据湖系统,架构上采用存储计算分离的体系。 数据仓库:数据仓库概念最早来源于数据库领域,主要处理面向数据的复杂查询 和分析场景。数据仓库是来自一个或多个不同源的集成数据的中央存储库,经过 数据清洗和转化,将当前和历史数据存储在一起,用于为整个企业的员工创建分 析报告。阿里云 MaxCompute就是数据仓库和云原生技术相结合的云数仓产品。 EMR:阿里云 E-MapReduce (EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云上 使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等 场景下的大数据解决方案。 产品详情:https://www.aliyun.com/product/emapreduce MaxCompute:MaxCompute(原 ODPS)是一项面向分析的大数据计算服务,它 以 Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在 资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处 理海量数据。阿里云机器学习和大数据分别进入 IDC和 Forrester领导者象限。 DataWorks:DataWorks基于 MaxCompute/EMR/MC-Hologres等大数据计算引 擎,为客户提供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴 巴数据中台与数据治理最佳实践,赋能各行业数字化转型。每天阿里巴巴集团内 部有数万名数据/算法工程师正在使用 DataWorks,承担集团 99%数据业务构建。 产品详情:https://www.aliyun.com/product/bigdata/ide DLF:数据湖构建(Data Lake Formation,DLF)作为云原生数据湖架构核心组 成部分,帮助用户简单快速地构建云原生数据湖解决方案。数据湖构建提供湖上 元数据统一管理、企业级权限控制,并无缝对接多种计算引擎,打破数据孤岛,洞 察业务价值。 产品详情:https://www.aliyun.com/product/bigdata/dlf OSS:阿里云对象存储提供海量、安全、低成本、高可靠的云存储服务,提供 文档版本:20210205 III
5基于湖仓一体架构使用 MaxCompute对OSS湖数据分析预测 名词解释 99.9999999999%(12个 9)的数据持久性。使用 RESTful API 可以在互联网任何 位置存储和访问,容量和处理能力弹性扩展,多种存储类型供选择全面优化存储 成本。 产品详情:https://www.aliyun.com/product/oss RAM:RAM 使您能够安全地集中管理对阿里云服务和资源的访问。您可以使用 RAM 创建和管理用户和组,并使用各种权限来允许或拒绝他们对云资源的访问。 产品详情:https://www.aliyun.com/product/ram 文档版本:20210205 IV
6基于湖仓一体架构使用 MaxCompute对 OSS湖数据分析预测 目录 目录 文档版本信息 ........................................................................................................................................................ I 法律声明 ............................................................................................................................................................... II 名词解释 .............................................................................................................................................................. III 目录 ...................................................................................................................................................................... V 最佳实践概述 ....................................................................................................................................................... 1 前置条件 ............................................................................................................................................................... 3 1. 开通并配置数据湖构建服务......................................................................................................................... 4 2. 配置 EMR集群 .............................................................................................................................................. 5 2.1. 创建网络环境 ................................................................................................................................ 5 2.2. 创建 EMR集群 ............................................................................................................................... 5 2.3. 检查数据湖构建 ............................................................................................................................ 6 3. 配置 DataWorks ............................................................................................................................................. 7 3.1. 创建 RAM用户 .............................................................................................................................. 7 3.2. 创建 DataWorks工作空间 ............................................................................................................. 8 3.3. DLF授权 MaxCompute访问 ........................................................................................................ 12 3.4. 配置 ODPS客户端 ....................................................................................................................... 13 3.5. 创建 external project .................................................................................................................... 14 3.6. 验证元数据一致性....................................................................................................................... 15 4. 毒蘑菇预测 ................................................................................................................................................. 17 4.1. 创建 OSS并上传测试数据集 ....................................................................................................... 17 4.2. 在 EMR创建外部表 ..................................................................................................................... 19 4.3. 通过 MaxCompute查询 EMR的 Hive数据表 .............................................................................. 21 4.4. 数据预处理 .................................................................................................................................. 22 4.5. 创建预测模型 .............................................................................................................................. 27 4.6. 使用模型做预测 .......................................................................................................................... 28 5. 附录 A.......................................................................................................................................................... 30 5.1. MaxCompute和 DLF属于同一个账号,需要自定义授权 .......................................................... 30 5.1.1. 创建角色 .............................................................................................................................. 30 5.1.2. 创建自定义权限策略 ........................................................................................................... 31 5.1.3. 将自定义权限策略授权给角色 ............................................................................................ 34 5.2. MaxCompute和 DLF属于不同账号 ............................................................................................. 35 6. 附录 B .......................................................................................................................................................... 38 文档版本:20210205 V
7基于湖仓一体架构使用 MaxCompute对 OSS湖数据分析预测 最佳实践概述 最佳实践概述 方案概述 本篇最佳实践先创建 EMR集群作为数据湖对象,Hive元数据存储在 DLF,外表数据 存储在 OSS。然后使用阿里云数据仓库 MaxCompute以创建外部项目的方式与存储 在 DLF的元数据库映射打通,实现元数据统一。最后通过一个毒蘑菇的训练和预测 demo,演示云数仓 MaxCompute如何对于存储在 EMR数据湖的数据进行加工处理 以达到业务预期。相关命令可以浏览 https://code.aliyun.com/best-practice/199 使用场景 针对分析师如何利用 MaxCompute In-database ML 能力,通过湖仓一体架构对海量 OSS 非结构化、半结构化数据做数据分析和机器学习模型构建、训练和应用。 方案架构 方案优势 1. 兼顾数据湖的灵活性和云数据仓库的成长性 2. MaxCompute与 EMR集群通过 PrivateAccess网络连通,低延迟高带宽。 3. 数据湖中的 Hive元数据映射为 MaxCompute的外部项目,元数据由 DLF统一管 理,无需人工干预。 4. 基于 DataWorks强大的数据开发/管理/治理能力,提供统一的湖仓开发体验,降 文档版本:20210205 1
8基于湖仓一体架构使用 MaxCompute对 OSS湖数据分析预测 最佳实践概述 低两套系统的管理成本。 5. 依托智能 cache技术,MaxCompute自动利用闲时带宽将数据湖中的热数据以高 效文件格式 cache在数据仓库中,进一步加速数据仓库的后续数据加工流程。 文档版本:20210205 2