BpFile(id=299, bpId=173, name=基于DataWorks的大数据一站式开发及数据治理, author=null, keyword=EMR,dataworks,大数据一站式开发,数据治理,数据质量,实时计算,Flink, description=基于Dataworks做大数据一站式开发,包含数据实时采集到kafka通过实时计算对数据进行ETL写入HDFS,使用Hive进行数据分析。通过Dataworks进行数据治理,数据地图查看数据信息和血缘关系,数据质量监控异常和报警。, position=null, ossUrl=bp-6IIUKE6QSIDO3GXW.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=
概述
基于Dataworks做大数据一站式开发,包含数据实时采集到kafka通过实时计算对数据进行ETL写入HDFS,使用Hive进行数据分析。通过Dataworks进行数据治理,数据地图查看数据信息和血缘关系,数据质量监控异常和报警。
适用场景
日志采集、处理及分析
日志使用Flink实时写入HDFS
日志数据实时ETL
日志HIVE分析
基于dataworks一站式开发
数据治理
方案优势
大数据一站式开发,完善的数据治理能力。
性能优越:高吞吐,高扩展性。
安全稳定:Exactly-Once,故障自动恢复,资源隔离。
简单易用:SQL语言,在线开发,全面支持UDX。
功能强大:支持SQL进行实时及离线数据清洗、数据分析、数据同步、异构数据源计算等Data Lake相关功能 ,以及各种流式及静态数据源关联查询。
, templateId=6F3N8YWNUEFZYSA9, freetry=null, visitTime=null, visitCount=null, video_url=https://yqh.aliyun.com/live/detail/22208, buttonName=null, buttonUrl=null, targetId=6F3N8YWNUEFZYSA9, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null)
1基于DataWorks的大数据一站式开发及数据治理 最佳实践
业务架构
场景描述 解决的问题
本实践基于Dataworks做大数据一站式开发,包含 日志采集、处理及分析
数据实时采集到kafka通过实时计算对数据进行
日志使用Flink实时写入HDFS
ETL写入HDFS,使用Hive进行数据分析。通过
日志数据实时ETL
Dataworks进行数据治理,数据地图查看数据信息和
血缘关系,数据质量监控异常和报警。
日志HIVE分析
基于DataWorks一站式开发
数据治理
产品列表
实时计算、EMR、EIP、VPC、ECS、DataWorks
2云服务器ECS(产品名称) 文档模板(手册名称)/文档版本信息
文档版本:20150122(发布日期) 2
3基于Dataworks的大数据一站式开发及数据治理 文档版本信息
文档版本信息
文本信息
属性 内容
文档名称 基于DataWorks的大数据一站式开发及数据治理最佳实践
文档编号 173
文档版本 V1.3
版本日期 2020-02-07
文档状态 外部发布
制作人 弦望、川知、戎天、无框、背包
审阅人
文档变更记录
版本编号 日期 作者 审核人 说明
弦望、戎天、
V1.0 2020-09-10 创建
无框
弦望、川知、 场景迭代新版本发布,新
V1.1 2020-10-20
戎天、背包 增数据治理和HIVE分析
迭代 CADT 及使用云
V1.2 2020-02-01 弦望、川知
kafka
V1.3 2020-02-07 弦望 注意事项更新
I
4基于Dataworks的大数据一站式开发及数据治理 法律声明
法律声明
II
5基于Dataworks的大数据一站式开发及数据治理 前言
前言
概述
基于DataWorks做大数据一站式开发,包含数据实时采集到kafka通过实时计算对数
据进行ETL写入HDFS,使用Hive进行数据分析。通过DataWorks进行数据治理,
数据地图查看数据信息和血缘关系,数据质量监控异常和报警。
名词解释
HDFS:Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分
布式文件系统,它和现有的分布式文件系统有很多共同点。但同时,它和其他的
分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部
署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集
上的应用。
实时计算:实时计算(AlibabaCloudRealtimeCompute,PoweredbyVerverica)
是阿里云提供的基于 ApacheFlink 构建的企业级大数据计算平台。在 PB 级别
的数据集上可以支持亚秒级别的处理延时,赋能用户标准实时数据处理流程和行
业解决方案;支持 DatastreamAPI 作业开发,提供了批流统一的 FlinkSQL,
简化 BI 场景下的开发;可与用户已使用的大数据组件无缝对接,更多增值特性
助力企业实时化转型。详情请查看www.aliyun.com/product/bigdata/product/sc
EMR:阿里云 E-MapReduce(EMR) 是构建在阿里云云服务器 ECS 上的开源
Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云
上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学
习等场景下的大数据解决方案。详情请查看www.aliyun.com/product/emapreduce
DataWorks: 基于MaxCompute/EMR/MC-Hologres等大数据计算引擎,为客户
提供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴巴数据中
台与数据治理最佳实践,赋能各行业数字化转型。每天阿里巴巴集团内部有数万
名数据/算法工程师正在使用DataWorks,承担集团99%数据业务构建。详情请查
看https://www.aliyun.com/product/bigdata/ide
III
6基于Dataworks的大数据一站式开发及数据治理 目录
目录
文档版本信息..................................................................................................................................................................I
.........................................................................................................................................................................
法律声明 II
前言................................................................................................................................................................................III
...............................................................................................................................................................................
目录 IV
................................................................................................................................................................
最佳实践概述 1
前置条件........................................................................................................................................................................3
.................................................................................................................................................................................
导读 4
1.基础环境搭建...........................................................................................................................................................5
...................................................................................................................
1.1. 通过CADT搭建资源环境 5
................................................................................................................................
1.2. 创建实时计算集群 8
1.3. 创建DataWorks项目........................................................................................................................11
..............................................................................................................................................................
2. 日志采集 16
3. 日志实时ETL写入HDFS.................................................................................................................................22
....................................................................................................................
3.1. 自定义SinkDemo打包 22
.........................................................................................................
3.2. 基于dataworks实时计算开发 24
4. 基于hive的离线分析.........................................................................................................................................31
..............................................................................................................................................................
5. 数据治理 40
5.1. 数据地图..............................................................................................................................................40
..............................................................................................................................................
5.2. 数据质量 42
..................................................................................................................................................
6. 附件:源码解读 47
6.1. 自定义HDFSSink.............................................................................................................................47
IV
7基于Dataworks的大数据一站式开发及数据治理 最佳实践概述
最佳实践概述
概述
本实践基于Dataworks做大数据一站式开发,包含数据实时采集到kafka通过实时计
算对数据进行ETL写入HDFS,使用Hive进行数据分析。通过Dataworks进行数据
治理,数据地图查看数据信息和血缘关系,数据质量监控异常和报警。
适用场景
日志采集、处理及分析
日志使用Flink实时写入HDFS
日志数据实时ETL
日志HIVE分析
基于DataWorks一站式开发
数据治理
技术架构
本实践方案基于如下图所示的技术架构和主要流程编写操作步骤:
1
8基于Dataworks的大数据一站式开发及数据治理 最佳实践概述
方案优势
大数据一站式开发,完善的数据治理能力。
性能优越:高吞吐,高扩展性。
安全稳定:Exactly-Once,故障自动恢复,资源隔离。
简单易用:SQL语言,在线开发,全面支持UDX。
功能强大:支持SQL进行实时及离线数据清洗、数据分析、数据同步、异构数据
源计算等DataLake相关功能,以及各种流式及静态数据源关联查询。
安全:原生的多租户系统,以项目进行隔离,所有计算任务在安全沙箱中运行。
2