Ctrl+F / Command+F 全文检索

相关产品

客户案例

相关最佳实践
ML&AI |

利用PAI平台快速构建一个高效的离线训练和在线推理的推荐业务系统。

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版 大数据计算服务 MaxCompute 机器学习PAI 云速搭
安全&合规 |

云原生高性价比的等保三级最佳实践;在等保二级基础上,叠加必要的安全产品及高可用架构/满足三级要求

云服务器ECS 日志服务(SLS) 云安全中心 Web应用防火墙 操作审计 数据库审计 堡垒机 云防火墙 SSL证书
业务上云 |

传统企业、零售和游戏行业系统分级后单库单服系统云上搭建最佳实践,涉及大部分基础云产品。

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版 负载均衡 SLB CDN 云速搭
业务上云 |

使用云桌面和VPN网关产品快速构建远程办公环境,在云桌面可以访问企业IDC内的应用和资源

云服务器ECS NAT网关 VPN网关 智能接入网关 云桌面
DevOps | 容器&微服务 |

使用云效完成容器应用自动化构建和持续部署

专有网络 VPC 负载均衡 SLB 容器服务 ACK 云效 云速搭
业务上云 |

适用于中小型电商应用上云。包括常用最佳实践架构,同时提供云上资源建站和数据库迁移实践操作。

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版 负载均衡 SLB 数据传输

温馨提示

未登录用户仅可预览8页内容,请您前往登录后浏览更多企业上云最佳实践案例内容。企业账号建议生成子账号授权访问。

BpFile(id=299, bpId=173, name=基于DataWorks的大数据一站式开发及数据治理, author=null, keyword=EMR,dataworks,大数据一站式开发,数据治理,数据质量,实时计算,Flink, description=基于Dataworks做大数据一站式开发,包含数据实时采集到kafka通过实时计算对数据进行ETL写入HDFS,使用Hive进行数据分析。通过Dataworks进行数据治理,数据地图查看数据信息和血缘关系,数据质量监控异常和报警。, position=null, ossUrl=bp-5OYSZR3ZJA71322D.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

概述 基于Dataworks做大数据一站式开发,包含数据实时采集到kafka通过实时计算对数据进行ETL写入HDFS,使用Hive进行数据分析。通过Dataworks进行数据治理,数据地图查看数据信息和血缘关系,数据质量监控异常和报警。 适用场景  日志采集、处理及分析  日志使用Flink实时写入HDFS  日志数据实时ETL  日志HIVE分析  基于dataworks一站式开发  数据治理 方案优势  大数据一站式开发,完善的数据治理能力。  性能优越:高吞吐,高扩展性。  安全稳定:Exactly-Once,故障自动恢复,资源隔离。  简单易用:SQL语言,在线开发,全面支持UDX。  功能强大:支持SQL进行实时及离线数据清洗、数据分析、数据同步、异构数据源计算等Data Lake相关功能 ,以及各种流式及静态数据源关联查询。

, templateId=6F3N8YWNUEFZYSA9, freetry=null, visitTime=null, visitCount=null, video_url=https://yqh.aliyun.com/live/detail/22208, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null)
1基于DataWorks的大数据一站式开发及数据治理 最佳实践 业务架构 场景描述 解决的问题 本实践基于Dataworks做大数据一站式开发,包含  日志采集、处理及分析 数据实时采集到kafka通过实时计算对数据进行  日志使用Flink实时写入HDFS ETL写入HDFS,使用Hive进行数据分析。通过  日志数据实时ETL Dataworks进行数据治理,数据地图查看数据信息和 血缘关系,数据质量监控异常和报警。  日志HIVE分析  基于DataWorks一站式开发  数据治理 产品列表 实时计算、EMR、EIP、VPC、ECS、DataWorks
2云服务器ECS(产品名称) 文档模板(手册名称)/文档版本信息 文档版本:20150122(发布日期) 2
3基于Dataworks的大数据一站式开发及数据治理 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 基于DataWorks的大数据一站式开发及数据治理最佳实践 文档编号 173 文档版本 V1.3 版本日期 2020-02-07 文档状态 外部发布 制作人 弦望、川知、戎天、无框、背包 审阅人 文档变更记录 版本编号 日期 作者 审核人 说明 弦望、戎天、 V1.0 2020-09-10 创建 无框 弦望、川知、 场景迭代新版本发布,新 V1.1 2020-10-20 戎天、背包 增数据治理和HIVE分析 迭代 CADT 及使用云 V1.2 2020-02-01 弦望、川知 kafka V1.3 2020-02-07 弦望 注意事项更新 I
4基于Dataworks的大数据一站式开发及数据治理 法律声明 法律声明 II
5基于Dataworks的大数据一站式开发及数据治理 前言 前言 概述 基于DataWorks做大数据一站式开发,包含数据实时采集到kafka通过实时计算对数 据进行ETL写入HDFS,使用Hive进行数据分析。通过DataWorks进行数据治理, 数据地图查看数据信息和血缘关系,数据质量监控异常和报警。 名词解释  HDFS:Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分 布式文件系统,它和现有的分布式文件系统有很多共同点。但同时,它和其他的 分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部 署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集 上的应用。  实时计算:实时计算(AlibabaCloudRealtimeCompute,PoweredbyVerverica) 是阿里云提供的基于 ApacheFlink 构建的企业级大数据计算平台。在 PB 级别 的数据集上可以支持亚秒级别的处理延时,赋能用户标准实时数据处理流程和行 业解决方案;支持 DatastreamAPI 作业开发,提供了批流统一的 FlinkSQL, 简化 BI 场景下的开发;可与用户已使用的大数据组件无缝对接,更多增值特性 助力企业实时化转型。详情请查看www.aliyun.com/product/bigdata/product/sc  EMR:阿里云 E-MapReduce(EMR) 是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。提供用户在云 上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学 习等场景下的大数据解决方案。详情请查看www.aliyun.com/product/emapreduce  DataWorks: 基于MaxCompute/EMR/MC-Hologres等大数据计算引擎,为客户 提供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴巴数据中 台与数据治理最佳实践,赋能各行业数字化转型。每天阿里巴巴集团内部有数万 名数据/算法工程师正在使用DataWorks,承担集团99%数据业务构建。详情请查 看https://www.aliyun.com/product/bigdata/ide III
6基于Dataworks的大数据一站式开发及数据治理 目录 目录 文档版本信息..................................................................................................................................................................I ......................................................................................................................................................................... 法律声明 II 前言................................................................................................................................................................................III ............................................................................................................................................................................... 目录 IV ................................................................................................................................................................ 最佳实践概述 1 前置条件........................................................................................................................................................................3 ................................................................................................................................................................................. 导读 4 1.基础环境搭建...........................................................................................................................................................5 ................................................................................................................... 1.1. 通过CADT搭建资源环境 5 ................................................................................................................................ 1.2. 创建实时计算集群 8 1.3. 创建DataWorks项目........................................................................................................................11 .............................................................................................................................................................. 2. 日志采集 16 3. 日志实时ETL写入HDFS.................................................................................................................................22 .................................................................................................................... 3.1. 自定义SinkDemo打包 22 ......................................................................................................... 3.2. 基于dataworks实时计算开发 24 4. 基于hive的离线分析.........................................................................................................................................31 .............................................................................................................................................................. 5. 数据治理 40 5.1. 数据地图..............................................................................................................................................40 .............................................................................................................................................. 5.2. 数据质量 42 .................................................................................................................................................. 6. 附件:源码解读 47 6.1. 自定义HDFSSink.............................................................................................................................47 IV
7基于Dataworks的大数据一站式开发及数据治理 最佳实践概述 最佳实践概述 概述 本实践基于Dataworks做大数据一站式开发,包含数据实时采集到kafka通过实时计 算对数据进行ETL写入HDFS,使用Hive进行数据分析。通过Dataworks进行数据 治理,数据地图查看数据信息和血缘关系,数据质量监控异常和报警。 适用场景  日志采集、处理及分析  日志使用Flink实时写入HDFS  日志数据实时ETL  日志HIVE分析  基于DataWorks一站式开发  数据治理 技术架构 本实践方案基于如下图所示的技术架构和主要流程编写操作步骤: 1
8基于Dataworks的大数据一站式开发及数据治理 最佳实践概述 方案优势  大数据一站式开发,完善的数据治理能力。  性能优越:高吞吐,高扩展性。  安全稳定:Exactly-Once,故障自动恢复,资源隔离。  简单易用:SQL语言,在线开发,全面支持UDX。  功能强大:支持SQL进行实时及离线数据清洗、数据分析、数据同步、异构数据 源计算等DataLake相关功能,以及各种流式及静态数据源关联查询。  安全:原生的多租户系统,以项目进行隔离,所有计算任务在安全沙箱中运行。 2