BpFile(id=140, bpId=146, name=DTS数据同步集成MaxCompute数仓, author=null, keyword=数据集成,实时同步,ETL幂等,数据回溯, description=介绍通过DTS实现从RDS到MaxCompute的数据同步集成, 并介绍如何使用DTS和MaxCompute联合实现数据ETL幂等和快速数据回溯, position=null, ossUrl=bp-9EBPD7VX22R5UQIR.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=
场景描述
本文Step by Step介绍了通过数据传输服务
DTS实现从云数据库RDS到MaxCompute的
数据同步集成,并介绍如何使用DTS和
MaxCompute数仓联合实现数据ETL幂等和数
据生命周期快速回溯。
解决问题
1.实现大数据实时同步集成。
2.实现数据ETL幂等。
3.实现数据生命周期快速回溯。
产品列表
⚫MaxCompute
⚫数据传输服务DTS
⚫DataWorks
⚫云数据库RDS MySQL 版
, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=, buttonName=null, buttonUrl=null, targetId=MOXQVE4X36VMJC2E, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null)
1
DTS数据同步集成 MaxCompute数仓 最佳实践
场景描述
业务架构图
本文 Step by Step 介绍了通过数据传输服务
DTS实现从云数据库 RDS到 MaxCompute的
数据同步集成,并介绍如何使用 DTS 和
MaxCompute数仓联合实现数据 ETL幂等和数
据生命周期快速回溯。
解决问题
1. 实现大数据实时同步集成。
2. 实现数据 ETL幂等。
3. 实现数据生命周期快速回溯。
产品列表
⚫ MaxCompute
⚫ 数据传输服务 DTS
⚫ DataWorks
⚫ 云数据库 RDS MySQL 版
2云服务器 ECS(产品名称) 文档模板(手册名称)/文档版本信息
阿里云
DTS数据同步集成
MaxCompute数仓
最佳实践
文档版本:20200229(发布日期)
文档版本:20150122(发布日期) I
3DTS数据同步集成 MaxCompute数仓 文档版本信息
文档版本信息
文本信息
属性 内容
文档名称 DTS数据同步集成 MaxCompute数仓最佳实践
文档编号 146
文档版本 V1.1
版本日期 2020-02-28
文档状态 -
制作人 懿弘
审阅人 李锐、游圣
文档变更记录
版本编号 日期 作者 审核人 说明
V1.0 2020-02-28 懿弘 李锐、游圣 创建
V1.1 2020-02-29 筱晖 懿弘 文档工程师优化
文档版本:20200229(发布日期) I
4DTS数据同步集成 MaxCompute数仓 前言
前言
概述
本文 Step by Step 介绍了通过数据传输服务 DTS 实现从云数据库 RDS 到
MaxCompute的数据同步集成,并介绍如何使用 DTS和 MaxCompute数仓联合实现
数据 ETL幂等和数据生命周期快速回溯。
应用范围
⚫ 实现大数据实时同步集成。
⚫ 实现数据 ETL幂等。
⚫ 实现数据生命周期快速回溯。
名词解释
⚫ MaxCompute:MaxCompute(原 ODPS)是一项大数据计算服务,它能提供快
速、完全托管的 PB级数据仓库解决方案,使您可以经济并高效的分析处理海量
数据。
更多信息,请参见:https://www.aliyun.com/product/odps
⚫ 数据传输服务 DTS:数据传输服务(Data Transmission Service) DTS支持关系型
数据库、NoSQL、大数据(OLAP)等数据源间的数据传输。 它是一种集数据迁
移、数据订阅及数据实时同步于一体的数据传输服务。数据传输致力于在公共
云、混合云场景下,解决远距离、毫秒级异步数据传输难题。
更多信息,请参见:https://www.aliyun.com/product/dts
⚫ DataWorks:是一个提供了大数据 OS能力、并以 all in one box的方式提供专业
高效、安全可靠的一站式大数据智能云研发平台。 同时能满足用户对数据治理、
质量管理需求,赋予用户对外提供数据服务的能力。
更多信息,请参见:https://data.aliyun.com/product/ide
⚫ VPC:Virtual Private Cloud,简称 VPC。基于阿里云创建的自定义私有网络, 不
同的专有网络之间二层逻辑隔离,可以在自己创建的专有网络内创建和管理云产
品实例,比如 ECS、负载均衡、RDS等。在创建前,您需要结合具体业务,规
划 VPC和交换机的数量及网段等。
文档版本:20200229(发布日期) III
5DTS数据同步集成 MaxCompute数仓 前言
更多信息,请参见:https://www.aliyun.com/product/vpc
⚫ RDS:Relational Database Service,简称 RDS。阿里云关系型数据库是一种稳
定可靠、可弹性伸缩的在线数据库服务。基于阿里云分布式文件系统和 SSD盘
高性能存储,RDS支持 MySQL、SQL Server、PostgreSQL、PPAS(Postgre
Plus Advanced Server,高度兼容 Oracle数据库)和 MariaDB TX引擎,并且提
供了容灾、备份、恢复、监控、迁移等方面的全套解决方案,彻底解决数据库运
维的烦恼。
更多信息,请参见:https://www.aliyun.com/product/rds/mysql
文档版本:20200229(发布日期) IV
6DTS数据同步集成 MaxCompute数仓 目录
目录
文档版本信息 .............................................................................................................................................................. I
法律声明 ..................................................................................................................................................................... II
前言 ............................................................................................................................................................................ III
目录 ............................................................................................................................................................................. V
最佳实践概述 ............................................................................................................................................................. 1
前置条件 ..................................................................................................................................................................... 3
演示环境说明 ............................................................................................................................................................. 4
1. 演示基础环境部署 ............................................................................................................................................. 5
1.1. 环境部署 ............................................................................................................................................. 5
1.1.1. 创建专有网络 VPC ...................................................................................................................... 5
1.1.2. 部署云数据库 RDS ...................................................................................................................... 7
1.1.2.1. 创建云数据库 RDS MySQL版实例 ..................................................................................... 7
1.1.2.2. 创建数据库和账号 ............................................................................................................ 11
1.2. 模拟数据构造 ................................................................................................................................... 16
2. MaxCompute数仓搭建 .................................................................................................................................... 22
2.1. 开通 DataWorks ................................................................................................................................. 22
2.2. 开通 MaxCompute ............................................................................................................................ 23
2.3. 创建 MaxCompute项目.................................................................................................................... 24
2.4. DTS数据同步集成 MaxCompute ..................................................................................................... 26
2.4.1. 通过 DTS实现数据同步 ........................................................................................................... 27
2.4.1.1. 配置 DTS数据同步 ........................................................................................................... 27
2.4.1.2. 验证 DTS数据实时同步 ................................................................................................... 33
2.4.2. 新增表数据同步处理 ............................................................................................................... 35
2.5. ETL幂等实现 ..................................................................................................................................... 36
2.6. 数据回溯实现 ................................................................................................................................... 39
文档版本:20200229(发布日期) V
7DTS数据同步集成 MaxCompute数仓 最佳实践概述
最佳实践概述
场景描述
客户 T+1数仓传统 ETL存在以下痛点:
1. 数据抽取不幂等或容错率低,如凌晨 0:00启动的 ETL任务因为各种原因(数据库
HA切换、网络抖动或 MAXC写入失败等)失败后,再次抽取无法获取 0:00时的数
据状态。
2. 针对不规范设计表,如没有 create_time/update_time的历史遗留表,传统 ETL需
全量抽取。
3. 实时性差,抽取数据+重试任务往往需要 1-3小时。
另外数据库的数据生命周期回溯难,如客户想回溯一年内某些数据的增删改生命周期,
需要从 OSS拉取一年的 binlog解析和分析,十分困难,费时费力。
本文 Step by Step 介绍了通过数据传输服务 DTS 实现从云数据库 RDS 到
MaxCompute的数据同步集成,并介绍如何使用 DTS和 MaxCompute数仓联合实现
数据 ETL幂等和数据生命周期快速回溯。
方案架构
方案优势
⚫ DTS简便易用,可以通过控制台一键完成同步,也可以通过 Open API批量生成。
⚫ DTS将 binlog作为大数据同步的手段,能够实现 ETL幂等,大大提高数据仓库的
数据质量。
文档版本:20200229(发布日期) 1
8DTS数据同步集成 MaxCompute数仓 最佳实践概述
⚫ 针对不规范设计的表,仍然可以通过 binlog的时间来生成创建和修改时间。
⚫ 实时性提高,将凌晨的批量抽取改为准实时同步,凌晨 0:00过后几分钟就可以开
始批处理任务。
⚫ 通过 MaxCompute的分布式计算能力,能够快速回溯数据的增删改生命周期。
文档版本:20200229(发布日期) 2