相关产品

相关推荐

探索阿里云产品,构建云上应用和服务

免费试用

相关产品

相关推荐

探索阿里云产品,构建云上应用和服务

免费试用

温馨提示

抱歉,登录前您只能看到8页哦。立刻登录,浏览全部技术解决方案最佳实践案例内容!

如果您是企业账号,可以生成子账号授权访问。

BpFile(id=140, bpId=146, name=DTS数据同步集成MaxCompute数仓, author=null, keyword=数据集成,实时同步,ETL幂等,数据回溯, description=介绍通过DTS实现从RDS到MaxCompute的数据同步集成, 并介绍如何使用DTS和MaxCompute联合实现数据ETL幂等和快速数据回溯, position=null, ossUrl=bp-9EBPD7VX22R5UQIR.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述 本文Step by Step介绍了通过数据传输服务 DTS实现从云数据库RDS到MaxCompute的 数据同步集成,并介绍如何使用DTS和 MaxCompute数仓联合实现数据ETL幂等和数 据生命周期快速回溯。 解决问题 1.实现大数据实时同步集成。 2.实现数据ETL幂等。 3.实现数据生命周期快速回溯。 产品列表 ⚫MaxCompute ⚫数据传输服务DTS ⚫DataWorks ⚫云数据库RDS MySQL 版

, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=, buttonName=null, buttonUrl=null, targetId=MOXQVE4X36VMJC2E, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null)
1 DTS数据同步集成 MaxCompute数仓 最佳实践 场景描述 业务架构图 本文 Step by Step 介绍了通过数据传输服务 DTS实现从云数据库 RDS到 MaxCompute的 数据同步集成,并介绍如何使用 DTS 和 MaxCompute数仓联合实现数据 ETL幂等和数 据生命周期快速回溯。 解决问题 1. 实现大数据实时同步集成。 2. 实现数据 ETL幂等。 3. 实现数据生命周期快速回溯。 产品列表 ⚫ MaxCompute ⚫ 数据传输服务 DTS ⚫ DataWorks ⚫ 云数据库 RDS MySQL 版
2云服务器 ECS(产品名称) 文档模板(手册名称)/文档版本信息 阿里云 DTS数据同步集成 MaxCompute数仓 最佳实践 文档版本:20200229(发布日期) 文档版本:20150122(发布日期) I
3DTS数据同步集成 MaxCompute数仓 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 DTS数据同步集成 MaxCompute数仓最佳实践 文档编号 146 文档版本 V1.1 版本日期 2020-02-28 文档状态 - 制作人 懿弘 审阅人 李锐、游圣 文档变更记录 版本编号 日期 作者 审核人 说明 V1.0 2020-02-28 懿弘 李锐、游圣 创建 V1.1 2020-02-29 筱晖 懿弘 文档工程师优化 文档版本:20200229(发布日期) I
4DTS数据同步集成 MaxCompute数仓 前言 前言 概述 本文 Step by Step 介绍了通过数据传输服务 DTS 实现从云数据库 RDS 到 MaxCompute的数据同步集成,并介绍如何使用 DTS和 MaxCompute数仓联合实现 数据 ETL幂等和数据生命周期快速回溯。 应用范围 ⚫ 实现大数据实时同步集成。 ⚫ 实现数据 ETL幂等。 ⚫ 实现数据生命周期快速回溯。 名词解释 ⚫ MaxCompute:MaxCompute(原 ODPS)是一项大数据计算服务,它能提供快 速、完全托管的 PB级数据仓库解决方案,使您可以经济并高效的分析处理海量 数据。 更多信息,请参见:https://www.aliyun.com/product/odps ⚫ 数据传输服务 DTS:数据传输服务(Data Transmission Service) DTS支持关系型 数据库、NoSQL、大数据(OLAP)等数据源间的数据传输。 它是一种集数据迁 移、数据订阅及数据实时同步于一体的数据传输服务。数据传输致力于在公共 云、混合云场景下,解决远距离、毫秒级异步数据传输难题。 更多信息,请参见:https://www.aliyun.com/product/dts ⚫ DataWorks:是一个提供了大数据 OS能力、并以 all in one box的方式提供专业 高效、安全可靠的一站式大数据智能云研发平台。 同时能满足用户对数据治理、 质量管理需求,赋予用户对外提供数据服务的能力。 更多信息,请参见:https://data.aliyun.com/product/ide ⚫ VPC:Virtual Private Cloud,简称 VPC。基于阿里云创建的自定义私有网络, 不 同的专有网络之间二层逻辑隔离,可以在自己创建的专有网络内创建和管理云产 品实例,比如 ECS、负载均衡、RDS等。在创建前,您需要结合具体业务,规 划 VPC和交换机的数量及网段等。 文档版本:20200229(发布日期) III
5DTS数据同步集成 MaxCompute数仓 前言 更多信息,请参见:https://www.aliyun.com/product/vpc ⚫ RDS:Relational Database Service,简称 RDS。阿里云关系型数据库是一种稳 定可靠、可弹性伸缩的在线数据库服务。基于阿里云分布式文件系统和 SSD盘 高性能存储,RDS支持 MySQL、SQL Server、PostgreSQL、PPAS(Postgre Plus Advanced Server,高度兼容 Oracle数据库)和 MariaDB TX引擎,并且提 供了容灾、备份、恢复、监控、迁移等方面的全套解决方案,彻底解决数据库运 维的烦恼。 更多信息,请参见:https://www.aliyun.com/product/rds/mysql 文档版本:20200229(发布日期) IV
6DTS数据同步集成 MaxCompute数仓 目录 目录 文档版本信息 .............................................................................................................................................................. I 法律声明 ..................................................................................................................................................................... II 前言 ............................................................................................................................................................................ III 目录 ............................................................................................................................................................................. V 最佳实践概述 ............................................................................................................................................................. 1 前置条件 ..................................................................................................................................................................... 3 演示环境说明 ............................................................................................................................................................. 4 1. 演示基础环境部署 ............................................................................................................................................. 5 1.1. 环境部署 ............................................................................................................................................. 5 1.1.1. 创建专有网络 VPC ...................................................................................................................... 5 1.1.2. 部署云数据库 RDS ...................................................................................................................... 7 1.1.2.1. 创建云数据库 RDS MySQL版实例 ..................................................................................... 7 1.1.2.2. 创建数据库和账号 ............................................................................................................ 11 1.2. 模拟数据构造 ................................................................................................................................... 16 2. MaxCompute数仓搭建 .................................................................................................................................... 22 2.1. 开通 DataWorks ................................................................................................................................. 22 2.2. 开通 MaxCompute ............................................................................................................................ 23 2.3. 创建 MaxCompute项目.................................................................................................................... 24 2.4. DTS数据同步集成 MaxCompute ..................................................................................................... 26 2.4.1. 通过 DTS实现数据同步 ........................................................................................................... 27 2.4.1.1. 配置 DTS数据同步 ........................................................................................................... 27 2.4.1.2. 验证 DTS数据实时同步 ................................................................................................... 33 2.4.2. 新增表数据同步处理 ............................................................................................................... 35 2.5. ETL幂等实现 ..................................................................................................................................... 36 2.6. 数据回溯实现 ................................................................................................................................... 39 文档版本:20200229(发布日期) V
7DTS数据同步集成 MaxCompute数仓 最佳实践概述 最佳实践概述 场景描述 客户 T+1数仓传统 ETL存在以下痛点: 1. 数据抽取不幂等或容错率低,如凌晨 0:00启动的 ETL任务因为各种原因(数据库 HA切换、网络抖动或 MAXC写入失败等)失败后,再次抽取无法获取 0:00时的数 据状态。 2. 针对不规范设计表,如没有 create_time/update_time的历史遗留表,传统 ETL需 全量抽取。 3. 实时性差,抽取数据+重试任务往往需要 1-3小时。 另外数据库的数据生命周期回溯难,如客户想回溯一年内某些数据的增删改生命周期, 需要从 OSS拉取一年的 binlog解析和分析,十分困难,费时费力。 本文 Step by Step 介绍了通过数据传输服务 DTS 实现从云数据库 RDS 到 MaxCompute的数据同步集成,并介绍如何使用 DTS和 MaxCompute数仓联合实现 数据 ETL幂等和数据生命周期快速回溯。 方案架构 方案优势 ⚫ DTS简便易用,可以通过控制台一键完成同步,也可以通过 Open API批量生成。 ⚫ DTS将 binlog作为大数据同步的手段,能够实现 ETL幂等,大大提高数据仓库的 数据质量。 文档版本:20200229(发布日期) 1
8DTS数据同步集成 MaxCompute数仓 最佳实践概述 ⚫ 针对不规范设计的表,仍然可以通过 binlog的时间来生成创建和修改时间。 ⚫ 实时性提高,将凌晨的批量抽取改为准实时同步,凌晨 0:00过后几分钟就可以开 始批处理任务。 ⚫ 通过 MaxCompute的分布式计算能力,能够快速回溯数据的增删改生命周期。 文档版本:20200229(发布日期) 2