Ctrl+F / Command+F 全文检索

相关产品

客户案例

相关最佳实践
业务上云 |

传统企业、零售和游戏行业系统分级后单库单服系统云上搭建最佳实践,涉及大部分基础云产品。

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版 负载均衡 SLB CDN 云速搭
DevOps | 容器&微服务 |

使用云效完成容器应用自动化构建和持续部署

专有网络 VPC 负载均衡 SLB 容器服务 ACK 云效 云速搭
业务上云 |

使用云桌面和VPN网关产品快速构建远程办公环境,在云桌面可以访问企业IDC内的应用和资源

云服务器ECS NAT网关 VPN网关 智能接入网关 云桌面
安全&合规 |

使用阿里云实现电商网站运营期间的安全防护,包括防爬风险管理、DDoS防御、风险管理产品的能力及操作

云数据库RDS MySQL 版 负载均衡 SLB DDoS防护 风险识别 爬虫风险管理
容器&微服务 |

使用ACK上运行常规业务,业务突发波动时突增业务运行在ECI上/达到成本的最优控制

云数据库RDS MySQL 版 文件存储NAS 容器服务 ACK 云数据库 Redis 版 弹性容器实例 ECI 云速搭
数据分析 | 数据迁移 |

介绍如何将自建Hadoop集群及生态组件迁移到阿里云MaxCompute大数据服务。

云服务器ECS DataWorks 大数据计算服务 MaxCompute 云数据库 HBase 版 数据总线 云速搭
数据分析 | 数据迁移 | 数据库 |

介绍通过DTS实现从RDS到MaxCompute的数据同步集成, 并介绍如何使用DTS和MaxCompute联合实现数据ETL幂等和快速数据回溯

专有网络 VPC 云数据库RDS MySQL 版 数据传输 DataWorks 大数据计算服务 MaxCompute
数据分析 |

使用阿里云服务实现电商网站购物数据实时分析后在大屏幕上展示/极大地增强数据的可读性

云服务器ECS 云数据库RDS MySQL 版 DataV数据可视化 实时计算 数据总线
数据分析 |

使用阿里云服务实现电商网站销售数据离线分析后在大屏幕上展示/极大地增强数据的可读性。

云服务器ECS 云数据库RDS MySQL 版 DataWorks 大数据计算服务 MaxCompute DataV数据可视化 API网关 云速搭
中间件 | 容器&微服务 |

Spring Cloud应用经过简单改造,迁移到云上企业级分布式应用服务(EDAS),利用EDAS的监控、调用链、限流降级

专有网络 VPC 云服务器ECS 负载均衡 SLB 企业级分布式应用服务 EDAS
业务上云 | 数据库 |

使用Oracle数据库的应用上云,通过ADAM评分、改造、迁移实现数据库迁移到PolarDB(Oracle兼容版),应用访问

专有网络 VPC 云服务器ECS 云数据库PolarDB 数据库和应用迁移 ADAM

温馨提示

未登录用户仅可预览8页内容,请您前往登录后浏览更多企业上云最佳实践案例内容。企业账号建议生成子账号授权访问。

BpFile(id=140, bpId=146, name=DTS数据同步集成MaxCompute数仓, author=null, keyword=数据集成,实时同步,ETL幂等,数据回溯, description=介绍通过DTS实现从RDS到MaxCompute的数据同步集成, 并介绍如何使用DTS和MaxCompute联合实现数据ETL幂等和快速数据回溯, position=null, ossUrl=bp-GHTXCNVQZY44U0T4.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=0, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述 本文Step by Step介绍了通过数据传输服务 DTS实现从云数据库RDS到MaxCompute的 数据同步集成,并介绍如何使用DTS和 MaxCompute数仓联合实现数据ETL幂等和数 据生命周期快速回溯。 解决问题 1.实现大数据实时同步集成。 2.实现数据ETL幂等。 3.实现数据生命周期快速回溯。 产品列表 ⚫MaxCompute ⚫数据传输服务DTS ⚫DataWorks ⚫云数据库RDS MySQL 版

, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null)
1 DTS数据同步集成 MaxCompute数仓 最佳实践 场景描述 业务架构图 本文 Step by Step 介绍了通过数据传输服务 DTS实现从云数据库 RDS到 MaxCompute的 数据同步集成,并介绍如何使用 DTS 和 MaxCompute数仓联合实现数据 ETL幂等和数 据生命周期快速回溯。 解决问题 1. 实现大数据实时同步集成。 2. 实现数据 ETL幂等。 3. 实现数据生命周期快速回溯。 产品列表 ⚫ MaxCompute ⚫ 数据传输服务 DTS ⚫ DataWorks ⚫ 云数据库 RDS MySQL 版
2云服务器 ECS(产品名称) 文档模板(手册名称)/文档版本信息 阿里云 DTS数据同步集成 MaxCompute数仓 最佳实践 文档版本:20200229(发布日期) 文档版本:20150122(发布日期) I
3DTS数据同步集成 MaxCompute数仓 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 DTS数据同步集成 MaxCompute数仓最佳实践 文档编号 146 文档版本 V1.1 版本日期 2020-02-28 文档状态 - 制作人 懿弘 审阅人 李锐、游圣 文档变更记录 版本编号 日期 作者 审核人 说明 V1.0 2020-02-28 懿弘 李锐、游圣 创建 V1.1 2020-02-29 筱晖 懿弘 文档工程师优化 文档版本:20200229(发布日期) I
4DTS数据同步集成 MaxCompute数仓 前言 前言 概述 本文 Step by Step 介绍了通过数据传输服务 DTS 实现从云数据库 RDS 到 MaxCompute的数据同步集成,并介绍如何使用 DTS和 MaxCompute数仓联合实现 数据 ETL幂等和数据生命周期快速回溯。 应用范围 ⚫ 实现大数据实时同步集成。 ⚫ 实现数据 ETL幂等。 ⚫ 实现数据生命周期快速回溯。 名词解释 ⚫ MaxCompute:MaxCompute(原 ODPS)是一项大数据计算服务,它能提供快 速、完全托管的 PB级数据仓库解决方案,使您可以经济并高效的分析处理海量 数据。 更多信息,请参见:https://www.aliyun.com/product/odps ⚫ 数据传输服务 DTS:数据传输服务(Data Transmission Service) DTS支持关系型 数据库、NoSQL、大数据(OLAP)等数据源间的数据传输。 它是一种集数据迁 移、数据订阅及数据实时同步于一体的数据传输服务。数据传输致力于在公共 云、混合云场景下,解决远距离、毫秒级异步数据传输难题。 更多信息,请参见:https://www.aliyun.com/product/dts ⚫ DataWorks:是一个提供了大数据 OS能力、并以 all in one box的方式提供专业 高效、安全可靠的一站式大数据智能云研发平台。 同时能满足用户对数据治理、 质量管理需求,赋予用户对外提供数据服务的能力。 更多信息,请参见:https://data.aliyun.com/product/ide ⚫ VPC:Virtual Private Cloud,简称 VPC。基于阿里云创建的自定义私有网络, 不 同的专有网络之间二层逻辑隔离,可以在自己创建的专有网络内创建和管理云产 品实例,比如 ECS、负载均衡、RDS等。在创建前,您需要结合具体业务,规 划 VPC和交换机的数量及网段等。 文档版本:20200229(发布日期) III
5DTS数据同步集成 MaxCompute数仓 前言 更多信息,请参见:https://www.aliyun.com/product/vpc ⚫ RDS:Relational Database Service,简称 RDS。阿里云关系型数据库是一种稳 定可靠、可弹性伸缩的在线数据库服务。基于阿里云分布式文件系统和 SSD盘 高性能存储,RDS支持 MySQL、SQL Server、PostgreSQL、PPAS(Postgre Plus Advanced Server,高度兼容 Oracle数据库)和 MariaDB TX引擎,并且提 供了容灾、备份、恢复、监控、迁移等方面的全套解决方案,彻底解决数据库运 维的烦恼。 更多信息,请参见:https://www.aliyun.com/product/rds/mysql 文档版本:20200229(发布日期) IV
6DTS数据同步集成 MaxCompute数仓 目录 目录 文档版本信息 .............................................................................................................................................................. I 法律声明 ..................................................................................................................................................................... II 前言 ............................................................................................................................................................................ III 目录 ............................................................................................................................................................................. V 最佳实践概述 ............................................................................................................................................................. 1 前置条件 ..................................................................................................................................................................... 3 演示环境说明 ............................................................................................................................................................. 4 1. 演示基础环境部署 ............................................................................................................................................. 5 1.1. 环境部署 ............................................................................................................................................. 5 1.1.1. 创建专有网络 VPC ...................................................................................................................... 5 1.1.2. 部署云数据库 RDS ...................................................................................................................... 7 1.1.2.1. 创建云数据库 RDS MySQL版实例 ..................................................................................... 7 1.1.2.2. 创建数据库和账号 ............................................................................................................ 11 1.2. 模拟数据构造 ................................................................................................................................... 16 2. MaxCompute数仓搭建 .................................................................................................................................... 22 2.1. 开通 DataWorks ................................................................................................................................. 22 2.2. 开通 MaxCompute ............................................................................................................................ 23 2.3. 创建 MaxCompute项目.................................................................................................................... 24 2.4. DTS数据同步集成 MaxCompute ..................................................................................................... 26 2.4.1. 通过 DTS实现数据同步 ........................................................................................................... 27 2.4.1.1. 配置 DTS数据同步 ........................................................................................................... 27 2.4.1.2. 验证 DTS数据实时同步 ................................................................................................... 33 2.4.2. 新增表数据同步处理 ............................................................................................................... 35 2.5. ETL幂等实现 ..................................................................................................................................... 36 2.6. 数据回溯实现 ................................................................................................................................... 39 文档版本:20200229(发布日期) V
7DTS数据同步集成 MaxCompute数仓 最佳实践概述 最佳实践概述 场景描述 客户 T+1数仓传统 ETL存在以下痛点: 1. 数据抽取不幂等或容错率低,如凌晨 0:00启动的 ETL任务因为各种原因(数据库 HA切换、网络抖动或 MAXC写入失败等)失败后,再次抽取无法获取 0:00时的数 据状态。 2. 针对不规范设计表,如没有 create_time/update_time的历史遗留表,传统 ETL需 全量抽取。 3. 实时性差,抽取数据+重试任务往往需要 1-3小时。 另外数据库的数据生命周期回溯难,如客户想回溯一年内某些数据的增删改生命周期, 需要从 OSS拉取一年的 binlog解析和分析,十分困难,费时费力。 本文 Step by Step 介绍了通过数据传输服务 DTS 实现从云数据库 RDS 到 MaxCompute的数据同步集成,并介绍如何使用 DTS和 MaxCompute数仓联合实现 数据 ETL幂等和数据生命周期快速回溯。 方案架构 方案优势 ⚫ DTS简便易用,可以通过控制台一键完成同步,也可以通过 Open API批量生成。 ⚫ DTS将 binlog作为大数据同步的手段,能够实现 ETL幂等,大大提高数据仓库的 数据质量。 文档版本:20200229(发布日期) 1
8DTS数据同步集成 MaxCompute数仓 最佳实践概述 ⚫ 针对不规范设计的表,仍然可以通过 binlog的时间来生成创建和修改时间。 ⚫ 实时性提高,将凌晨的批量抽取改为准实时同步,凌晨 0:00过后几分钟就可以开 始批处理任务。 ⚫ 通过 MaxCompute的分布式计算能力,能够快速回溯数据的增删改生命周期。 文档版本:20200229(发布日期) 2