BpFile(id=197, bpId=147, name=自建Hadoop迁移MaxCompute, author=null, keyword=hadoop迁移,hbase迁移,maxcompute,大数据迁移, description=介绍如何将自建Hadoop集群及生态组件迁移到阿里云MaxCompute大数据服务。, position=null, ossUrl=bp-4DDDYV6EY4RQSUFS.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=
场景描述
客户基于ECS、IDC自建或在友商云平台自建了大数
据集群,为了降低企业大数据计算平台的成本,提高
大数据应用开发效率,更有效保障数据安全,把大数
据集群的数据、作业、调度任务以及业务数据库整体
迁移到MaxCompute和其他云产品。
解决的问题
自建Hadoop集群搬迁到MaxCompute
自建Hbase集群搬迁到云Hbase
自建Kafka或应用数据准实时同步到
MaxCompute
自建Azkaban任务迁移到Dataworks任务
产品列表
MaxCompute,Dataworks、云数据库Hbase版、Datahub、VPC,ECS。
, templateId=3D28DEY1AMKTG2RQ, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=3D28DEY1AMKTG2RQ, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null)
1
自建 Hadoop迁移 MaxCompute
场景描述 解决的问题
客户基于ECS、IDC自建或友商自建了大数据集群, ⚫ 自建Hadoop集群搬迁到 MaxCompute
为了降低企业大数据计算平台的成本,提高大数
⚫ 自建Hbase集群搬迁到云 Hbase
据应用开发效率,更有效保障数据安全,把大数据
⚫ 自建 Kafka 或服务器数据实时同步到
集群的数据、作业、调度任务以及业务数据库整体
MaxCompute
迁移到MaxCompute和其他云产品。
⚫ 自建Azkaban搬迁到 Dataworks
产品列表
MaxCompute,Dataworks、云数据库 Hbase版、Datahub、VPC,ECS。
2文档模板(手册名称)/Error! Use the Home tab to apply
云服务器 ECS(产品名称) 标题 to the text that you want to appear here.
文档版本:20210723
阿里云
自建 Hadoop
迁移MaxCompute
文档版本:20150122(发布日期) III
3自建Hadoop迁移MaxCompute 文档版本信息
文档版本信息
文本信息
属性 内容
文档名称 自建 Hadoop迁移 MaxCompute
文档编号
文档版本 V1.1
版本日期 2021-07-23
文档状态 外部发布
制作人 云魁、弦望、游士
审阅人 游圣
文档变更记录
版本编号 日期 作者 审核人 说明
云魁、弦望、
V1.0 2020-02-26 创建
乔夫、吴昊
使用 CADT创建资源,更新部
V1.1 2021-07-23 游士
分命令和链接
文档版本:20210723 I
4自建Hadoop迁移MaxCompute 前言
前言
概述
客户基于 ECS、IDC自建或友商自建了大数据集群,为了降低企业大数据计算平台
的成本,提高大数据应用开发效率,更有效保障数据安全,把大数据集群的数据、作
业、调度任务、业务数据库整体迁移到 MaxCompute和其他云产品。
名词解释
⚫ HDFS
Hadoop 分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文
件系统,它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式
文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉
价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应
用。
⚫ VPN网关
VPN网关是一款基于 Internet的网络连接服务,通过加密通道的方式实现企业数
据中心、企业办公网络或 Internet终端与阿里云专有网络(VPC)安全可靠的连
接。 VPN 网关提供 IPSec-VPN 连接和 SSL-VPN 连接。详情请查看
https://www.aliyun.com/product/vpn
⚫ IPSec VPN
基于路由的 IPSec-VPN,不仅可以更方便的配置和维护 VPN策略,而且还提供
了灵活的流量路由方式。您可以使用 IPSec-VPN功能将本地数据中心与 VPC或
不同的 VPC之间进行连接。IPSec-VPN支持 IKEv1和 IKEv2协议。只要支持这
两种协议的设备都可以和阿里云 VPN网关互连,比如华为、华三、山石、深信
服、Cisco ASA、Juniper、SonicWall、Nokia、IBM 和 Ixia等。
⚫ Kafka
Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中
的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网
络上的许多社会功能的一个关键因素,这些数据通常是由于吞吐量的要求而通过
处理日志和日志聚合来解决。对于像 Hadoop一样的日志数据和离线分析系统,
但又要求实时处理的限制,这是一个可行的解决方案。Kafka 的目的是通过
文档版本:20210723 III
5自建Hadoop迁移MaxCompute 前言
Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提
供实时的消息。
⚫ Flume
Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日
志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机
制以及许多故障转移和恢复机制,具有强大的功能和容错能力。它使用一个简单
的可扩展数据模型,允许在线分析应用程序。
文档版本:20210723 IV
6自建Hadoop迁移MaxCompute 目录
目录
文档版本信息 ........................................................................................................................................................ I
法律声明 ............................................................................................................................................................... II
前言 ..................................................................................................................................................................... III
目录 ...................................................................................................................................................................... V
最佳实践概述 ....................................................................................................................................................... 1
前置条件 ............................................................................................................................................................... 3
资源规划说明 ....................................................................................................................................................... 4
1. 自建 Hadoop集群环境搭建 ............................................................................................................................ 5
1.1. Hadoop集群安装规划 ................................................................................................................... 5
1.1.1. 组件安装规划......................................................................................................................... 5
1.1.2. 组件运行规划......................................................................................................................... 5
1.2. 使用云速搭 CADT快速创建资源 ................................................................................................... 6
1.3. 初始化配置 .................................................................................................................................. 10
1.4. 配置 hadoop各 ECS之间的无密钥登录 ...................................................................................... 11
1.5. loggen操作 .................................................................................................................................. 12
1.6. Kafka操作 .................................................................................................................................... 12
1.7. Zookeeper操作 ............................................................................................................................ 13
1.8. Hadoop操作 ................................................................................................................................ 13
1.9. Flume操作 ................................................................................................................................... 14
1.10. MySQL操作.................................................................................................................................. 15
1.11. Hive操作 ...................................................................................................................................... 15
1.12. Hbase操作 ................................................................................................................................... 16
1.13. Azkaban操作 ............................................................................................................................... 18
2. 开通 MaxCompute ....................................................................................................................................... 22
2.1. 创建 Dataworks工作空间 ............................................................................................................ 22
3. Hive数仓迁移到 MaxCompute.................................................................................................................... 24
3.1. 配置 MMA迁移工具.................................................................................................................... 24
3.2. 启动 MMA工具进行数据迁移 .................................................................................................... 25
3.3. 在 MaxCompute查看对应表 ....................................................................................................... 26
4. Hbase表数据迁移到云数据库 Hbase版 .................................................................................................... 30
4.1. 创建 BDS集群 .............................................................................................................................. 30
4.2. 配置 Hbase迁移相关配置 ........................................................................................................... 33
4.3. 启动 Hbase历史数据迁移 ........................................................................................................... 35
4.4. 启动 Hbase实时数据同步 ........................................................................................................... 37
5. 数据接入组件 Kafka迁移到 Datahub.......................................................................................................... 40
5.1. 创建 Datahub工程和 Topic .......................................................................................................... 40
5.2. 在 ECS loggen上启动新的 Flume任务将数据发送到 Datahub ................................................... 42
5.3. 创建 DataConnector将数据从 Datahub归档到 MaxCompute表 ................................................ 44
6. Azkaban定时任务迁移和改造 .................................................................................................................... 48
6.1. 将表 datahub_dataconnector_apache_logs数据灌入 odps_apache_logs .................................... 48
6.2. 改造 Azkaban测试工程中 Job 99_ip_statics ................................................................................ 57
文档版本:20210723 V
7自建Hadoop迁移MaxCompute 目录
6.2.1. 修改 HiveSQL并提交 ODPS SQL任务 ................................................................................... 57
6.2.2. 将中间表同步到云数据库 Hbase实例 ................................................................................ 64
6.2.3. 查看执行成功的任务 ........................................................................................................... 73
6.3. 改造 Azkaban测试工程中 Job 98_add_device_and_user_type .................................................... 74
文档版本:20210723 VI
8自建Hadoop迁移MaxCompute 最佳实践概述
最佳实践概述
概述
客户基于 ECS、IDC自建或友商自建了大数据集群,为了降低企业大数据计算平台
的成本,提高大数据应用开发效率,更有效保障数据安全,把大数据集群的数据、作
业、调度任务、业务数据库整体迁移到 MaxCompute和其他云产品。
适用场景
⚫ 自建 Hadoop集群搬迁到 MaxCompute
⚫ 自建 Hbase集群搬迁到云 Hbase
⚫ 自建 Kafka或服务器数据实时同步到 MaxCompute
⚫ 自建 Azkaban搬迁到 Dataworks
技术架构
本实践方案基于如下图所示的技术架构和主要流程编写操作步骤:
文档版本:20210723 1