阿里云全部技术解决方案

自建Hadoop迁移MaxCompute

探索阿里云产品，构建云上应用和服务

BpFile(id=197, bpId=147, name=自建Hadoop迁移MaxCompute, author=null, keyword=hadoop迁移,hbase迁移,maxcompute,大数据迁移, description=介绍如何将自建Hadoop集群及生态组件迁移到阿里云MaxCompute大数据服务。, position=null, ossUrl=bp-4DDDYV6EY4RQSUFS.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述客户基于ECS、IDC自建或在友商云平台自建了大数据集群，为了降低企业大数据计算平台的成本，提高大数据应用开发效率，更有效保障数据安全，把大数据集群的数据、作业、调度任务以及业务数据库整体迁移到MaxCompute和其他云产品。解决的问题自建Hadoop集群搬迁到MaxCompute 自建Hbase集群搬迁到云Hbase 自建Kafka或应用数据准实时同步到 MaxCompute 自建Azkaban任务迁移到Dataworks任务产品列表 MaxCompute，Dataworks、云数据库Hbase版、Datahub、VPC，ECS。

, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=3D28DEY1AMKTG2RQ, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null)

1 自建 Hadoop迁移 MaxCompute 场景描述解决的问题客户基于ECS、IDC自建或友商自建了大数据集群， ⚫ 自建Hadoop集群搬迁到 MaxCompute 为了降低企业大数据计算平台的成本，提高大数 ⚫ 自建Hbase集群搬迁到云 Hbase 据应用开发效率，更有效保障数据安全，把大数据 ⚫ 自建 Kafka 或服务器数据实时同步到集群的数据、作业、调度任务以及业务数据库整体 MaxCompute 迁移到MaxCompute和其他云产品。 ⚫ 自建Azkaban搬迁到 Dataworks 产品列表 MaxCompute，Dataworks、云数据库 Hbase版、Datahub、VPC，ECS。

2文档模板（手册名称）/Error! Use the Home tab to apply 云服务器 ECS（产品名称）标题 to the text that you want to appear here. 文档版本：20210723 阿里云自建 Hadoop 迁移MaxCompute 文档版本：20150122（发布日期） III

3自建Hadoop迁移MaxCompute 文档版本信息文档版本信息文本信息属性内容文档名称自建 Hadoop迁移 MaxCompute 文档编号文档版本 V1.1 版本日期 2021-07-23 文档状态外部发布制作人云魁、弦望、游士审阅人游圣文档变更记录版本编号日期作者审核人说明云魁、弦望、 V1.0 2020-02-26 创建乔夫、吴昊使用 CADT创建资源，更新部 V1.1 2021-07-23 游士分命令和链接文档版本：20210723 I

4自建Hadoop迁移MaxCompute 前言前言概述客户基于 ECS、IDC自建或友商自建了大数据集群，为了降低企业大数据计算平台的成本，提高大数据应用开发效率，更有效保障数据安全，把大数据集群的数据、作业、调度任务、业务数据库整体迁移到 MaxCompute和其他云产品。名词解释 ⚫ HDFS Hadoop 分布式文件系统（HDFS）被设计成适合运行在通用硬件上的分布式文件系统，它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。 ⚫ VPN网关 VPN网关是一款基于 Internet的网络连接服务，通过加密通道的方式实现企业数据中心、企业办公网络或 Internet终端与阿里云专有网络（VPC）安全可靠的连接。 VPN 网关提供 IPSec-VPN 连接和 SSL-VPN 连接。详情请查看 https://www.aliyun.com/product/vpn ⚫ IPSec VPN 基于路由的 IPSec-VPN，不仅可以更方便的配置和维护 VPN策略，而且还提供了灵活的流量路由方式。您可以使用 IPSec-VPN功能将本地数据中心与 VPC或不同的 VPC之间进行连接。IPSec-VPN支持 IKEv1和 IKEv2协议。只要支持这两种协议的设备都可以和阿里云 VPN网关互连，比如华为、华三、山石、深信服、Cisco ASA、Juniper、SonicWall、Nokia、IBM 和 Ixia等。 ⚫ Kafka Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素，这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像 Hadoop一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka 的目的是通过文档版本：20210723 III

5自建Hadoop迁移MaxCompute 前言 Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。 ⚫ Flume Flume是一种分布式，可靠且可用的服务，用于有效地收集，聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机制以及许多故障转移和恢复机制，具有强大的功能和容错能力。它使用一个简单的可扩展数据模型，允许在线分析应用程序。文档版本：20210723 IV

6自建Hadoop迁移MaxCompute 目录目录文档版本信息 ........................................................................................................................................................ I 法律声明 ............................................................................................................................................................... II 前言 ..................................................................................................................................................................... III 目录 ...................................................................................................................................................................... V 最佳实践概述 ....................................................................................................................................................... 1 前置条件 ............................................................................................................................................................... 3 资源规划说明 ....................................................................................................................................................... 4 1. 自建 Hadoop集群环境搭建 ............................................................................................................................ 5 1.1. Hadoop集群安装规划 ................................................................................................................... 5 1.1.1. 组件安装规划......................................................................................................................... 5 1.1.2. 组件运行规划......................................................................................................................... 5 1.2. 使用云速搭 CADT快速创建资源 ................................................................................................... 6 1.3. 初始化配置 .................................................................................................................................. 10 1.4. 配置 hadoop各 ECS之间的无密钥登录 ...................................................................................... 11 1.5. loggen操作 .................................................................................................................................. 12 1.6. Kafka操作 .................................................................................................................................... 12 1.7. Zookeeper操作 ............................................................................................................................ 13 1.8. Hadoop操作 ................................................................................................................................ 13 1.9. Flume操作 ................................................................................................................................... 14 1.10. MySQL操作.................................................................................................................................. 15 1.11. Hive操作 ...................................................................................................................................... 15 1.12. Hbase操作 ................................................................................................................................... 16 1.13. Azkaban操作 ............................................................................................................................... 18 2. 开通 MaxCompute ....................................................................................................................................... 22 2.1. 创建 Dataworks工作空间 ............................................................................................................ 22 3. Hive数仓迁移到 MaxCompute.................................................................................................................... 24 3.1. 配置 MMA迁移工具.................................................................................................................... 24 3.2. 启动 MMA工具进行数据迁移 .................................................................................................... 25 3.3. 在 MaxCompute查看对应表 ....................................................................................................... 26 4. Hbase表数据迁移到云数据库 Hbase版 .................................................................................................... 30 4.1. 创建 BDS集群 .............................................................................................................................. 30 4.2. 配置 Hbase迁移相关配置 ........................................................................................................... 33 4.3. 启动 Hbase历史数据迁移 ........................................................................................................... 35 4.4. 启动 Hbase实时数据同步 ........................................................................................................... 37 5. 数据接入组件 Kafka迁移到 Datahub.......................................................................................................... 40 5.1. 创建 Datahub工程和 Topic .......................................................................................................... 40 5.2. 在 ECS loggen上启动新的 Flume任务将数据发送到 Datahub ................................................... 42 5.3. 创建 DataConnector将数据从 Datahub归档到 MaxCompute表 ................................................ 44 6. Azkaban定时任务迁移和改造 .................................................................................................................... 48 6.1. 将表 datahub_dataconnector_apache_logs数据灌入 odps_apache_logs .................................... 48 6.2. 改造 Azkaban测试工程中 Job 99_ip_statics ................................................................................ 57 文档版本：20210723 V

7自建Hadoop迁移MaxCompute 目录 6.2.1. 修改 HiveSQL并提交 ODPS SQL任务 ................................................................................... 57 6.2.2. 将中间表同步到云数据库 Hbase实例 ................................................................................ 64 6.2.3. 查看执行成功的任务 ........................................................................................................... 73 6.3. 改造 Azkaban测试工程中 Job 98_add_device_and_user_type .................................................... 74 文档版本：20210723 VI

8自建Hadoop迁移MaxCompute 最佳实践概述最佳实践概述概述客户基于 ECS、IDC自建或友商自建了大数据集群，为了降低企业大数据计算平台的成本，提高大数据应用开发效率，更有效保障数据安全，把大数据集群的数据、作业、调度任务、业务数据库整体迁移到 MaxCompute和其他云产品。适用场景 ⚫ 自建 Hadoop集群搬迁到 MaxCompute ⚫ 自建 Hbase集群搬迁到云 Hbase ⚫ 自建 Kafka或服务器数据实时同步到 MaxCompute ⚫ 自建 Azkaban搬迁到 Dataworks 技术架构本实践方案基于如下图所示的技术架构和主要流程编写操作步骤：文档版本：20210723 1

自建Hadoop迁移MaxCompute

相关产品

相关推荐

探索阿里云产品，构建云上应用和服务

相关产品

相关推荐

探索阿里云产品，构建云上应用和服务

自建Hadoop迁移MaxCompute

相关产品

相关推荐

探索阿里云产品，构建云上应用和服务

相关产品

相关推荐

探索阿里云产品，构建云上应用和服务

温馨提示