BpFile(id=194, bpId=111, name=自建Hadoop迁移到阿里云EMR, author=null, keyword=Hadoop,HDFS,迁移,EMR集群,IPSec,VPN网关,云速搭CADT, description=介绍如何将客户自建Hadoop集群的文件系统(HDFS)数据迁移到阿里云EMR集群。
, position=null, ossUrl=bp-ECN5NYTIMNHYL6L5.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=
场景描述
场景1:自建Hadoop集群数据(HDFS)迁移到
阿里云EMR集群的HDFS文件系统;
场景2:自建Hadoop集群数据(HDFS)迁移到
计算存储分离架构的阿里云EMR集群,以OSS
和JindoFS作为EMR集群的后端存储。
解决的问题
客户自建Hadoop迁移到阿里云EMR集群的
技术方案;
基于IPSecVPN隧道构建安全和低成本数据
传输链路
产品列表
E-MapReduce,VPC,ECS,OSS,VPN网关。
, templateId=P4P9PGZXA8GAJAGS, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=P4P9PGZXA8GAJAGS, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null)
1
自建 Hadoop数据迁移到阿里云 EMR
场景描述 解决的问题
场景1:自建 Hadoop集群数据(HDFS)迁移到阿 客户自建 Hadoop迁移到阿里云 EMR集群的技
里云EMR集群的 HDFS文件系统; 术方案;
场景2:自建 Hadoop集群数据(HDFS)迁移到计 基于 IPSec VPN隧道构建安全和低成本数据
算存储分离架构的阿里云 EMR集群,以 OSS 和 传输链路
JindoFS作为 EMR集群的后端存储。
产品列表
E-MapReduce,VPC,ECS,OSS,VPN网关。
2文档模板(手册名称)/Error! Use the Home tab to apply
云服务器 ECS(产品名称) 标题 to the text that you want to appear here.
文档版本:20150122(发布日期) II
3文档模板(手册名称)/Error! Use the Home tab to apply
云服务器 ECS(产品名称) 标题 to the text that you want to appear here.
文档版本:20210714
阿里云
自建 Hadoop数据迁移到
阿里云 EMR
文档版本:20150122(发布日期) III
4自建Hadoop数据迁移到阿里云 EMR 文档版本信息
文档版本信息
文本信息
属性 内容
文档名称 自建 Hadoop数据迁移到阿里云 EMR
文档编号 111
文档版本 V1.5
版本日期 2020-03-30
文档状态 外部发布
制作人 云魁、连辙、青俞、弦望、游士
审阅人 毕役、云滴、子关、游圣
文档变更记录
版本编号 日期 作者 审核人 说明
V1.0 2019-11-20 云魁 云滴、毕役 创建
V1.1 2019-11-25 筱晖 - 文档优化
增加 HDFS迁移到 OSS和
V1.2 2019-12-25 云魁 子关
JindoFS的方案
V1.3 2020-01-31 云魁 修改概览页场景描述
V1.4 2020-02-07 云魁 更新 VPN网关配置
增加附录,直接通过公网进行
V1.5 2020-03-30 青俞、弦望 云魁
Distcp传输方案
更新部分失效链接和命令,使
V1.6 2021-07-14 游士 用云速搭 CADT创建初始云
资源
联系我们
如果您在使用本最佳实践时遇到问题,欢迎通过钉钉扫描下面的二维码获取文档方案
负责人的进一步帮助:
文档版本:20200330 I
5自建Hadoop数据迁移到阿里云 EMR 前言
前言
概述
客户在 IDC或者公有云环境自建 Hadoop集群,数据集中保存在 HDFS文件系统用于
数据分析任务。客户在决策上云之后,会将自建 Hadoop集群的数据迁移到阿里云自
建 Hadoop或者 EMR。本实践方案提供安全和低成本的 HDFS数据迁移方案。
名词解释
E-MapReduce
阿里云 E-MapReduce(EMR)是构建在阿里云云服务器 ECS 上的开源
Hadoop、Spark、HBase、Hive、Flink生态大数据 PaaS 产品。提供用户在云
上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学
习等场景下的大数据解决方案。详情请查看
https://www.aliyun.com/product/emapreduce
HDFS
Hadoop 分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文
件系统,它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式
文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉
价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应
用。
OSS
对象存储服务(Object Storage Service,OSS)是一种海量、安全、低成本、高
可靠的云存储服务,适合存放任意类型的文件。容量和处理能力弹性扩展,多种
存储类型供选择,全面优化存储成本。
JindoFS
JindoFS是一种云原生的文件系统,结合 OSS和本地存储,成为 E-MapReduce
产品的新一代存储系统,为上层计算提供了高效可靠的存储。JindoFS 提供了块
存储模式(Block)和缓存模式(Cache)的存储模式。JindoFS 采用了本地存储
和 OSS的异构多备份机制, Storage Service提供了数据存储能力,首先使用 OSS
作为存储后端,保证数据的高可靠性,同时利用本地存储实现冗余备份,利用本地
的备份,可以加速数据读取;另外,JindoFS 的元数据通过本地服务 Namespace
文档版本:20200330 III
6自建Hadoop数据迁移到阿里云 EMR 前言
Service管理,从而保证了元数据操作的性能(和 HDFS元数据操作性能相似)。
DistCp
DistCp是用于大型集群间/集群内复制的工具。它使用 MapReduce来实现其分
发,错误处理和恢复以及报告。它将文件和目录的列表扩展为映射任务的输入,
每个任务都会复制源列表中指定的文件分区。
VPN网关
VPN网关是一款基于 Internet的网络连接服务,通过加密通道的方式实现企业数
据中心、企业办公网络或 Internet终端与阿里云专有网络(VPC)安全可靠的连
接。 VPN 网关提供 IPSec-VPN 连接和 SSL-VPN 连接。详情请查看
https://www.aliyun.com/product/vpn
IPSec VPN
基于路由的 IPSec-VPN,不仅可以更方便的配置和维护 VPN策略,而且还提供
了灵活的流量路由方式。您可以使用 IPSec-VPN功能将本地数据中心与 VPC或
不同的 VPC之间进行连接。IPSec-VPN支持 IKEv1和 IKEv2协议。只要支持这
两种协议的设备都可以和阿里云 VPN网关互连,比如华为、华三、山石、深信
服、Cisco ASA、Juniper、SonicWall、Nokia、IBM 和 Ixia等。
Kafka
Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中
的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网
络上的许多社会功能的一个关键因素,这些数据通常是由于吞吐量的要求而通过
处理日志和日志聚合来解决。对于像 Hadoop一样的日志数据和离线分析系统,
但又要求实时处理的限制,这是一个可行的解决方案。Kafka 的目的是通过
Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提
供实时的消息。
Flume
Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日
志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机
制以及许多故障转移和恢复机制,具有强大的功能和容错能力。它使用一个简单
的可扩展数据模型,允许在线分析应用程序。
文档版本:20200330 IV
7自建Hadoop数据迁移到阿里云 EMR 目录
目录
文档版本信息 ........................................................................................................................................................ I
法律声明 ............................................................................................................................................................... II
前言 ..................................................................................................................................................................... III
目录 ...................................................................................................................................................................... V
最佳实践概述 ....................................................................................................................................................... 1
前置条件 ............................................................................................................................................................... 2
资源规划说明 ....................................................................................................................................................... 3
1. 自建 Hadoop集群环境搭建 ............................................................................................................................ 4
1.1. 使用云速搭 CADT快速创建资源 ................................................................................................... 4
1.2. 安装日志发生器 .......................................................................................................................... 14
1.3. 安装 Hadoop集群 ........................................................................................................................ 16
1.4. 在 Hadoop集群生成数据 ............................................................................................................ 21
2. 检视 EMR集群 ............................................................................................................................................ 25
2.1. 自建 Hadoop和 EMR集群的配置对比和更改 ............................................................................ 25
3. 创建 IPSec VPN隧道.................................................................................................................................... 26
3.1. 配置杭州区域的 VPN网关 .......................................................................................................... 26
3.2. 创建杭州区域的 IPSec VPN连接 ................................................................................................. 26
3.3. 创建客户 IDC的 FlexGW VPN网关和隧道 .................................................................................. 30
3.4. 在客户 IDC添加到阿里云杭州区域 EMR集群的路由 ................................................................ 33
3.5. 连通性验证 .................................................................................................................................. 35
4. 启动数据迁移任务 ...................................................................................................................................... 37
4.1. 配置自建 Hadoop集群和 EMR集群主机的安全组..................................................................... 37
4.2. 配置登录 EMR集群图形界面所需要的用户名和密码 ................................................................ 39
4.3. 在 EMR集群的 master节点进行少量数据迁移 .......................................................................... 41
4.4. 在 EMR集群的 master节点进行大量数据迁移 .......................................................................... 45
5. 将自建 Hadoop数据迁移到 OSS ................................................................................................................. 48
6. 将自建 Hadoop数据迁移到 JindoFS ........................................................................................................... 51
6.1. HDFS数据迁移到 JindoFS缓存模式存储空间 ............................................................................. 51
6.1.1. 设置 JindoFS参数 ................................................................................................................. 51
6.1.2. 启动数据迁移....................................................................................................................... 56
6.2. HDFS数据迁移到 JindoFS块存储模式存储空间 ......................................................................... 58
附件:Distcp任务通过公网进行传输 ................................................................................................................ 61
方案架构 ..................................................................................................................................................... 61
执行步骤 ............................................................................................................................................. 62
源集群侧配置 ...................................................................................................................................... 62
目标集群配置 ...................................................................................................................................... 63
测试方法 ............................................................................................................................................. 64
网络连通 ............................................................................................................................................. 64
数据复制 ............................................................................................................................................. 65
其他要点 ............................................................................................................................................. 67
文档版本:20200330 V
8自建Hadoop数据迁移到阿里云 EMR 最佳实践概述
最佳实践概述
应用场景
客户在 IDC或者公有云环境自建 Hadoop集群,数据集中保存在 HDFS文件系统用于
数据分析任务。但是由于自建 HDFS 空间限制无法保存长期数据,或者客户有将
Hadoop集群迁移上云的需求。本实践方案提供如下场景的最佳实践:
基于 IPSec VPN隧道 + DistCp(Hadoop原生工具),将数据迁移到阿里云 EMR集
群,目标存储包括 HDFS,阿里云 OSS和阿里云 EMR的 Jindo
技术架构
本实践方案基于如下图所示的技术架构和主要流程编写操作步骤:
方案优势
安全性
基于 IPSec VPN/专线的方式进行数据安全传输。
低成本
在阿里云创建 Hadoop类型的 EMR集群和自建 Hadoop集群相比有一定成本优
势,同时阿里云 EMR可以使用 OSS作为底层存储空间,进一步降低成本。
文档版本:20210714 1