Ctrl+F / Command+F 全文检索

相关产品

客户案例

相关最佳实践
业务上云 |

传统企业、零售和游戏行业系统分级后单库单服系统云上搭建最佳实践,涉及大部分基础云产品。

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版 负载均衡 SLB CDN 云速搭
DevOps | 容器&微服务 |

使用云效完成容器应用自动化构建和持续部署

专有网络 VPC 负载均衡 SLB 容器服务 ACK 云效 云速搭
业务上云 |

使用云桌面和VPN网关产品快速构建远程办公环境,在云桌面可以访问企业IDC内的应用和资源

云服务器ECS NAT网关 VPN网关 智能接入网关 云桌面
安全&合规 |

使用阿里云实现电商网站运营期间的安全防护,包括防爬风险管理、DDoS防御、风险管理产品的能力及操作

云数据库RDS MySQL 版 负载均衡 SLB DDoS防护 风险识别 爬虫风险管理
容器&微服务 |

使用ACK上运行常规业务,业务突发波动时突增业务运行在ECI上/达到成本的最优控制

云数据库RDS MySQL 版 文件存储NAS 容器服务 ACK 云数据库 Redis 版 弹性容器实例 ECI 云速搭
数据分析 | 数据迁移 |

介绍如何将自建Hadoop集群及生态组件迁移到阿里云MaxCompute大数据服务。

云服务器ECS DataWorks 大数据计算服务 MaxCompute 云数据库 HBase 版 数据总线 云速搭
数据分析 | 数据迁移 |

介绍如何将客户自建Hadoop集群的文件系统(HDFS)数据迁移到阿里云EMR集群。

专有网络 VPC 云服务器ECS 对象存储 OSS VPN网关 E-MapReduce 云速搭
ML&AI |

利用PAI平台快速构建一个高效的离线训练和在线推理的推荐业务系统。

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版 大数据计算服务 MaxCompute 机器学习PAI 云速搭
中间件 | 容器&微服务 |

Spring Cloud应用经过简单改造,迁移到云上企业级分布式应用服务(EDAS),利用EDAS的监控、调用链、限流降级

专有网络 VPC 云服务器ECS 负载均衡 SLB 企业级分布式应用服务 EDAS

温馨提示

未登录用户仅可预览8页内容,请您前往登录后浏览更多企业上云最佳实践案例内容。企业账号建议生成子账号授权访问。

BpFile(id=194, bpId=111, name=自建Hadoop迁移到阿里云EMR, author=null, keyword=Hadoop,HDFS,迁移,EMR集群,IPSec,VPN网关,云速搭CADT, description=介绍如何将客户自建Hadoop集群的文件系统(HDFS)数据迁移到阿里云EMR集群。 , position=null, ossUrl=bp-ECN5NYTIMNHYL6L5.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述 场景1:自建Hadoop集群数据(HDFS)迁移到 阿里云EMR集群的HDFS文件系统; 场景2:自建Hadoop集群数据(HDFS)迁移到 计算存储分离架构的阿里云EMR集群,以OSS 和JindoFS作为EMR集群的后端存储。 解决的问题 客户自建Hadoop迁移到阿里云EMR集群的 技术方案; 基于IPSecVPN隧道构建安全和低成本数据 传输链路 产品列表 E-MapReduce,VPC,ECS,OSS,VPN网关。

, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=P4P9PGZXA8GAJAGS, partner=null, partnerUrl=null, partnerLogo=null)
1 自建 Hadoop数据迁移到阿里云 EMR 场景描述 解决的问题 场景1:自建 Hadoop集群数据(HDFS)迁移到阿 客户自建 Hadoop迁移到阿里云 EMR集群的技 里云EMR集群的 HDFS文件系统; 术方案; 场景2:自建 Hadoop集群数据(HDFS)迁移到计 基于 IPSec VPN隧道构建安全和低成本数据 算存储分离架构的阿里云 EMR集群,以 OSS 和 传输链路 JindoFS作为 EMR集群的后端存储。 产品列表 E-MapReduce,VPC,ECS,OSS,VPN网关。
2文档模板(手册名称)/Error! Use the Home tab to apply 云服务器 ECS(产品名称) 标题 to the text that you want to appear here. 文档版本:20150122(发布日期) II
3文档模板(手册名称)/Error! Use the Home tab to apply 云服务器 ECS(产品名称) 标题 to the text that you want to appear here. 文档版本:20210714 阿里云 自建 Hadoop数据迁移到 阿里云 EMR 文档版本:20150122(发布日期) III
4自建Hadoop数据迁移到阿里云 EMR 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 自建 Hadoop数据迁移到阿里云 EMR 文档编号 111 文档版本 V1.5 版本日期 2020-03-30 文档状态 外部发布 制作人 云魁、连辙、青俞、弦望、游士 审阅人 毕役、云滴、子关、游圣 文档变更记录 版本编号 日期 作者 审核人 说明 V1.0 2019-11-20 云魁 云滴、毕役 创建 V1.1 2019-11-25 筱晖 - 文档优化 增加 HDFS迁移到 OSS和 V1.2 2019-12-25 云魁 子关 JindoFS的方案 V1.3 2020-01-31 云魁 修改概览页场景描述 V1.4 2020-02-07 云魁 更新 VPN网关配置 增加附录,直接通过公网进行 V1.5 2020-03-30 青俞、弦望 云魁 Distcp传输方案 更新部分失效链接和命令,使 V1.6 2021-07-14 游士 用云速搭 CADT创建初始云 资源 联系我们 如果您在使用本最佳实践时遇到问题,欢迎通过钉钉扫描下面的二维码获取文档方案 负责人的进一步帮助: 文档版本:20200330 I
5自建Hadoop数据迁移到阿里云 EMR 前言 前言 概述 客户在 IDC或者公有云环境自建 Hadoop集群,数据集中保存在 HDFS文件系统用于 数据分析任务。客户在决策上云之后,会将自建 Hadoop集群的数据迁移到阿里云自 建 Hadoop或者 EMR。本实践方案提供安全和低成本的 HDFS数据迁移方案。 名词解释 E-MapReduce 阿里云 E-MapReduce(EMR)是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink生态大数据 PaaS 产品。提供用户在云 上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学 习等场景下的大数据解决方案。详情请查看 https://www.aliyun.com/product/emapreduce HDFS Hadoop 分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文 件系统,它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式 文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉 价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应 用。 OSS 对象存储服务(Object Storage Service,OSS)是一种海量、安全、低成本、高 可靠的云存储服务,适合存放任意类型的文件。容量和处理能力弹性扩展,多种 存储类型供选择,全面优化存储成本。 JindoFS JindoFS是一种云原生的文件系统,结合 OSS和本地存储,成为 E-MapReduce 产品的新一代存储系统,为上层计算提供了高效可靠的存储。JindoFS 提供了块 存储模式(Block)和缓存模式(Cache)的存储模式。JindoFS 采用了本地存储 和 OSS的异构多备份机制, Storage Service提供了数据存储能力,首先使用 OSS 作为存储后端,保证数据的高可靠性,同时利用本地存储实现冗余备份,利用本地 的备份,可以加速数据读取;另外,JindoFS 的元数据通过本地服务 Namespace 文档版本:20200330 III
6自建Hadoop数据迁移到阿里云 EMR 前言 Service管理,从而保证了元数据操作的性能(和 HDFS元数据操作性能相似)。 DistCp DistCp是用于大型集群间/集群内复制的工具。它使用 MapReduce来实现其分 发,错误处理和恢复以及报告。它将文件和目录的列表扩展为映射任务的输入, 每个任务都会复制源列表中指定的文件分区。 VPN网关 VPN网关是一款基于 Internet的网络连接服务,通过加密通道的方式实现企业数 据中心、企业办公网络或 Internet终端与阿里云专有网络(VPC)安全可靠的连 接。 VPN 网关提供 IPSec-VPN 连接和 SSL-VPN 连接。详情请查看 https://www.aliyun.com/product/vpn IPSec VPN 基于路由的 IPSec-VPN,不仅可以更方便的配置和维护 VPN策略,而且还提供 了灵活的流量路由方式。您可以使用 IPSec-VPN功能将本地数据中心与 VPC或 不同的 VPC之间进行连接。IPSec-VPN支持 IKEv1和 IKEv2协议。只要支持这 两种协议的设备都可以和阿里云 VPN网关互连,比如华为、华三、山石、深信 服、Cisco ASA、Juniper、SonicWall、Nokia、IBM 和 Ixia等。 Kafka Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中 的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网 络上的许多社会功能的一个关键因素,这些数据通常是由于吞吐量的要求而通过 处理日志和日志聚合来解决。对于像 Hadoop一样的日志数据和离线分析系统, 但又要求实时处理的限制,这是一个可行的解决方案。Kafka 的目的是通过 Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提 供实时的消息。 Flume Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日 志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机 制以及许多故障转移和恢复机制,具有强大的功能和容错能力。它使用一个简单 的可扩展数据模型,允许在线分析应用程序。 文档版本:20200330 IV
7自建Hadoop数据迁移到阿里云 EMR 目录 目录 文档版本信息 ........................................................................................................................................................ I 法律声明 ............................................................................................................................................................... II 前言 ..................................................................................................................................................................... III 目录 ...................................................................................................................................................................... V 最佳实践概述 ....................................................................................................................................................... 1 前置条件 ............................................................................................................................................................... 2 资源规划说明 ....................................................................................................................................................... 3 1. 自建 Hadoop集群环境搭建 ............................................................................................................................ 4 1.1. 使用云速搭 CADT快速创建资源 ................................................................................................... 4 1.2. 安装日志发生器 .......................................................................................................................... 14 1.3. 安装 Hadoop集群 ........................................................................................................................ 16 1.4. 在 Hadoop集群生成数据 ............................................................................................................ 21 2. 检视 EMR集群 ............................................................................................................................................ 25 2.1. 自建 Hadoop和 EMR集群的配置对比和更改 ............................................................................ 25 3. 创建 IPSec VPN隧道.................................................................................................................................... 26 3.1. 配置杭州区域的 VPN网关 .......................................................................................................... 26 3.2. 创建杭州区域的 IPSec VPN连接 ................................................................................................. 26 3.3. 创建客户 IDC的 FlexGW VPN网关和隧道 .................................................................................. 30 3.4. 在客户 IDC添加到阿里云杭州区域 EMR集群的路由 ................................................................ 33 3.5. 连通性验证 .................................................................................................................................. 35 4. 启动数据迁移任务 ...................................................................................................................................... 37 4.1. 配置自建 Hadoop集群和 EMR集群主机的安全组..................................................................... 37 4.2. 配置登录 EMR集群图形界面所需要的用户名和密码 ................................................................ 39 4.3. 在 EMR集群的 master节点进行少量数据迁移 .......................................................................... 41 4.4. 在 EMR集群的 master节点进行大量数据迁移 .......................................................................... 45 5. 将自建 Hadoop数据迁移到 OSS ................................................................................................................. 48 6. 将自建 Hadoop数据迁移到 JindoFS ........................................................................................................... 51 6.1. HDFS数据迁移到 JindoFS缓存模式存储空间 ............................................................................. 51 6.1.1. 设置 JindoFS参数 ................................................................................................................. 51 6.1.2. 启动数据迁移....................................................................................................................... 56 6.2. HDFS数据迁移到 JindoFS块存储模式存储空间 ......................................................................... 58 附件:Distcp任务通过公网进行传输 ................................................................................................................ 61 方案架构 ..................................................................................................................................................... 61 执行步骤 ............................................................................................................................................. 62 源集群侧配置 ...................................................................................................................................... 62 目标集群配置 ...................................................................................................................................... 63 测试方法 ............................................................................................................................................. 64 网络连通 ............................................................................................................................................. 64 数据复制 ............................................................................................................................................. 65 其他要点 ............................................................................................................................................. 67 文档版本:20200330 V
8自建Hadoop数据迁移到阿里云 EMR 最佳实践概述 最佳实践概述 应用场景 客户在 IDC或者公有云环境自建 Hadoop集群,数据集中保存在 HDFS文件系统用于 数据分析任务。但是由于自建 HDFS 空间限制无法保存长期数据,或者客户有将 Hadoop集群迁移上云的需求。本实践方案提供如下场景的最佳实践: 基于 IPSec VPN隧道 + DistCp(Hadoop原生工具),将数据迁移到阿里云 EMR集 群,目标存储包括 HDFS,阿里云 OSS和阿里云 EMR的 Jindo 技术架构 本实践方案基于如下图所示的技术架构和主要流程编写操作步骤: 方案优势 安全性 基于 IPSec VPN/专线的方式进行数据安全传输。 低成本 在阿里云创建 Hadoop类型的 EMR集群和自建 Hadoop集群相比有一定成本优 势,同时阿里云 EMR可以使用 OSS作为底层存储空间,进一步降低成本。 文档版本:20210714 1