阿里云全部技术解决方案

自建Hadoop迁移到阿里云EMR

客户案例

相关推荐

专有网络 VPC

帮助您基于阿里云构建出一个隔离的网络环境，并可以自定义IP 地址范围、网段、路由表和网关等；此外，也可以通过专线/VPN/GRE等连接方式实现云上VPC与传统IDC的互联，构建混合云业务。

云服务器ECS

云服务器 ECS（Elastic Compute Service）是一种弹性可伸缩的计算服务，助您降低 IT 成本，提升运维效率，使您更专注于核心业务创新。

对象存储 OSS

海量、安全、低成本、高可靠的云存储服务，提供99.9999999999%的数据可靠性。使用RESTful API 可以在互联网任何位置存储和访问，容量和处理能力弹性扩展，多种存储类型供选择全面优化存储成本。

VPN网关

VPN网关是一款基于Internet，通过加密通道将企业数据中心、企业办公网络、或internet终端和阿里云专有网络(VPC)安全可靠连接起来的服务。阿里云VPN网关在国家相关政策法规下提供服务，不提供访问Internet功能。

E-MapReduce

E-MapReduce是构建于阿里云ECS弹性虚拟机之上，利用开源大数据生态系统，包括Hadoop、Spark、Kafka和Storm，为用户提供集群、作业、数据等管理的一站式大数据处理分析业务。

云速搭CADT

云速搭CADT是一款为上云应用提供自助式云架构管理的产品，显著地降低应用云上管理的难度和时间成本。本产品提供丰富的预制应用架构模板，同时也支持自助拖拽方式定义应用云上架构；支持较多阿里云服务的配置和管理。用户可以方便的对云上架构方案的成本、部署、运维、回收进行全生命周期的管理。

广州君海网络科技有限公司

君海网络作为一家专注于手机游戏研发、发行和运营服务的移动游戏公司，在2014年7月成立之时就定下了“精品化、平台化、全球化”的企业发展战略，公司致力于在未来十年内通过能力、资源、资本联动打造成为一家世界领先的文创数字内容平台。公司使命是“推动精品文创走向世界”。君海始终坚持“以用户为中心，以产品为核心”的业务理念，在未来希望与每位合作伙伴携手共赢、分享成功。目前君海网络旗下包含了君海游戏、君海海外等两个手游发行品牌，以及君海苍狼、君海雷鸟等研发子品牌。君海游戏：成功发行《剑仙缘》、《通天西游》、《青云诀》、《九州行》、《太古封魔录》等精品手游，其中2017年《青云诀》单款月流水突破1.6亿，2018年《九州行》单款月流水破2亿。另外，君海在H5手游领域也斩获佳绩，2019年H5手游《纵剑仙界》月流水破5500万。

上海佰集信息科技有限公司

简书是国内优质图文内容创作平台，用户在简书上分享自己真实生活与感悟、分享各类技术知识、创作小说、分享绘画等艺术形式，是无数内容创作者的精神家园。每天有数百万用户在简书平台上阅读及创作图文内容。

云上网站经典架构

基于ECS、RDS和SLB经典云上架构，应对传统IDC在成本预估、系统稳定性、灾备等方面的挑战。

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版对象存储 OSS 负载均衡 SLB CDN 云速搭CADT

云效+ACK构建容器云Devops平台

使用云效完成容器应用自动化构建和持续部署

专有网络 VPC 负载均衡 SLB 容器服务 ACK 云效云速搭CADT

云桌面远程办公

使用云桌面和VPN网关产品快速构建远程办公环境，在云桌面可以访问企业IDC内的应用和资源

云服务器ECS NAT网关 VPN网关智能接入网关云桌面

电商网站业务安全

使用阿里云实现电商网站运营期间的安全防护，包括防爬风险管理、DDoS防御、风险管理产品的能力及操作

云数据库RDS MySQL 版负载均衡 SLB DDoS防护风险识别爬虫风险管理云速搭CADT

基于ECI的ACK集群高弹性架构

使用ACK上运行常规业务，业务突发波动时突增业务运行在ECI上/达到成本的最优控制

云数据库RDS MySQL 版文件存储NAS 容器服务 ACK 云数据库 Redis 版弹性容器实例 ECI 云速搭CADT

自建Hadoop迁移MaxCompute

介绍如何将自建Hadoop集群及生态组件迁移到阿里云MaxCompute大数据服务。

云服务器ECS DataWorks 大数据计算服务 MaxCompute 云数据库 HBase 版数据总线云速搭CADT

自建Hadoop迁移到阿里云EMR

介绍如何将客户自建Hadoop集群的文件系统（HDFS）数据迁移到阿里云EMR集群。

专有网络 VPC 云服务器ECS 对象存储 OSS VPN网关 E-MapReduce 云速搭CADT

基于MaxCompute的大数据BI分析

在互联网、电商及游戏等行业通常需要对海量数据做快速实时分析和决策/本文演示如何将业务数据和日志数据通过MaxCompute处理后汇总到ADB/并通过QuickBI等工具进行可视化分析的方案。

日志服务（SLS）大数据计算服务 MaxCompute 云原生数据仓库AnalyticDB MySQL版 Quick BI 云速搭CADT

数据湖-在线学习场景数据分析

本场景以在线教育中一个答题闯关类的应用为例，使用Web Server来模拟演示这类日志数据的分析处理。通过Nginx和Python flask搭建Web Server，模拟应用中的关键页面，比如登录、课程内容等，之后构造若干用户使用的模拟日志数据，投递到数据湖进行分析后获取应用PV、UV、课程内容访问排行、平均得分等等。

专有网络 VPC 云服务器ECS 对象存储 OSS 访问控制 E-MapReduce

服务器迁移

使用阿里云提供的迁移工具将物理服务器、虚拟机以及其他云平台云主机一站式地迁移到阿里云ECS

专有网络 VPC 云服务器ECS 服务器迁移中心云速搭CADT

基于PAI搭建企业级个性化推荐系统

快速从0到1实现一套高效、精准、易用、可扩展的企业级个性化推荐系统。

专有网络 VPC 云服务器ECS 对象存储 OSS 日志服务（SLS）云数据库 Redis 版容器镜像服务 ACR 大数据计算服务 MaxCompute 数据总线机器学习PAI Hologres 云速搭CADT 机器学习PAI-EAS 推荐全链路深度定制开发平台

Spring Cloud Netflix应用迁移EDAS

Spring Cloud应用经过简单改造，迁移到云上企业级分布式应用服务(EDAS），利用EDAS的监控、调用链、限流降级

专有网络 VPC 云服务器ECS 负载均衡 SLB 企业级分布式应用服务 EDAS

探索阿里云产品，构建云上应用和服务

免费试用

客户案例

探索阿里云产品，构建云上应用和服务

免费试用

BpFile(id=194, bpId=111, name=自建Hadoop迁移到阿里云EMR, author=null, keyword=Hadoop,HDFS,迁移,EMR集群,IPSec,VPN网关,云速搭CADT, description=介绍如何将客户自建Hadoop集群的文件系统（HDFS）数据迁移到阿里云EMR集群。 , position=null, ossUrl=bp-ECN5NYTIMNHYL6L5.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述场景1：自建Hadoop集群数据（HDFS）迁移到阿里云EMR集群的HDFS文件系统；场景2：自建Hadoop集群数据（HDFS）迁移到计算存储分离架构的阿里云EMR集群，以OSS 和JindoFS作为EMR集群的后端存储。解决的问题 客户自建Hadoop迁移到阿里云EMR集群的技术方案； 基于IPSecVPN隧道构建安全和低成本数据传输链路产品列表 E-MapReduce，VPC，ECS，OSS，VPN网关。

, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=P4P9PGZXA8GAJAGS, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null)

1 自建 Hadoop数据迁移到阿里云 EMR 场景描述解决的问题场景1：自建 Hadoop集群数据（HDFS）迁移到阿客户自建 Hadoop迁移到阿里云 EMR集群的技里云EMR集群的 HDFS文件系统；术方案；场景2：自建 Hadoop集群数据（HDFS）迁移到计基于 IPSec VPN隧道构建安全和低成本数据算存储分离架构的阿里云 EMR集群，以 OSS 和传输链路 JindoFS作为 EMR集群的后端存储。产品列表 E-MapReduce，VPC，ECS，OSS，VPN网关。

2文档模板（手册名称）/Error! Use the Home tab to apply 云服务器 ECS（产品名称）标题 to the text that you want to appear here. 文档版本：20150122（发布日期） II

3文档模板（手册名称）/Error! Use the Home tab to apply 云服务器 ECS（产品名称）标题 to the text that you want to appear here. 文档版本：20210714 阿里云自建 Hadoop数据迁移到阿里云 EMR 文档版本：20150122（发布日期） III

4自建Hadoop数据迁移到阿里云 EMR 文档版本信息文档版本信息文本信息属性内容文档名称自建 Hadoop数据迁移到阿里云 EMR 文档编号 111 文档版本 V1.5 版本日期 2020-03-30 文档状态外部发布制作人云魁、连辙、青俞、弦望、游士审阅人毕役、云滴、子关、游圣文档变更记录版本编号日期作者审核人说明 V1.0 2019-11-20 云魁云滴、毕役创建 V1.1 2019-11-25 筱晖 - 文档优化增加 HDFS迁移到 OSS和 V1.2 2019-12-25 云魁子关 JindoFS的方案 V1.3 2020-01-31 云魁修改概览页场景描述 V1.4 2020-02-07 云魁更新 VPN网关配置增加附录，直接通过公网进行 V1.5 2020-03-30 青俞、弦望云魁 Distcp传输方案更新部分失效链接和命令，使 V1.6 2021-07-14 游士用云速搭 CADT创建初始云资源联系我们如果您在使用本最佳实践时遇到问题，欢迎通过钉钉扫描下面的二维码获取文档方案负责人的进一步帮助：文档版本：20200330 I

5自建Hadoop数据迁移到阿里云 EMR 前言前言概述客户在 IDC或者公有云环境自建 Hadoop集群，数据集中保存在 HDFS文件系统用于数据分析任务。客户在决策上云之后，会将自建 Hadoop集群的数据迁移到阿里云自建 Hadoop或者 EMR。本实践方案提供安全和低成本的 HDFS数据迁移方案。名词解释 E-MapReduce 阿里云 E-MapReduce（EMR）是构建在阿里云云服务器 ECS 上的开源 Hadoop、Spark、HBase、Hive、Flink生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。详情请查看 https://www.aliyun.com/product/emapreduce HDFS Hadoop 分布式文件系统（HDFS）被设计成适合运行在通用硬件上的分布式文件系统，它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。 OSS 对象存储服务（Object Storage Service，OSS）是一种海量、安全、低成本、高可靠的云存储服务，适合存放任意类型的文件。容量和处理能力弹性扩展，多种存储类型供选择，全面优化存储成本。 JindoFS JindoFS是一种云原生的文件系统，结合 OSS和本地存储，成为 E-MapReduce 产品的新一代存储系统，为上层计算提供了高效可靠的存储。JindoFS 提供了块存储模式（Block）和缓存模式（Cache）的存储模式。JindoFS 采用了本地存储和 OSS的异构多备份机制， Storage Service提供了数据存储能力，首先使用 OSS 作为存储后端，保证数据的高可靠性，同时利用本地存储实现冗余备份，利用本地的备份，可以加速数据读取；另外，JindoFS 的元数据通过本地服务 Namespace 文档版本：20200330 III

6自建Hadoop数据迁移到阿里云 EMR 前言 Service管理，从而保证了元数据操作的性能（和 HDFS元数据操作性能相似）。 DistCp DistCp是用于大型集群间/集群内复制的工具。它使用 MapReduce来实现其分发，错误处理和恢复以及报告。它将文件和目录的列表扩展为映射任务的输入，每个任务都会复制源列表中指定的文件分区。 VPN网关 VPN网关是一款基于 Internet的网络连接服务，通过加密通道的方式实现企业数据中心、企业办公网络或 Internet终端与阿里云专有网络（VPC）安全可靠的连接。 VPN 网关提供 IPSec-VPN 连接和 SSL-VPN 连接。详情请查看 https://www.aliyun.com/product/vpn IPSec VPN 基于路由的 IPSec-VPN，不仅可以更方便的配置和维护 VPN策略，而且还提供了灵活的流量路由方式。您可以使用 IPSec-VPN功能将本地数据中心与 VPC或不同的 VPC之间进行连接。IPSec-VPN支持 IKEv1和 IKEv2协议。只要支持这两种协议的设备都可以和阿里云 VPN网关互连，比如华为、华三、山石、深信服、Cisco ASA、Juniper、SonicWall、Nokia、IBM 和 Ixia等。 Kafka Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素，这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像 Hadoop一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka 的目的是通过 Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。 Flume Flume是一种分布式，可靠且可用的服务，用于有效地收集，聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机制以及许多故障转移和恢复机制，具有强大的功能和容错能力。它使用一个简单的可扩展数据模型，允许在线分析应用程序。文档版本：20200330 IV

7自建Hadoop数据迁移到阿里云 EMR 目录目录文档版本信息 ........................................................................................................................................................ I 法律声明 ............................................................................................................................................................... II 前言 ..................................................................................................................................................................... III 目录 ...................................................................................................................................................................... V 最佳实践概述 ....................................................................................................................................................... 1 前置条件 ............................................................................................................................................................... 2 资源规划说明 ....................................................................................................................................................... 3 1. 自建 Hadoop集群环境搭建 ............................................................................................................................ 4 1.1. 使用云速搭 CADT快速创建资源 ................................................................................................... 4 1.2. 安装日志发生器 .......................................................................................................................... 14 1.3. 安装 Hadoop集群 ........................................................................................................................ 16 1.4. 在 Hadoop集群生成数据 ............................................................................................................ 21 2. 检视 EMR集群 ............................................................................................................................................ 25 2.1. 自建 Hadoop和 EMR集群的配置对比和更改 ............................................................................ 25 3. 创建 IPSec VPN隧道.................................................................................................................................... 26 3.1. 配置杭州区域的 VPN网关 .......................................................................................................... 26 3.2. 创建杭州区域的 IPSec VPN连接 ................................................................................................. 26 3.3. 创建客户 IDC的 FlexGW VPN网关和隧道 .................................................................................. 30 3.4. 在客户 IDC添加到阿里云杭州区域 EMR集群的路由 ................................................................ 33 3.5. 连通性验证 .................................................................................................................................. 35 4. 启动数据迁移任务 ...................................................................................................................................... 37 4.1. 配置自建 Hadoop集群和 EMR集群主机的安全组..................................................................... 37 4.2. 配置登录 EMR集群图形界面所需要的用户名和密码 ................................................................ 39 4.3. 在 EMR集群的 master节点进行少量数据迁移 .......................................................................... 41 4.4. 在 EMR集群的 master节点进行大量数据迁移 .......................................................................... 45 5. 将自建 Hadoop数据迁移到 OSS ................................................................................................................. 48 6. 将自建 Hadoop数据迁移到 JindoFS ........................................................................................................... 51 6.1. HDFS数据迁移到 JindoFS缓存模式存储空间 ............................................................................. 51 6.1.1. 设置 JindoFS参数 ................................................................................................................. 51 6.1.2. 启动数据迁移....................................................................................................................... 56 6.2. HDFS数据迁移到 JindoFS块存储模式存储空间 ......................................................................... 58 附件：Distcp任务通过公网进行传输 ................................................................................................................ 61 方案架构 ..................................................................................................................................................... 61 执行步骤 ............................................................................................................................................. 62 源集群侧配置 ...................................................................................................................................... 62 目标集群配置 ...................................................................................................................................... 63 测试方法 ............................................................................................................................................. 64 网络连通 ............................................................................................................................................. 64 数据复制 ............................................................................................................................................. 65 其他要点 ............................................................................................................................................. 67 文档版本：20200330 V

8自建Hadoop数据迁移到阿里云 EMR 最佳实践概述最佳实践概述应用场景客户在 IDC或者公有云环境自建 Hadoop集群，数据集中保存在 HDFS文件系统用于数据分析任务。但是由于自建 HDFS 空间限制无法保存长期数据，或者客户有将 Hadoop集群迁移上云的需求。本实践方案提供如下场景的最佳实践：基于 IPSec VPN隧道 + DistCp（Hadoop原生工具），将数据迁移到阿里云 EMR集群，目标存储包括 HDFS，阿里云 OSS和阿里云 EMR的 Jindo 技术架构本实践方案基于如下图所示的技术架构和主要流程编写操作步骤：方案优势安全性基于 IPSec VPN/专线的方式进行数据安全传输。低成本在阿里云创建 Hadoop类型的 EMR集群和自建 Hadoop集群相比有一定成本优势，同时阿里云 EMR可以使用 OSS作为底层存储空间，进一步降低成本。文档版本：20210714 1

自建Hadoop迁移到阿里云EMR

相关产品

客户案例

相关推荐

探索阿里云产品，构建云上应用和服务

相关产品

客户案例

相关推荐

探索阿里云产品，构建云上应用和服务

自建Hadoop迁移到阿里云EMR

相关产品

客户案例

相关推荐

探索阿里云产品，构建云上应用和服务

相关产品

客户案例

相关推荐

探索阿里云产品，构建云上应用和服务

温馨提示