阿里云全部技术解决方案

自建Hive数仓迁移到阿里云EMR

客户案例

相关推荐

专有网络 VPC

帮助您基于阿里云构建出一个隔离的网络环境，并可以自定义IP 地址范围、网段、路由表和网关等；此外，也可以通过专线/VPN/GRE等连接方式实现云上VPC与传统IDC的互联，构建混合云业务。

云服务器ECS

云服务器 ECS（Elastic Compute Service）是一种弹性可伸缩的计算服务，助您降低 IT 成本，提升运维效率，使您更专注于核心业务创新。

对象存储 OSS

海量、安全、低成本、高可靠的云存储服务，提供99.9999999999%的数据可靠性。使用RESTful API 可以在互联网任何位置存储和访问，容量和处理能力弹性扩展，多种存储类型供选择全面优化存储成本。

VPN网关

VPN网关是一款基于Internet，通过加密通道将企业数据中心、企业办公网络、或internet终端和阿里云专有网络(VPC)安全可靠连接起来的服务。阿里云VPN网关在国家相关政策法规下提供服务，不提供访问Internet功能。

E-MapReduce

E-MapReduce是构建于阿里云ECS弹性虚拟机之上，利用开源大数据生态系统，包括Hadoop、Spark、Kafka和Storm，为用户提供集群、作业、数据等管理的一站式大数据处理分析业务。

云速搭CADT

云速搭CADT是一款为上云应用提供自助式云架构管理的产品，显著地降低应用云上管理的难度和时间成本。本产品提供丰富的预制应用架构模板，同时也支持自助拖拽方式定义应用云上架构；支持较多阿里云服务的配置和管理。用户可以方便的对云上架构方案的成本、部署、运维、回收进行全生命周期的管理。

广州君海网络科技有限公司

君海网络作为一家专注于手机游戏研发、发行和运营服务的移动游戏公司，在2014年7月成立之时就定下了“精品化、平台化、全球化”的企业发展战略，公司致力于在未来十年内通过能力、资源、资本联动打造成为一家世界领先的文创数字内容平台。公司使命是“推动精品文创走向世界”。君海始终坚持“以用户为中心，以产品为核心”的业务理念，在未来希望与每位合作伙伴携手共赢、分享成功。目前君海网络旗下包含了君海游戏、君海海外等两个手游发行品牌，以及君海苍狼、君海雷鸟等研发子品牌。君海游戏：成功发行《剑仙缘》、《通天西游》、《青云诀》、《九州行》、《太古封魔录》等精品手游，其中2017年《青云诀》单款月流水突破1.6亿，2018年《九州行》单款月流水破2亿。另外，君海在H5手游领域也斩获佳绩，2019年H5手游《纵剑仙界》月流水破5500万。

云上网站经典架构

基于ECS、RDS和SLB经典云上架构，应对传统IDC在成本预估、系统稳定性、灾备等方面的挑战。

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版对象存储 OSS 负载均衡 SLB CDN 云速搭CADT

云效+ACK构建容器云Devops平台

使用云效完成容器应用自动化构建和持续部署

专有网络 VPC 负载均衡 SLB 容器服务 ACK 云效云速搭CADT

云桌面远程办公

使用云桌面和VPN网关产品快速构建远程办公环境，在云桌面可以访问企业IDC内的应用和资源

云服务器ECS NAT网关 VPN网关智能接入网关云桌面

电商网站业务安全

使用阿里云实现电商网站运营期间的安全防护，包括防爬风险管理、DDoS防御、风险管理产品的能力及操作

云数据库RDS MySQL 版负载均衡 SLB DDoS防护风险识别爬虫风险管理云速搭CADT

基于ECI的ACK集群高弹性架构

使用ACK上运行常规业务，业务突发波动时突增业务运行在ECI上/达到成本的最优控制

云数据库RDS MySQL 版文件存储NAS 容器服务 ACK 云数据库 Redis 版弹性容器实例 ECI 云速搭CADT

自建Hadoop迁移MaxCompute

介绍如何将自建Hadoop集群及生态组件迁移到阿里云MaxCompute大数据服务。

云服务器ECS DataWorks 大数据计算服务 MaxCompute 云数据库 HBase 版数据总线云速搭CADT

基于MaxCompute的大数据BI分析

在互联网、电商及游戏等行业通常需要对海量数据做快速实时分析和决策/本文演示如何将业务数据和日志数据通过MaxCompute处理后汇总到ADB/并通过QuickBI等工具进行可视化分析的方案。

日志服务（SLS）大数据计算服务 MaxCompute 云原生数据仓库AnalyticDB MySQL版 Quick BI 云速搭CADT

服务器迁移

使用阿里云提供的迁移工具将物理服务器、虚拟机以及其他云平台云主机一站式地迁移到阿里云ECS

专有网络 VPC 云服务器ECS 服务器迁移中心云速搭CADT

Spring Cloud Netflix应用迁移EDAS

Spring Cloud应用经过简单改造，迁移到云上企业级分布式应用服务(EDAS），利用EDAS的监控、调用链、限流降级

专有网络 VPC 云服务器ECS 负载均衡 SLB 企业级分布式应用服务 EDAS

自建Hive数仓迁移到阿里云EMR

介绍如何将客户自建Hadoop/Hive数据仓库迁移到阿里云EMR的技术实现方案和实践步骤

专有网络 VPC 云服务器ECS 对象存储 OSS VPN网关 E-MapReduce 云速搭CADT

数据湖-在线学习场景数据分析

本场景以在线教育中一个答题闯关类的应用为例，使用Web Server来模拟演示这类日志数据的分析处理。通过Nginx和Python flask搭建Web Server，模拟应用中的关键页面，比如登录、课程内容等，之后构造若干用户使用的模拟日志数据，投递到数据湖进行分析后获取应用PV、UV、课程内容访问排行、平均得分等等。

专有网络 VPC 云服务器ECS 对象存储 OSS 访问控制 E-MapReduce

微服务应用的Serverless(SAE)部署

介绍如何通过 Serverless 应用引擎（SAE）帮助企业极速构建云上微服务应用

专有网络 VPC 负载均衡 SLB 应用实时监控服务 ARMS 云监控 Serverless 应用引擎

探索阿里云产品，构建云上应用和服务

免费试用

客户案例

探索阿里云产品，构建云上应用和服务

免费试用

BpFile(id=195, bpId=124, name=自建Hive数仓迁移到阿里云EMR, author=null, keyword=Hadoop,HDFS,Hive,迁移,EMR集群,IPSec,VPN网关,CADT, description=介绍如何将客户自建Hadoop/Hive数据仓库迁移到阿里云EMR的技术实现方案和实践步骤, position=null, ossUrl=bp-7LY69R1M3162OZEL.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=0, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统，购买阿里云EMR集群之后，涉及到将数据仓库和Hive元数据的数据库迁移上云。目前主流Hive数据仓库迁移场景为1.x 版本迁移到阿里云EMR(Hive2.x版本），涉及到数据订正更新步骤。解决的问题 Hive数据仓库的数据迁移方案 Hive元数据库的迁移方案 Hive跨版本迁移后的数据订正产品列表 E-MapReduce，VPC，ECS，OSS，VPN网关。

, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null)

1 自建 Hive数据仓库跨版本迁移到阿里云 EMR 场景描述解决的问题客户在IDC或者公有云环境自建Hadoop集群构建 Hive数据仓库的数据迁移方案数据仓库和分析系统，购买阿里云 EMR集群之后， Hive元数据库的迁移方案涉及到将数据仓库和Hive元数据的数据库迁移上 Hive跨版本迁移后的数据订正云。目前主流 Hive数据仓库迁移场景为 1.x版本迁移到阿里云 EMR(Hive 2.x版本），涉及到数据订正更新步骤。产品列表 E-MapReduce，VPC，ECS，OSS，VPN网关。

2文档模板（手册名称）/Error! Use the Home tab to apply 云服务器 ECS（产品名称）标题 to the text that you want to appear here. 文档版本：20210721 阿里云自建 Hive数据仓库跨版本迁移到阿里云 EMR 文档版本：20150122（发布日期） III

3自建Hive数据仓库跨版本迁移到阿里云 EMR 文档版本信息文档版本信息文本信息属性内容文档名称自建 Hive数据仓库跨版本迁移到阿里云 EMR 文档编号 124 文档版本 V1.3 版本日期 2021-07-21 文档状态外部发布制作人敬海、游士审阅人子关、期会、游圣文档变更记录版本编号日期作者审核人说明 V1.0 2019-12-20 云魁子关、期会、游圣创建 V1.1 2019-12-25 筱晖云魁文档优化 V1.2 2020-01-09 云魁、子关子关增加附录使用 CADT创 V1.3 2021-07-21 游士建资源，更新部分命令文档版本：20210721 I

4自建Hive数据仓库跨版本迁移到阿里云 EMR 前言前言概述客户在 IDC或者公有云环境自建 Hadoop集群，数据集中保存在 HDFS文件系统，同时借助 Hive进行 ETL任务。客户在决策上云之后，会将自建 Hadoop集群的数据迁移到阿里云 EMR集群。在迁移过程中，Hive迁移主要分为三部分：底层数据迁移保存在 HDFS的数据可通过 Hadoop原生的 DistCp工具进行迁移，详细迁移方案请参考：《自建 Hadoop数据迁移到阿里云 EMR》最佳实践（https://www.aliyun.com/acts/best-practice/preview?id=162538） ⚫ Hive元数据库迁移 Hive元数据信息通常保存在客户自建的 MySQL数据库中，可通过 mysqldump工具将数据库进行转储，并进一步导入到阿里云 RDS for MySQL实例中。 ⚫ 订正迁移后的 Hive元数据由于 Hive 1.x系列版本迁移到 EMR集群的 Hive 2.x/3.x系列版本，需要将 EMR 集群 Hive源数据库的表结构进行更新，同时修改数据中带有的 Location信息。名词解释 Hive Apache Hive是基于 Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的 SQL 查询功能，可以将 SQL 语句转换为 MapReduce任务进行运行。其优点是学习成本低，可以通过类 SQL语句快速实现简单的 MapReduce统计，不必开发专门的 MapReduce应用，十分适合数据仓库的统计分析。 E-MapReduce 阿里云 E-MapReduce（EMR）是构建在阿里云云服务器 ECS 上的开源 Hadoop、 Spark、HBase、Hive、Flink生态大数据 PaaS 产品。提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的文档版本：20210721 III

5自建Hive数据仓库跨版本迁移到阿里云 EMR 前言大数据解决方案。详情请查看 https://www.aliyun.com/product/emapreduce RDS 阿里云关系型数据库（Relational Database Service，简称 RDS）是一种稳定可靠、可弹性伸缩的在线数据库服务。基于阿里云分布式文件系统和 SSD盘高性能存储，RDS支持 MySQL、SQL Server、PostgreSQL、PPAS（高度兼容 Oracle）和 MariaDB引擎，并且提供了容灾、备份、恢复、监控、迁移等方面的全套解决方案。文档版本：20210721 IV

6自建Hive数据仓库跨版本迁移到阿里云 EMR 目录目录文档版本信息 ........................................................................................................................................................ I 法律声明 ............................................................................................................................................................... II 前言 ..................................................................................................................................................................... III 目录 ...................................................................................................................................................................... V 最佳实践概述 ....................................................................................................................................................... 1 前置条件 ............................................................................................................................................................... 3 资源规划说明 ....................................................................................................................................................... 4 1. 基础环境搭建 ............................................................................................................................................... 5 1.1. 使用云速搭 CADT快速创建资源 ................................................................................................... 5 1.2. 安装并配置 Hive .......................................................................................................................... 13 1.3. 创建 Hive表并导入数据 .............................................................................................................. 16 2. 配置 EMR集群 ............................................................................................................................................ 21 2.1. 配置 RDS for MySQL实例 ............................................................................................................. 21 2.1.1. 设置白名单并获取内网地址 ................................................................................................ 21 2.1.2. 创建数据库账号 ................................................................................................................... 23 2.2. 配置 EMR集群元数据库 ............................................................................................................. 25 3. Hive数据迁移 ............................................................................................................................................. 27 3.1. 网络环境打通 .............................................................................................................................. 27 3.2. HDFS数据迁移 ............................................................................................................................. 27 3.3. 将自建 Hive元数据库进行转储 .................................................................................................. 29 3.4. 将订正后的转储文件导入到 RDS for MySQL实例中 ................................................................... 32 3.5. 升级 EMR集群 Hive元数据库的表结构 ..................................................................................... 34 3.6. 验证 EMR集群的 Hive服务功能 ................................................................................................. 36 附录：Hive1.2升级到 Hive2.3部分注意事项 .................................................................................................... 39 服务的改动 ................................................................................................................................................. 39 语法的兼容性 ............................................................................................................................................. 39 新增关键字和保留字（作为表名或列名需要加引号） ..................................................................... 39 行为变化 ............................................................................................................................................. 39 API变化（使使用 Hive Server或 Hive Meta Service） ........................................................................ 40 配置参数的默认值变化....................................................................................................................... 40 移除的特性和参考 .............................................................................................................................. 40 其他 ............................................................................................................................................................. 40 文档版本：20210721 V

7自建Hive数据仓库跨版本迁移到阿里云 EMR 最佳实践概述最佳实践概述应用场景客户在 IDC或者公有云环境自建 Hadoop集群，数据集中保存在 HDFS文件系统，同时借助 Hive进行常见的 ETL任务。客户在决策上云之后，会将自建 Hadoop集群的数据迁移到阿里云自建 Hadoop或者 EMR。技术架构本实践方案基于如下图所示的技术架构和主要流程编写操作步骤。方案优势易用性您可以简单选择所需 ECS机型（CPU、内存）与磁盘，并选择所需的软件，进行自动化部署。经济性您可以按需创建集群，即离线作业运行结束就可以释放集群，还可以在需要时动态地增加节点。深度整合 E-MapReduce 与阿里云其它产品（例如，OSS、MNS、RDS 和 MaxCompute 等）进行了深度整合，支持以这些产品作为 Hadoop/Spark计算引擎的输入源或者文档版本：20210721 1

8自建Hive数据仓库跨版本迁移到阿里云 EMR 最佳实践概述输出目的地。安全 E-MapReduce整合了阿里云 RAM资源权限管理系统，通过主子账号对服务权限进行隔离。可靠性使用阿里云数据库 RDS保存 Hive的元数据信息，可以提升数据可靠性和服务可用性，免除客户运维自建 MySQL数据库的工作。文档版本：20210721 2

自建Hive数仓迁移到阿里云EMR

相关产品

客户案例

相关推荐

探索阿里云产品，构建云上应用和服务

相关产品

客户案例

相关推荐

探索阿里云产品，构建云上应用和服务

自建Hive数仓迁移到阿里云EMR

相关产品

客户案例

相关推荐

探索阿里云产品，构建云上应用和服务

相关产品

客户案例

相关推荐

探索阿里云产品，构建云上应用和服务

温馨提示