BpFile(id=195, bpId=124, name=自建Hive数仓迁移到阿里云EMR, author=null, keyword=Hadoop,HDFS,Hive,迁移,EMR集群,IPSec,VPN网关,CADT, description=介绍如何将客户自建Hadoop/Hive数据仓库迁移到阿里云EMR的技术实现方案和实践步骤, position=null, ossUrl=bp-7LY69R1M3162OZEL.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=0, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=
场景描述
客户在IDC或者公有云环境自建Hadoop集群构
建数据仓库和分析系统,购买阿里云EMR集群之
后,涉及到将数据仓库和Hive元数据的数据库迁
移上云。目前主流Hive数据仓库迁移场景为1.x
版本迁移到阿里云EMR(Hive2.x版本),涉及到
数据订正更新步骤。
解决的问题
Hive数据仓库的数据迁移方案
Hive元数据库的迁移方案
Hive跨版本迁移后的数据订正
产品列表
E-MapReduce,VPC,ECS,OSS,VPN网关。
, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null)
1
自建 Hive数据仓库跨版本迁移到阿里云 EMR
场景描述 解决的问题
客户在IDC或者公有云环境自建Hadoop集群构建 Hive数据仓库的数据迁移方案
数据仓库和分析系统,购买阿里云 EMR集群之后,
Hive元数据库的迁移方案
涉及到将数据仓库和Hive元数据的数据库迁移上
Hive跨版本迁移后的数据订正
云。目前主流 Hive数据仓库迁移场景为 1.x版本
迁移到阿里云 EMR(Hive 2.x版本),涉及到数据
订正更新步骤。
产品列表
E-MapReduce,VPC,ECS,OSS,VPN网关。
2文档模板(手册名称)/Error! Use the Home tab to apply
云服务器 ECS(产品名称) 标题 to the text that you want to appear here.
文档版本:20210721
阿里云
自建 Hive数据仓库
跨版本迁移到阿里云 EMR
文档版本:20150122(发布日期) III
3自建Hive数据仓库跨版本迁移到阿里云 EMR 文档版本信息
文档版本信息
文本信息
属性 内容
文档名称 自建 Hive数据仓库跨版本迁移到阿里云 EMR
文档编号 124
文档版本 V1.3
版本日期 2021-07-21
文档状态 外部发布
制作人 敬海、游士
审阅人 子关、期会、游圣
文档变更记录
版本编号 日期 作者 审核人 说明
V1.0 2019-12-20 云魁 子关、期会、游圣 创建
V1.1 2019-12-25 筱晖 云魁 文档优化
V1.2 2020-01-09 云魁、子关 子关 增加附录
使用 CADT创
V1.3 2021-07-21 游士 建资源,更新部
分命令
文档版本:20210721 I
4自建Hive数据仓库跨版本迁移到阿里云 EMR 前言
前言
概述
客户在 IDC或者公有云环境自建 Hadoop集群,数据集中保存在 HDFS文件系统,同
时借助 Hive进行 ETL任务。客户在决策上云之后,会将自建 Hadoop集群的数据迁
移到阿里云 EMR集群。在迁移过程中,Hive迁移主要分为三部分:
底层数据迁移
保存在 HDFS的数据可通过 Hadoop原生的 DistCp工具进行迁移,详细迁移方案
请参考:
《自建 Hadoop数据迁移到阿里云 EMR》最佳实践
(https://www.aliyun.com/acts/best-practice/preview?id=162538)
⚫ Hive元数据库迁移
Hive元数据信息通常保存在客户自建的 MySQL数据库中,可通过 mysqldump工
具将数据库进行转储,并进一步导入到阿里云 RDS for MySQL实例中。
⚫ 订正迁移后的 Hive元数据
由于 Hive 1.x系列版本迁移到 EMR集群的 Hive 2.x/3.x系列版本,需要将 EMR
集群 Hive源数据库的表结构进行更新,同时修改数据中带有的 Location信息。
名词解释
Hive
Apache Hive是基于 Hadoop的一个数据仓库工具,可以将结构化的数据文件映
射为一张数据库表,并提供简单的 SQL 查询功能,可以将 SQL 语句转换为
MapReduce任务进行运行。其优点是学习成本低,可以通过类 SQL语句快速实
现简单的 MapReduce统计,不必开发专门的 MapReduce应用,十分适合数据仓
库的统计分析。
E-MapReduce
阿里云 E-MapReduce(EMR)是构建在阿里云云服务器 ECS 上的开源 Hadoop、
Spark、HBase、Hive、Flink生态大数据 PaaS 产品。提供用户在云上使用开源
技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的
文档版本:20210721 III
5自建Hive数据仓库跨版本迁移到阿里云 EMR 前言
大数据解决方案。详情请查看 https://www.aliyun.com/product/emapreduce
RDS
阿里云关系型数据库(Relational Database Service,简称 RDS)是一种稳定可
靠、可弹性伸缩的在线数据库服务。基于阿里云分布式文件系统和 SSD盘高性能
存储,RDS支持 MySQL、SQL Server、PostgreSQL、PPAS(高度兼容 Oracle)
和 MariaDB引擎,并且提供了容灾、备份、恢复、监控、迁移等方面的全套解决
方案。
文档版本:20210721 IV
6自建Hive数据仓库跨版本迁移到阿里云 EMR 目录
目录
文档版本信息 ........................................................................................................................................................ I
法律声明 ............................................................................................................................................................... II
前言 ..................................................................................................................................................................... III
目录 ...................................................................................................................................................................... V
最佳实践概述 ....................................................................................................................................................... 1
前置条件 ............................................................................................................................................................... 3
资源规划说明 ....................................................................................................................................................... 4
1. 基础环境搭建 ............................................................................................................................................... 5
1.1. 使用云速搭 CADT快速创建资源 ................................................................................................... 5
1.2. 安装并配置 Hive .......................................................................................................................... 13
1.3. 创建 Hive表并导入数据 .............................................................................................................. 16
2. 配置 EMR集群 ............................................................................................................................................ 21
2.1. 配置 RDS for MySQL实例 ............................................................................................................. 21
2.1.1. 设置白名单并获取内网地址 ................................................................................................ 21
2.1.2. 创建数据库账号 ................................................................................................................... 23
2.2. 配置 EMR集群元数据库 ............................................................................................................. 25
3. Hive数据迁移 ............................................................................................................................................. 27
3.1. 网络环境打通 .............................................................................................................................. 27
3.2. HDFS数据迁移 ............................................................................................................................. 27
3.3. 将自建 Hive元数据库进行转储 .................................................................................................. 29
3.4. 将订正后的转储文件导入到 RDS for MySQL实例中 ................................................................... 32
3.5. 升级 EMR集群 Hive元数据库的表结构 ..................................................................................... 34
3.6. 验证 EMR集群的 Hive服务功能 ................................................................................................. 36
附录:Hive1.2升级到 Hive2.3部分注意事项 .................................................................................................... 39
服务的改动 ................................................................................................................................................. 39
语法的兼容性 ............................................................................................................................................. 39
新增关键字和保留字(作为表名或列名需要加引号) ..................................................................... 39
行为变化 ............................................................................................................................................. 39
API变化(使使用 Hive Server或 Hive Meta Service) ........................................................................ 40
配置参数的默认值变化....................................................................................................................... 40
移除的特性和参考 .............................................................................................................................. 40
其他 ............................................................................................................................................................. 40
文档版本:20210721 V
7自建Hive数据仓库跨版本迁移到阿里云 EMR 最佳实践概述
最佳实践概述
应用场景
客户在 IDC或者公有云环境自建 Hadoop集群,数据集中保存在 HDFS文件系统,同
时借助 Hive进行常见的 ETL任务。客户在决策上云之后,会将自建 Hadoop集群的
数据迁移到阿里云自建 Hadoop或者 EMR。
技术架构
本实践方案基于如下图所示的技术架构和主要流程编写操作步骤。
方案优势
易用性
您可以简单选择所需 ECS机型(CPU、内存)与磁盘,并选择所需的软件,进行
自动化部署。
经济性
您可以按需创建集群,即离线作业运行结束就可以释放集群,还可以在需要时动
态地增加节点。
深度整合
E-MapReduce 与阿里云其它产品(例如,OSS、MNS、RDS 和 MaxCompute
等)进行了深度整合,支持以这些产品作为 Hadoop/Spark计算引擎的输入源或者
文档版本:20210721 1
8自建Hive数据仓库跨版本迁移到阿里云 EMR 最佳实践概述
输出目的地。
安全
E-MapReduce整合了阿里云 RAM资源权限管理系统,通过主子账号对服务权限
进行隔离。
可靠性
使用阿里云数据库 RDS保存 Hive的元数据信息,可以提升数据可靠性和服务可
用性,免除客户运维自建 MySQL数据库的工作。
文档版本:20210721 2