Ctrl+F / Command+F 全文检索

相关产品

客户案例

相关最佳实践
业务上云 |

传统企业、零售和游戏行业系统分级后单库单服系统云上搭建最佳实践,涉及大部分基础云产品。

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版 负载均衡 SLB CDN 云速搭
DevOps | 容器&微服务 |

使用云效完成容器应用自动化构建和持续部署

专有网络 VPC 负载均衡 SLB 容器服务 ACK 云效 云速搭
业务上云 |

使用云桌面和VPN网关产品快速构建远程办公环境,在云桌面可以访问企业IDC内的应用和资源

云服务器ECS NAT网关 VPN网关 智能接入网关 云桌面
安全&合规 |

使用阿里云实现电商网站运营期间的安全防护,包括防爬风险管理、DDoS防御、风险管理产品的能力及操作

云数据库RDS MySQL 版 负载均衡 SLB DDoS防护 风险识别 爬虫风险管理
容器&微服务 |

使用ACK上运行常规业务,业务突发波动时突增业务运行在ECI上/达到成本的最优控制

云数据库RDS MySQL 版 文件存储NAS 容器服务 ACK 云数据库 Redis 版 弹性容器实例 ECI 云速搭
数据分析 | 数据迁移 |

介绍如何将自建Hadoop集群及生态组件迁移到阿里云MaxCompute大数据服务。

云服务器ECS DataWorks 大数据计算服务 MaxCompute 云数据库 HBase 版 数据总线 云速搭
中间件 | 容器&微服务 |

Spring Cloud应用经过简单改造,迁移到云上企业级分布式应用服务(EDAS),利用EDAS的监控、调用链、限流降级

专有网络 VPC 云服务器ECS 负载均衡 SLB 企业级分布式应用服务 EDAS
数据分析 | 数据迁移 |

介绍如何将客户自建Hadoop/Hive数据仓库迁移到阿里云EMR的技术实现方案和实践步骤

专有网络 VPC 云服务器ECS 对象存储 OSS VPN网关 E-MapReduce 云速搭
中间件 |

介绍如何用 Serverless 应用引擎(SAE)帮助企业极速构建云上微服务应用

专有网络 VPC 负载均衡 SLB 应用实时监控服务 ARMS 云监控 Serverless 应用引擎

温馨提示

未登录用户仅可预览8页内容,请您前往登录后浏览更多企业上云最佳实践案例内容。企业账号建议生成子账号授权访问。

BpFile(id=195, bpId=124, name=自建Hive数仓迁移到阿里云EMR, author=null, keyword=Hadoop,HDFS,Hive,迁移,EMR集群,IPSec,VPN网关,CADT, description=介绍如何将客户自建Hadoop/Hive数据仓库迁移到阿里云EMR的技术实现方案和实践步骤, position=null, ossUrl=bp-7LY69R1M3162OZEL.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=0, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述 客户在IDC或者公有云环境自建Hadoop集群构 建数据仓库和分析系统,购买阿里云EMR集群之 后,涉及到将数据仓库和Hive元数据的数据库迁 移上云。目前主流Hive数据仓库迁移场景为1.x 版本迁移到阿里云EMR(Hive2.x版本),涉及到 数据订正更新步骤。 解决的问题 Hive数据仓库的数据迁移方案 Hive元数据库的迁移方案 Hive跨版本迁移后的数据订正 产品列表 E-MapReduce,VPC,ECS,OSS,VPN网关。

, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null)
1 自建 Hive数据仓库跨版本迁移到阿里云 EMR 场景描述 解决的问题 客户在IDC或者公有云环境自建Hadoop集群构建 Hive数据仓库的数据迁移方案 数据仓库和分析系统,购买阿里云 EMR集群之后, Hive元数据库的迁移方案 涉及到将数据仓库和Hive元数据的数据库迁移上 Hive跨版本迁移后的数据订正 云。目前主流 Hive数据仓库迁移场景为 1.x版本 迁移到阿里云 EMR(Hive 2.x版本),涉及到数据 订正更新步骤。 产品列表 E-MapReduce,VPC,ECS,OSS,VPN网关。
2文档模板(手册名称)/Error! Use the Home tab to apply 云服务器 ECS(产品名称) 标题 to the text that you want to appear here. 文档版本:20210721 阿里云 自建 Hive数据仓库 跨版本迁移到阿里云 EMR 文档版本:20150122(发布日期) III
3自建Hive数据仓库跨版本迁移到阿里云 EMR 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 自建 Hive数据仓库跨版本迁移到阿里云 EMR 文档编号 124 文档版本 V1.3 版本日期 2021-07-21 文档状态 外部发布 制作人 敬海、游士 审阅人 子关、期会、游圣 文档变更记录 版本编号 日期 作者 审核人 说明 V1.0 2019-12-20 云魁 子关、期会、游圣 创建 V1.1 2019-12-25 筱晖 云魁 文档优化 V1.2 2020-01-09 云魁、子关 子关 增加附录 使用 CADT创 V1.3 2021-07-21 游士 建资源,更新部 分命令 文档版本:20210721 I
4自建Hive数据仓库跨版本迁移到阿里云 EMR 前言 前言 概述 客户在 IDC或者公有云环境自建 Hadoop集群,数据集中保存在 HDFS文件系统,同 时借助 Hive进行 ETL任务。客户在决策上云之后,会将自建 Hadoop集群的数据迁 移到阿里云 EMR集群。在迁移过程中,Hive迁移主要分为三部分: 底层数据迁移 保存在 HDFS的数据可通过 Hadoop原生的 DistCp工具进行迁移,详细迁移方案 请参考: 《自建 Hadoop数据迁移到阿里云 EMR》最佳实践 (https://www.aliyun.com/acts/best-practice/preview?id=162538) ⚫ Hive元数据库迁移 Hive元数据信息通常保存在客户自建的 MySQL数据库中,可通过 mysqldump工 具将数据库进行转储,并进一步导入到阿里云 RDS for MySQL实例中。 ⚫ 订正迁移后的 Hive元数据 由于 Hive 1.x系列版本迁移到 EMR集群的 Hive 2.x/3.x系列版本,需要将 EMR 集群 Hive源数据库的表结构进行更新,同时修改数据中带有的 Location信息。 名词解释 Hive Apache Hive是基于 Hadoop的一个数据仓库工具,可以将结构化的数据文件映 射为一张数据库表,并提供简单的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce任务进行运行。其优点是学习成本低,可以通过类 SQL语句快速实 现简单的 MapReduce统计,不必开发专门的 MapReduce应用,十分适合数据仓 库的统计分析。 E-MapReduce 阿里云 E-MapReduce(EMR)是构建在阿里云云服务器 ECS 上的开源 Hadoop、 Spark、HBase、Hive、Flink生态大数据 PaaS 产品。提供用户在云上使用开源 技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的 文档版本:20210721 III
5自建Hive数据仓库跨版本迁移到阿里云 EMR 前言 大数据解决方案。详情请查看 https://www.aliyun.com/product/emapreduce RDS 阿里云关系型数据库(Relational Database Service,简称 RDS)是一种稳定可 靠、可弹性伸缩的在线数据库服务。基于阿里云分布式文件系统和 SSD盘高性能 存储,RDS支持 MySQL、SQL Server、PostgreSQL、PPAS(高度兼容 Oracle) 和 MariaDB引擎,并且提供了容灾、备份、恢复、监控、迁移等方面的全套解决 方案。 文档版本:20210721 IV
6自建Hive数据仓库跨版本迁移到阿里云 EMR 目录 目录 文档版本信息 ........................................................................................................................................................ I 法律声明 ............................................................................................................................................................... II 前言 ..................................................................................................................................................................... III 目录 ...................................................................................................................................................................... V 最佳实践概述 ....................................................................................................................................................... 1 前置条件 ............................................................................................................................................................... 3 资源规划说明 ....................................................................................................................................................... 4 1. 基础环境搭建 ............................................................................................................................................... 5 1.1. 使用云速搭 CADT快速创建资源 ................................................................................................... 5 1.2. 安装并配置 Hive .......................................................................................................................... 13 1.3. 创建 Hive表并导入数据 .............................................................................................................. 16 2. 配置 EMR集群 ............................................................................................................................................ 21 2.1. 配置 RDS for MySQL实例 ............................................................................................................. 21 2.1.1. 设置白名单并获取内网地址 ................................................................................................ 21 2.1.2. 创建数据库账号 ................................................................................................................... 23 2.2. 配置 EMR集群元数据库 ............................................................................................................. 25 3. Hive数据迁移 ............................................................................................................................................. 27 3.1. 网络环境打通 .............................................................................................................................. 27 3.2. HDFS数据迁移 ............................................................................................................................. 27 3.3. 将自建 Hive元数据库进行转储 .................................................................................................. 29 3.4. 将订正后的转储文件导入到 RDS for MySQL实例中 ................................................................... 32 3.5. 升级 EMR集群 Hive元数据库的表结构 ..................................................................................... 34 3.6. 验证 EMR集群的 Hive服务功能 ................................................................................................. 36 附录:Hive1.2升级到 Hive2.3部分注意事项 .................................................................................................... 39 服务的改动 ................................................................................................................................................. 39 语法的兼容性 ............................................................................................................................................. 39 新增关键字和保留字(作为表名或列名需要加引号) ..................................................................... 39 行为变化 ............................................................................................................................................. 39 API变化(使使用 Hive Server或 Hive Meta Service) ........................................................................ 40 配置参数的默认值变化....................................................................................................................... 40 移除的特性和参考 .............................................................................................................................. 40 其他 ............................................................................................................................................................. 40 文档版本:20210721 V
7自建Hive数据仓库跨版本迁移到阿里云 EMR 最佳实践概述 最佳实践概述 应用场景 客户在 IDC或者公有云环境自建 Hadoop集群,数据集中保存在 HDFS文件系统,同 时借助 Hive进行常见的 ETL任务。客户在决策上云之后,会将自建 Hadoop集群的 数据迁移到阿里云自建 Hadoop或者 EMR。 技术架构 本实践方案基于如下图所示的技术架构和主要流程编写操作步骤。 方案优势 易用性 您可以简单选择所需 ECS机型(CPU、内存)与磁盘,并选择所需的软件,进行 自动化部署。 经济性 您可以按需创建集群,即离线作业运行结束就可以释放集群,还可以在需要时动 态地增加节点。 深度整合 E-MapReduce 与阿里云其它产品(例如,OSS、MNS、RDS 和 MaxCompute 等)进行了深度整合,支持以这些产品作为 Hadoop/Spark计算引擎的输入源或者 文档版本:20210721 1
8自建Hive数据仓库跨版本迁移到阿里云 EMR 最佳实践概述 输出目的地。 安全 E-MapReduce整合了阿里云 RAM资源权限管理系统,通过主子账号对服务权限 进行隔离。 可靠性 使用阿里云数据库 RDS保存 Hive的元数据信息,可以提升数据可靠性和服务可 用性,免除客户运维自建 MySQL数据库的工作。 文档版本:20210721 2