阿里云全部技术解决方案

自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察

探索阿里云产品，构建云上应用和服务

BpFile(id=337, bpId=214, name=自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察, author=null, keyword=数据洞察,Databricks,数据仓库,大数据, description=客户在IDC或者公共云环境自建Hadoop集群构建数据仓库和分析系统，购买阿里云Databricks数据洞察集群之后，涉及到数仓数据和元数据的迁移以及Hive版本的订正更新, position=null, ossUrl=bp-T1C519Y7NDYJKBMG.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=0, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述

客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统，购买阿里云Databricks数据洞察集群之后，涉及到数仓数据和元数据的迁移以及Hive版本的订正更新。

方案优势

1. 全托管Spark集群免运维，节省人力成本。

2. Databricks数据洞察与阿里云其他产品（OSS、RDS、MaxCompute、EMR）进行深度整合，支持以这些产品为数据源的输入和输出。

3. 使用Databricks Runtime商业版引擎相比开源Spark性能有3-5倍的提升。

解决问题

1. Hive数仓数据迁移OSS方案。

2. Hive元数据库迁移阿里云RDS方案。

3. Hive跨版本迁移到Databricks数据洞察使用Delta表查询以提高查询效率。

, templateId=null, freetry=, visitTime=null, visitCount=null, video_url=, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null, cooperation=, cooperationList=null)

1 自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察业务架构场景描述客户在 IDC或者公有云环境自建 Hadoop集群构建数据仓库和分析系统，购买阿里云 Databricks数据洞察集群之后，涉及到数仓数据和元数据的迁移以及 Hive版本的订正更新。方案优势 1. 全托管 Spark集群免运维，节省人力成本。 2. Databricks数据洞察与阿里云其他产品（OSS、RDS、MaxCompute、EMR）进行深度整合，支持以这些产品为数据源的输入和输出。 3. 使用 Databricks Runtime商业版引擎相产品列表比开源 Spark性能有 3-5倍的提升。 ⚫ Databricks 数据洞察解决问题 ⚫ 云服务器 ECS 1. Hive数仓数据迁移 OSS方案。 ⚫ 文件存储 HDFS 2. Hive元数据库迁移阿里云 RDS方案。 ⚫ 对象存储 OSS 3. Hive跨版本迁移到 Databricks数据洞察 ⚫ 专有网络 VPC 使用 Delta表查询以提高查询效率。最佳实践频道阿里云最佳实践技术分享群

2云服务器 ECS（产品名称）文档模板（手册名称）/文档版本信息阿里云自建Hive 数据仓库跨版本迁移到阿里云Databricks数据洞察文档版本：20210425（发布日期）文档版本：20210425 1

3自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察文档版本信息文档版本信息文本信息属性内容文档名称自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察文档编号文档版本 V1.0 版本日期 2021-04-25 文档状态外部发布制作人加亮审阅人霍彦文、协列文档变更记录版本编号日期作者审核人说明 V1.0 2021-04-25 加亮霍彦文、协列创建文档版本：20210425 I

4自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察前言前言概述客户在 IDC或者公有云环境自建 Hadoop集群，数据集中保存在 HDFS文件系统，同时借助 Hive进行 ETL任务。客户在决策上云之后，会将自建 Hadoop集群的数据迁移到阿里云 Databricks数据洞察集群。应用范围 ⚫ 需要使用 Spark优化方案的用户 ⚫ 对 Spark大数据分析平台计算性能，成本控制考虑的用户。 ⚫ 需要有灵活可扩展的计算平台、弹性可伸缩集群资源及灵活管控的用户名词解释 ⚫ Databricks数据洞察：是基于 Apache Spark的全托管大数据分析平台，产品内核引擎使用 Databricks Runtime，并针对阿里云平台进行优化，使用 Notebook交互式数据分析，Python库便捷安装，使用 Delta表存储比其他使用 Spark查询性能有 5-10倍的提升。详见：https://www.aliyun.com/product/bigdata/spark ⚫ 对象存储 OSS：阿里云对象存储 OSS（Object Storage Service）是阿里云提供的海量、安全、低成本、高持久的云存储服务。并提供了不同场景的数据迁移方案使用起来方便快捷。详见：https://www.aliyun.com/product/oss ⚫ Hive：Apache Hive是基于 Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的 SQL查询功能，可以将 SQL语句转换为 MapReduce任务进行运行。其优点是学习成本低，可以通过类 SQL语句快速实现简单的 MapReduce统计，不必开发专门的 MapReduce应用，十分适合数据仓库的统计分析。 ⚫ RDS：阿里云关系型数据库（Relational Database Service，简称 RDS）是一种稳定可靠、可弹性伸缩的在线数据库服务。基于阿里云分布式文件系统和 SSD盘高性能存储，RDS支持 MySQL、SQL Server、PostgreSQL、PPAS（高度兼容 Oracle）和 MariaDB引擎，并且提供了容灾、备份、恢复、监控、迁移等方面的全套解决方案。详见：https://www.aliyun.com/product/rds/mysql 文档版本：20210425 III

5自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察目录目录文档版本信息 .............................................................................................................................................................. I 法律声明 ..................................................................................................................................................................... II 前言 ............................................................................................................................................................................ III 目录 ............................................................................................................................................................................ IV 最佳实践概述 ............................................................................................................................................................. V 前置条件 ..................................................................................................................................................................... 1 资源规划说明 ............................................................................................................................................................. 2 1. 基础环境搭建 ..................................................................................................................................................... 3 1.1. 通过 CADT搭建资源环境 ................................................................................................................... 3 1.2. 安装 Hadoop集群 ............................................................................................................................... 7 1.3. 创建 Hive元数据库 .......................................................................................................................... 12 1.4. 安装并配置 Hive ............................................................................................................................... 13 1.4创建 Hive表并导入数据 ............................................................................................................................ 16 2. 创建 Databricks数据洞察集群 ........................................................................................................................ 20 2.1. 设置 RDS白名单并获取内网地址 ................................................................................................... 20 2.2. 创建数据库账号 ............................................................................................................................... 22 2.3. 创建数据库 ....................................................................................................................................... 24 2.4. 创建 Databrocks数据洞察集群 ....................................................................................................... 24 2.5. 打通 Databrocks 数据洞察集群与 RDS之间的 VPC网络 .............................................................. 26 3. Hive数据迁移 ................................................................................................................................................... 28 3.1. HDFS数据迁移 .................................................................................................................................. 28 3.2. 将自建 Hive元数据库进行转储 ...................................................................................................... 29 3.3. 将订正后的转储文件导入到 RDS for MySQL实例中 ..................................................................... 32 3.4. 升级 Databricks数据洞察集群 Hive元数据库的表结构 ................................................................ 33 3.5. 验证 Databrick数据洞察集群的 spark服务功能 ........................................................................... 36 3.6. 小结 ................................................................................................................................................... 38 4. 总结 ................................................................................................................................................................... 39 文档版本：20210425 IV

6自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察最佳实践概述最佳实践概述概述 Databricks数据洞察（Databricks DataInsight简称 DDI）是基于 Apache Spark的全托管大数据分析平台。产品内核引擎使用 Databricks Runtime，并针对阿里云平台进行了优化。DDI为您提供了高效稳定的阿里云 Spark服务，客户无需关心集群服务，让客户从繁杂的环境运维、内核优化等工作中解脱出来，专注于开发 Spark作业。场景描述客户在 IDC或者公有云环境自建 Hadoop集群，数据集中保存在 HDFS文件系统，同时借助 Hive进行 ETL任务。客户在决策上云之后，会将自建 Hadoop集群的数据迁移到阿里云 Databricks数据洞察集群。方案架构方案优势 ⚫ 高效稳定 Databricks数据洞察产品内核使用 Databricks商业版的 Runtime和 Delta Lake，并针对阿里云平台做了优化。与社区版 Spark和 Delta Lake相比，在功能和性能上都有明显的优势。 ⚫ 经济文档版本：20210425 V

7自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察最佳实践概述您可以按需创建 Databricks数据洞察集群，即离线作业运行结束就可以释放集群，同时支持按负载和时间的弹性伸缩。 ⚫ 协同分析 Databricks数据洞察 Notebook为大数据分析提供了可视化、交互式的平台。用户可以在 Notebook中编辑、执行、查看 Spark作业。不同角色的用户可以共享集群资源和 Notebook内容，协同合作。 ⚫ 深度融合 Databricks数据洞察与阿里云其它产品（例如，OSS、MongoDB、Elasticseach、 RDS和 MaxCompute等）进行了深度整合，支持以这些产品作为 Spark计算引擎的输入源或者输出目的地。文档版本：20210425 VI

8自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察前置条件前置条件为了顺利完成本实践，您需要提前完成以下准备工作： ⚫ 注册阿里云账号，并完成实名认证。您可以登录阿里云控制台，并前往实名认证页面（account.console.aliyun.com/v2/#/authc/home）查看是否已经完成实名认证。 ⚫ 阿里云账户余额大于 100 元。您可以登录阿里云控制台，并前往账户总览页面（expense.console.aliyun.com/#/account/home）查看账户余额。 ⚫ 拥有已经通过备案的域名 ⚫ 开通 ECS、OSS、Databricks数据洞察、RDS和 VPN网关等服务。文档版本：20210425 1

自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察

相关产品

相关推荐

探索阿里云产品，构建云上应用和服务

相关产品

相关推荐

探索阿里云产品，构建云上应用和服务

自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察

相关产品

相关推荐

探索阿里云产品，构建云上应用和服务

相关产品

相关推荐

探索阿里云产品，构建云上应用和服务

温馨提示