相关产品

相关推荐

探索阿里云产品,构建云上应用和服务

免费试用

相关产品

相关推荐

探索阿里云产品,构建云上应用和服务

免费试用

温馨提示

抱歉,登录前您只能看到8页哦。立刻登录,浏览全部技术解决方案最佳实践案例内容!

如果您是企业账号,可以生成子账号授权访问。

BpFile(id=337, bpId=214, name=自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察, author=null, keyword=数据洞察,Databricks,数据仓库,大数据, description=客户在IDC或者公共云环境自建Hadoop集群构建数据仓库和分析系统,购买阿里云Databricks数据洞察集群之后,涉及到数仓数据和元数据的迁移以及Hive版本的订正更新, position=null, ossUrl=bp-T1C519Y7NDYJKBMG.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=0, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述

客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统,购买阿里云Databricks数据洞察集群之后,涉及到数仓数据和元数据的迁移以及Hive版本的订正更新。

方案优势

1.      全托管Spark集群免运维,节省人力成本。

2.      Databricks数据洞察与阿里云其他产品(OSS、RDS、MaxCompute、EMR)进行深度整合,支持以这些产品为数据源的输入和输出。

3.      使用Databricks Runtime商业版引擎相比开源Spark性能有3-5倍的提升。

解决问题

1. Hive数仓数据迁移OSS方案。

2. Hive元数据库迁移阿里云RDS方案。

3. Hive跨版本迁移到Databricks数据洞察使用Delta表查询以提高查询效率。

, templateId=null, freetry=, visitTime=null, visitCount=null, video_url=, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null, cooperation=, cooperationList=null)
1 自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察 业务架构 场景描述 客户在 IDC或者公有云环境自建 Hadoop集群 构建数据仓库和分析系统,购买阿里云 Databricks数据洞察集群之后,涉及到数仓数 据和元数据的迁移以及 Hive版本的订正更新。 方案优势 1. 全托管 Spark集群免运维,节省人力成 本。 2. Databricks数据洞察与阿里云其他产品 (OSS、RDS、MaxCompute、EMR) 进行深度整合,支持以这些产品为数据源 的输入和输出。 3. 使用 Databricks Runtime商业版引擎相 产品列表 比开源 Spark性能有 3-5倍的提升。 ⚫ Databricks 数据洞察 解决问题 ⚫ 云服务器 ECS 1. Hive数仓数据迁移 OSS方案。 ⚫ 文件存储 HDFS 2. Hive元数据库迁移阿里云 RDS方案。 ⚫ 对象存储 OSS 3. Hive跨版本迁移到 Databricks数据洞察 ⚫ 专有网络 VPC 使用 Delta表查询以提高查询效率。 最佳实践频道 阿里云最佳实践技术分享群
2云服务器 ECS(产品名称) 文档模板(手册名称)/文档版本信息 阿里云 自建Hive 数据仓库跨版本迁移到 阿里云Databricks数据洞察 文档版本:20210425(发布日期) 文档版本:20210425 1
3自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察 文档编号 文档版本 V1.0 版本日期 2021-04-25 文档状态 外部发布 制作人 加亮 审阅人 霍彦文、协列 文档变更记录 版本编号 日期 作者 审核人 说明 V1.0 2021-04-25 加亮 霍彦文、协列 创建 文档版本:20210425 I
4自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察 前言 前言 概述 客户在 IDC或者公有云环境自建 Hadoop集群,数据集中保存在 HDFS文件系统,同 时借助 Hive进行 ETL任务。客户在决策上云之后,会将自建 Hadoop集群的数据迁 移到阿里云 Databricks数据洞察集群。 应用范围 ⚫ 需要使用 Spark优化方案的用户 ⚫ 对 Spark大数据分析平台计算性能,成本控制考虑的用户。 ⚫ 需要有灵活可扩展的计算平台、弹性可伸缩集群资源及灵活管控的用户 名词解释 ⚫ Databricks数据洞察:是基于 Apache Spark的全托管大数据分析平台,产品内核 引擎使用 Databricks Runtime,并针对阿里云平台进行优化,使用 Notebook交互 式数据分析,Python库便捷安装,使用 Delta表存储比其他使用 Spark查询性能 有 5-10倍的提升。详见:https://www.aliyun.com/product/bigdata/spark ⚫ 对象存储 OSS:阿里云对象存储 OSS(Object Storage Service)是阿里云提供 的海量、安全、低成本、高持久的云存储服务。并提供了不同场景的数据迁移方案 使用起来方便快捷。详见:https://www.aliyun.com/product/oss ⚫ Hive:Apache Hive是基于 Hadoop的一个数据仓库工具,可以将结构化的数据 文件映射为一张数据库表,并提供简单的 SQL查询功能,可以将 SQL语句转换 为 MapReduce任务进行运行。其优点是学习成本低,可以通过类 SQL语句快速 实现简单的 MapReduce统计,不必开发专门的 MapReduce应用,十分适合数据 仓库的统计分析。 ⚫ RDS:阿里云关系型数据库(Relational Database Service,简称 RDS)是一种 稳定可靠、可弹性伸缩的在线数据库服务。基于阿里云分布式文件系统和 SSD盘 高性能存储,RDS支持 MySQL、SQL Server、PostgreSQL、PPAS(高度兼容 Oracle)和 MariaDB引擎,并且提供了容灾、备份、恢复、监控、迁移等方面的 全套解决方案。详见:https://www.aliyun.com/product/rds/mysql 文档版本:20210425 III
5自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察 目录 目录 文档版本信息 .............................................................................................................................................................. I 法律声明 ..................................................................................................................................................................... II 前言 ............................................................................................................................................................................ III 目录 ............................................................................................................................................................................ IV 最佳实践概述 ............................................................................................................................................................. V 前置条件 ..................................................................................................................................................................... 1 资源规划说明 ............................................................................................................................................................. 2 1. 基础环境搭建 ..................................................................................................................................................... 3 1.1. 通过 CADT搭建资源环境 ................................................................................................................... 3 1.2. 安装 Hadoop集群 ............................................................................................................................... 7 1.3. 创建 Hive元数据库 .......................................................................................................................... 12 1.4. 安装并配置 Hive ............................................................................................................................... 13 1.4创建 Hive表并导入数据 ............................................................................................................................ 16 2. 创建 Databricks数据洞察集群 ........................................................................................................................ 20 2.1. 设置 RDS白名单并获取内网地址 ................................................................................................... 20 2.2. 创建数据库账号 ............................................................................................................................... 22 2.3. 创建数据库 ....................................................................................................................................... 24 2.4. 创建 Databrocks数据洞察集群 ....................................................................................................... 24 2.5. 打通 Databrocks 数据洞察集群与 RDS之间的 VPC网络 .............................................................. 26 3. Hive数据迁移 ................................................................................................................................................... 28 3.1. HDFS数据迁移 .................................................................................................................................. 28 3.2. 将自建 Hive元数据库进行转储 ...................................................................................................... 29 3.3. 将订正后的转储文件导入到 RDS for MySQL实例中 ..................................................................... 32 3.4. 升级 Databricks数据洞察集群 Hive元数据库的表结构 ................................................................ 33 3.5. 验证 Databrick数据洞察集群的 spark服务功能 ........................................................................... 36 3.6. 小结 ................................................................................................................................................... 38 4. 总结 ................................................................................................................................................................... 39 文档版本:20210425 IV
6自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察 最佳实践概述 最佳实践概述 概述 Databricks数据洞察(Databricks DataInsight简称 DDI)是基于 Apache Spark的全 托管大数据分析平台。产品内核引擎使用 Databricks Runtime,并针对阿里云平台进 行了优化。DDI为您提供了高效稳定的阿里云 Spark服务,客户无需关心集群服务, 让客户从繁杂的环境运维、内核优化等工作中解脱出来,专注于开发 Spark作业。 场景描述 客户在 IDC或者公有云环境自建 Hadoop集群,数据集中保存在 HDFS文件系统,同 时借助 Hive进行 ETL任务。客户在决策上云之后,会将自建 Hadoop集群的数据迁 移到阿里云 Databricks数据洞察集群。 方案架构 方案优势 ⚫ 高效稳定 Databricks数据洞察产品内核使用 Databricks商业版的 Runtime和 Delta Lake, 并针对阿里云平台做了优化。与社区版 Spark和 Delta Lake相比,在功能和性能 上都有明显的优势。 ⚫ 经济 文档版本:20210425 V
7自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察 最佳实践概述 您可以按需创建 Databricks数据洞察集群,即离线作业运行结束就可以释放集群, 同时支持按负载和时间的弹性伸缩。 ⚫ 协同分析 Databricks数据洞察 Notebook为大数据分析提供了可视化、交互式的平台。用户 可以在 Notebook中编辑、执行、查看 Spark作业。不同角色的用户可以共享集群 资源和 Notebook内容,协同合作。 ⚫ 深度融合 Databricks数据洞察与阿里云其它产品(例如,OSS、MongoDB、Elasticseach、 RDS和 MaxCompute等)进行了深度整合,支持以这些产品作为 Spark计算引 擎的输入源或者输出目的地。 文档版本:20210425 VI
8自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察 前置条件 前置条件 为了顺利完成本实践,您需要提前完成以下准备工作: ⚫ 注册阿里云账号,并完成实名认证。您可以登录阿里云控制台,并前往实名认证页 面(account.console.aliyun.com/v2/#/authc/home)查看是否已经完成实名认证。 ⚫ 阿里云账户余额大于 100 元。您可以登录阿里云控制台,并前往账户总览页面 (expense.console.aliyun.com/#/account/home)查看账户余额。 ⚫ 拥有已经通过备案的域名 ⚫ 开通 ECS、OSS、Databricks数据洞察、RDS和 VPN网关等服务。 文档版本:20210425 1