Ctrl+F / Command+F 全文检索
客户案例

相关最佳实践
ML&AI |

利用PAI平台快速构建一个高效的离线训练和在线推理的推荐业务系统。

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版 大数据计算服务 MaxCompute 机器学习PAI 云速搭
安全&合规 |

云原生高性价比的等保三级最佳实践;在等保二级基础上,叠加必要的安全产品及高可用架构/满足三级要求

云服务器ECS 日志服务(SLS) 云安全中心 Web应用防火墙 操作审计 数据库审计 堡垒机 云防火墙 SSL证书
业务上云 |

传统企业、零售和游戏行业系统分级后单库单服系统云上搭建最佳实践,涉及大部分基础云产品。

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版 负载均衡 SLB CDN 云速搭
业务上云 |

使用云桌面和VPN网关产品快速构建远程办公环境,在云桌面可以访问企业IDC内的应用和资源

云服务器ECS NAT网关 VPN网关 智能接入网关 云桌面
DevOps | 容器&微服务 |

使用云效完成容器应用自动化构建和持续部署

专有网络 VPC 负载均衡 SLB 容器服务 ACK 云效 云速搭
业务上云 |

适用于中小型电商应用上云。包括常用最佳实践架构,同时提供云上资源建站和数据库迁移实践操作。

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版 负载均衡 SLB 数据传输

温馨提示

未登录用户仅可预览8页内容,请您前往登录后浏览更多企业上云最佳实践案例内容。企业账号建议生成子账号授权访问。

BpFile(id=337, bpId=214, name=自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察, author=null, keyword=数据洞察,Databricks,数据仓库,大数据, description=客户在IDC或者公共云环境自建Hadoop集群构建数据仓库和分析系统,购买阿里云Databricks数据洞察集群之后,涉及到数仓数据和元数据的迁移以及Hive版本的订正更新, position=null, ossUrl=bp-EBAENBU2SYS1AO7U.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=0, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述

客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统,购买阿里云Databricks数据洞察集群之后,涉及到数仓数据和元数据的迁移以及Hive版本的订正更新。

方案优势

1.      全托管Spark集群免运维,节省人力成本。

2.      Databricks数据洞察与阿里云其他产品(OSS、RDS、MaxCompute、EMR)进行深度整合,支持以这些产品为数据源的输入和输出。

3.      使用Databricks Runtime商业版引擎相比开源Spark性能有3-5倍的提升。

解决问题

1. Hive数仓数据迁移OSS方案。

2. Hive元数据库迁移阿里云RDS方案。

3. Hive跨版本迁移到Databricks数据洞察使用Delta表查询以提高查询效率。

, templateId=null, freetry=, visitTime=null, visitCount=null, video_url=, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null)
1 自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察 业务架构 场景描述 客户在 IDC或者公有云环境自建 Hadoop集群 构建数据仓库和分析系统,购买阿里云 Databricks数据洞察集群之后,涉及到数仓数 据和元数据的迁移以及 Hive版本的订正更新。 方案优势 1. 全托管 Spark集群免运维,节省人力成 本。 2. Databricks数据洞察与阿里云其他产品 (OSS、RDS、MaxCompute、EMR) 进行深度整合,支持以这些产品为数据源 的输入和输出。 3. 使用 Databricks Runtime商业版引擎相 产品列表 比开源 Spark性能有 3-5倍的提升。 ⚫ Databricks 数据洞察 解决问题 ⚫ 云服务器 ECS 1. Hive数仓数据迁移 OSS方案。 ⚫ 文件存储 HDFS 2. Hive元数据库迁移阿里云 RDS方案。 ⚫ 对象存储 OSS 3. Hive跨版本迁移到 Databricks数据洞察 ⚫ 专有网络 VPC 使用 Delta表查询以提高查询效率。 最佳实践频道 阿里云最佳实践技术分享群
2云服务器 ECS(产品名称) 文档模板(手册名称)/文档版本信息 阿里云 自建Hive 数据仓库跨版本迁移到 阿里云Databricks数据洞察 文档版本:20210425(发布日期) 文档版本:20210425 1
3自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察 文档编号 文档版本 V1.0 版本日期 2021-04-25 文档状态 外部发布 制作人 加亮 审阅人 霍彦文、协列 文档变更记录 版本编号 日期 作者 审核人 说明 V1.0 2021-04-25 加亮 霍彦文、协列 创建 文档版本:20210425 I
4自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察 前言 前言 概述 客户在 IDC或者公有云环境自建 Hadoop集群,数据集中保存在 HDFS文件系统,同 时借助 Hive进行 ETL任务。客户在决策上云之后,会将自建 Hadoop集群的数据迁 移到阿里云 Databricks数据洞察集群。 应用范围 ⚫ 需要使用 Spark优化方案的用户 ⚫ 对 Spark大数据分析平台计算性能,成本控制考虑的用户。 ⚫ 需要有灵活可扩展的计算平台、弹性可伸缩集群资源及灵活管控的用户 名词解释 ⚫ Databricks数据洞察:是基于 Apache Spark的全托管大数据分析平台,产品内核 引擎使用 Databricks Runtime,并针对阿里云平台进行优化,使用 Notebook交互 式数据分析,Python库便捷安装,使用 Delta表存储比其他使用 Spark查询性能 有 5-10倍的提升。详见:https://www.aliyun.com/product/bigdata/spark ⚫ 对象存储 OSS:阿里云对象存储 OSS(Object Storage Service)是阿里云提供 的海量、安全、低成本、高持久的云存储服务。并提供了不同场景的数据迁移方案 使用起来方便快捷。详见:https://www.aliyun.com/product/oss ⚫ Hive:Apache Hive是基于 Hadoop的一个数据仓库工具,可以将结构化的数据 文件映射为一张数据库表,并提供简单的 SQL查询功能,可以将 SQL语句转换 为 MapReduce任务进行运行。其优点是学习成本低,可以通过类 SQL语句快速 实现简单的 MapReduce统计,不必开发专门的 MapReduce应用,十分适合数据 仓库的统计分析。 ⚫ RDS:阿里云关系型数据库(Relational Database Service,简称 RDS)是一种 稳定可靠、可弹性伸缩的在线数据库服务。基于阿里云分布式文件系统和 SSD盘 高性能存储,RDS支持 MySQL、SQL Server、PostgreSQL、PPAS(高度兼容 Oracle)和 MariaDB引擎,并且提供了容灾、备份、恢复、监控、迁移等方面的 全套解决方案。详见:https://www.aliyun.com/product/rds/mysql 文档版本:20210425 III
5自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察 目录 目录 文档版本信息 .............................................................................................................................................................. I 法律声明 ..................................................................................................................................................................... II 前言 ............................................................................................................................................................................ III 目录 ............................................................................................................................................................................ IV 最佳实践概述 ............................................................................................................................................................. V 前置条件 ..................................................................................................................................................................... 1 资源规划说明 ............................................................................................................................................................. 2 1. 基础环境搭建 ..................................................................................................................................................... 3 1.1. 通过 CADT搭建资源环境 ................................................................................................................... 3 1.2. 安装 Hadoop集群 ............................................................................................................................... 7 1.3. 创建 Hive元数据库 .......................................................................................................................... 12 1.4. 安装并配置 Hive ............................................................................................................................... 13 1.4创建 Hive表并导入数据 ............................................................................................................................ 16 2. 创建 Databricks数据洞察集群 ........................................................................................................................ 20 2.1. 设置 RDS白名单并获取内网地址 ................................................................................................... 20 2.2. 创建数据库账号 ............................................................................................................................... 22 2.3. 创建数据库 ....................................................................................................................................... 24 2.4. 创建 Databrocks数据洞察集群 ....................................................................................................... 24 2.5. 打通 Databrocks 数据洞察集群与 RDS之间的 VPC网络 .............................................................. 26 3. Hive数据迁移 ................................................................................................................................................... 28 3.1. HDFS数据迁移 .................................................................................................................................. 28 3.2. 将自建 Hive元数据库进行转储 ...................................................................................................... 29 3.3. 将订正后的转储文件导入到 RDS for MySQL实例中 ..................................................................... 32 3.4. 升级 Databricks数据洞察集群 Hive元数据库的表结构 ................................................................ 33 3.5. 验证 Databrick数据洞察集群的 spark服务功能 ........................................................................... 36 3.6. 小结 ................................................................................................................................................... 38 4. 总结 ................................................................................................................................................................... 39 文档版本:20210425 IV
6自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察 最佳实践概述 最佳实践概述 概述 Databricks数据洞察(Databricks DataInsight简称 DDI)是基于 Apache Spark的全 托管大数据分析平台。产品内核引擎使用 Databricks Runtime,并针对阿里云平台进 行了优化。DDI为您提供了高效稳定的阿里云 Spark服务,客户无需关心集群服务, 让客户从繁杂的环境运维、内核优化等工作中解脱出来,专注于开发 Spark作业。 场景描述 客户在 IDC或者公有云环境自建 Hadoop集群,数据集中保存在 HDFS文件系统,同 时借助 Hive进行 ETL任务。客户在决策上云之后,会将自建 Hadoop集群的数据迁 移到阿里云 Databricks数据洞察集群。 方案架构 方案优势 ⚫ 高效稳定 Databricks数据洞察产品内核使用 Databricks商业版的 Runtime和 Delta Lake, 并针对阿里云平台做了优化。与社区版 Spark和 Delta Lake相比,在功能和性能 上都有明显的优势。 ⚫ 经济 文档版本:20210425 V
7自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察 最佳实践概述 您可以按需创建 Databricks数据洞察集群,即离线作业运行结束就可以释放集群, 同时支持按负载和时间的弹性伸缩。 ⚫ 协同分析 Databricks数据洞察 Notebook为大数据分析提供了可视化、交互式的平台。用户 可以在 Notebook中编辑、执行、查看 Spark作业。不同角色的用户可以共享集群 资源和 Notebook内容,协同合作。 ⚫ 深度融合 Databricks数据洞察与阿里云其它产品(例如,OSS、MongoDB、Elasticseach、 RDS和 MaxCompute等)进行了深度整合,支持以这些产品作为 Spark计算引 擎的输入源或者输出目的地。 文档版本:20210425 VI
8自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察 前置条件 前置条件 为了顺利完成本实践,您需要提前完成以下准备工作: ⚫ 注册阿里云账号,并完成实名认证。您可以登录阿里云控制台,并前往实名认证页 面(account.console.aliyun.com/v2/#/authc/home)查看是否已经完成实名认证。 ⚫ 阿里云账户余额大于 100 元。您可以登录阿里云控制台,并前往账户总览页面 (expense.console.aliyun.com/#/account/home)查看账户余额。 ⚫ 拥有已经通过备案的域名 ⚫ 开通 ECS、OSS、Databricks数据洞察、RDS和 VPN网关等服务。 文档版本:20210425 1