相关产品

相关推荐

探索阿里云产品,构建云上应用和服务

免费试用

相关产品

相关推荐

探索阿里云产品,构建云上应用和服务

免费试用

温馨提示

抱歉,登录前您只能看到8页哦。立刻登录,浏览全部技术解决方案最佳实践案例内容!

如果您是企业账号,可以生成子账号授权访问。

BpFile(id=197, bpId=147, name=自建Hadoop迁移MaxCompute, author=null, keyword=hadoop迁移,hbase迁移,maxcompute,大数据迁移, description=介绍如何将自建Hadoop集群及生态组件迁移到阿里云MaxCompute大数据服务。, position=null, ossUrl=bp-4DDDYV6EY4RQSUFS.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述 客户基于ECS、IDC自建或在友商云平台自建了大数 据集群,为了降低企业大数据计算平台的成本,提高 大数据应用开发效率,更有效保障数据安全,把大数 据集群的数据、作业、调度任务以及业务数据库整体 迁移到MaxCompute和其他云产品。 解决的问题 自建Hadoop集群搬迁到MaxCompute 自建Hbase集群搬迁到云Hbase 自建Kafka或应用数据准实时同步到 MaxCompute 自建Azkaban任务迁移到Dataworks任务 产品列表 MaxCompute,Dataworks、云数据库Hbase版、Datahub、VPC,ECS。

, templateId=3D28DEY1AMKTG2RQ, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=3D28DEY1AMKTG2RQ, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null)
1 自建 Hadoop迁移 MaxCompute 场景描述 解决的问题 客户基于ECS、IDC自建或友商自建了大数据集群, ⚫ 自建Hadoop集群搬迁到 MaxCompute 为了降低企业大数据计算平台的成本,提高大数 ⚫ 自建Hbase集群搬迁到云 Hbase 据应用开发效率,更有效保障数据安全,把大数据 ⚫ 自建 Kafka 或服务器数据实时同步到 集群的数据、作业、调度任务以及业务数据库整体 MaxCompute 迁移到MaxCompute和其他云产品。 ⚫ 自建Azkaban搬迁到 Dataworks 产品列表 MaxCompute,Dataworks、云数据库 Hbase版、Datahub、VPC,ECS。
2文档模板(手册名称)/Error! Use the Home tab to apply 云服务器 ECS(产品名称) 标题 to the text that you want to appear here. 文档版本:20210723 阿里云 自建 Hadoop 迁移MaxCompute 文档版本:20150122(发布日期) III
3自建Hadoop迁移MaxCompute 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 自建 Hadoop迁移 MaxCompute 文档编号 文档版本 V1.1 版本日期 2021-07-23 文档状态 外部发布 制作人 云魁、弦望、游士 审阅人 游圣 文档变更记录 版本编号 日期 作者 审核人 说明 云魁、弦望、 V1.0 2020-02-26 创建 乔夫、吴昊 使用 CADT创建资源,更新部 V1.1 2021-07-23 游士 分命令和链接 文档版本:20210723 I
4自建Hadoop迁移MaxCompute 前言 前言 概述 客户基于 ECS、IDC自建或友商自建了大数据集群,为了降低企业大数据计算平台 的成本,提高大数据应用开发效率,更有效保障数据安全,把大数据集群的数据、作 业、调度任务、业务数据库整体迁移到 MaxCompute和其他云产品。 名词解释 ⚫ HDFS Hadoop 分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文 件系统,它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式 文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉 价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应 用。 ⚫ VPN网关 VPN网关是一款基于 Internet的网络连接服务,通过加密通道的方式实现企业数 据中心、企业办公网络或 Internet终端与阿里云专有网络(VPC)安全可靠的连 接。 VPN 网关提供 IPSec-VPN 连接和 SSL-VPN 连接。详情请查看 https://www.aliyun.com/product/vpn ⚫ IPSec VPN 基于路由的 IPSec-VPN,不仅可以更方便的配置和维护 VPN策略,而且还提供 了灵活的流量路由方式。您可以使用 IPSec-VPN功能将本地数据中心与 VPC或 不同的 VPC之间进行连接。IPSec-VPN支持 IKEv1和 IKEv2协议。只要支持这 两种协议的设备都可以和阿里云 VPN网关互连,比如华为、华三、山石、深信 服、Cisco ASA、Juniper、SonicWall、Nokia、IBM 和 Ixia等。 ⚫ Kafka Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中 的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网 络上的许多社会功能的一个关键因素,这些数据通常是由于吞吐量的要求而通过 处理日志和日志聚合来解决。对于像 Hadoop一样的日志数据和离线分析系统, 但又要求实时处理的限制,这是一个可行的解决方案。Kafka 的目的是通过 文档版本:20210723 III
5自建Hadoop迁移MaxCompute 前言 Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提 供实时的消息。 ⚫ Flume Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日 志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机 制以及许多故障转移和恢复机制,具有强大的功能和容错能力。它使用一个简单 的可扩展数据模型,允许在线分析应用程序。 文档版本:20210723 IV
6自建Hadoop迁移MaxCompute 目录 目录 文档版本信息 ........................................................................................................................................................ I 法律声明 ............................................................................................................................................................... II 前言 ..................................................................................................................................................................... III 目录 ...................................................................................................................................................................... V 最佳实践概述 ....................................................................................................................................................... 1 前置条件 ............................................................................................................................................................... 3 资源规划说明 ....................................................................................................................................................... 4 1. 自建 Hadoop集群环境搭建 ............................................................................................................................ 5 1.1. Hadoop集群安装规划 ................................................................................................................... 5 1.1.1. 组件安装规划......................................................................................................................... 5 1.1.2. 组件运行规划......................................................................................................................... 5 1.2. 使用云速搭 CADT快速创建资源 ................................................................................................... 6 1.3. 初始化配置 .................................................................................................................................. 10 1.4. 配置 hadoop各 ECS之间的无密钥登录 ...................................................................................... 11 1.5. loggen操作 .................................................................................................................................. 12 1.6. Kafka操作 .................................................................................................................................... 12 1.7. Zookeeper操作 ............................................................................................................................ 13 1.8. Hadoop操作 ................................................................................................................................ 13 1.9. Flume操作 ................................................................................................................................... 14 1.10. MySQL操作.................................................................................................................................. 15 1.11. Hive操作 ...................................................................................................................................... 15 1.12. Hbase操作 ................................................................................................................................... 16 1.13. Azkaban操作 ............................................................................................................................... 18 2. 开通 MaxCompute ....................................................................................................................................... 22 2.1. 创建 Dataworks工作空间 ............................................................................................................ 22 3. Hive数仓迁移到 MaxCompute.................................................................................................................... 24 3.1. 配置 MMA迁移工具.................................................................................................................... 24 3.2. 启动 MMA工具进行数据迁移 .................................................................................................... 25 3.3. 在 MaxCompute查看对应表 ....................................................................................................... 26 4. Hbase表数据迁移到云数据库 Hbase版 .................................................................................................... 30 4.1. 创建 BDS集群 .............................................................................................................................. 30 4.2. 配置 Hbase迁移相关配置 ........................................................................................................... 33 4.3. 启动 Hbase历史数据迁移 ........................................................................................................... 35 4.4. 启动 Hbase实时数据同步 ........................................................................................................... 37 5. 数据接入组件 Kafka迁移到 Datahub.......................................................................................................... 40 5.1. 创建 Datahub工程和 Topic .......................................................................................................... 40 5.2. 在 ECS loggen上启动新的 Flume任务将数据发送到 Datahub ................................................... 42 5.3. 创建 DataConnector将数据从 Datahub归档到 MaxCompute表 ................................................ 44 6. Azkaban定时任务迁移和改造 .................................................................................................................... 48 6.1. 将表 datahub_dataconnector_apache_logs数据灌入 odps_apache_logs .................................... 48 6.2. 改造 Azkaban测试工程中 Job 99_ip_statics ................................................................................ 57 文档版本:20210723 V
7自建Hadoop迁移MaxCompute 目录 6.2.1. 修改 HiveSQL并提交 ODPS SQL任务 ................................................................................... 57 6.2.2. 将中间表同步到云数据库 Hbase实例 ................................................................................ 64 6.2.3. 查看执行成功的任务 ........................................................................................................... 73 6.3. 改造 Azkaban测试工程中 Job 98_add_device_and_user_type .................................................... 74 文档版本:20210723 VI
8自建Hadoop迁移MaxCompute 最佳实践概述 最佳实践概述 概述 客户基于 ECS、IDC自建或友商自建了大数据集群,为了降低企业大数据计算平台 的成本,提高大数据应用开发效率,更有效保障数据安全,把大数据集群的数据、作 业、调度任务、业务数据库整体迁移到 MaxCompute和其他云产品。 适用场景 ⚫ 自建 Hadoop集群搬迁到 MaxCompute ⚫ 自建 Hbase集群搬迁到云 Hbase ⚫ 自建 Kafka或服务器数据实时同步到 MaxCompute ⚫ 自建 Azkaban搬迁到 Dataworks 技术架构 本实践方案基于如下图所示的技术架构和主要流程编写操作步骤: 文档版本:20210723 1