BpFile(id=166, bpId=55, name=EMR本地盘实例大规模数据集测试, author=null, keyword=大数据分析, description=使用阿里云EMR和D1本地盘实例实现大数据分析集群架构以及大规模数据集测试, position=null, ossUrl=bp-NQ70DEVRU73DMUR2.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=0, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=
场景描述
阿里云为了满足大数据场景下的存储需求,在云
上推出了本地盘D1机型,这个系列提供了本地
盘而非云盘作为存储,提高了磁盘的吞吐能力,
发挥Hadoop的就近计算优势。阿里云EMR
产品针对本地盘机型,推出了一整套的自动化运
维方案,帮助用户方便可靠地使用本地盘机型,
不需要关注整个运维过程同时数据的高可靠和
服务的高可用。
解决问题
1.云盘多份冗余数据导致成本高
2.磁盘吞吐量不高
3.节点的高可靠分布问题
4.本地盘与节点的故障监控问题
5.数据迁移时自动决策问题
6.自动故障节点迁移与数据平衡问题
产品列表
⚫EMR(E-MapReduce)
⚫本地盘
⚫VPC
, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null)
1
EMR本地盘实例大规模数据集测试 最佳实践
场景描述
方案架构图
阿里云为了满足大数据场景下的存储需求,在云
上推出了本地盘 D1机型,这个系列提供了本地
盘而非云盘作为存储,提高了磁盘的吞吐能力,
发挥 Hadoop 的就近计算优势。阿里云 EMR
产品针对本地盘机型,推出了一整套的自动化运
维方案,帮助用户方便可靠地使用本地盘机型,
不需要关注整个运维过程同时数据的高可靠和
服务的高可用。
解决问题
1. 云盘多份冗余数据导致成本高
2. 磁盘吞吐量不高
3. 节点的高可靠分布问题
4. 本地盘与节点的故障监控问题
5. 数据迁移时自动决策问题
6. 自动故障节点迁移与数据平衡问题
产品列表
⚫ EMR(E-MapReduce)
⚫ 本地盘
⚫ VPC
2企业上云实践 EMR本地盘实例大规模数据集测试最佳实践
阿里云
企业上云实践
EMR本地盘实例大规模
数据集测试最佳实践
产品版本:V1.3(软件版本)
文档版本:20190816(发布日期)
文档版本:20191111(发布日期) 2
3企业上云实践 EMR本地盘实例大规模数据集测试最佳实践
文档版本信息
文本信息
属性 内容
文档名称 EMR本地盘实例大规模数据集测试最佳实践
文档编号 055
文档版本 V1.3
版本日期 2019-11-11
文档状态 外部发布
制作人 明誉
审阅人
文档变更记录
版本编号 日期 作者 审核人 说明
V1.0 2019/05/14 明誉 创建
V1.1 2019/05/24 明誉 游圣、阿瑟 更新部分文案错误
V1.2 2019/06/17 明誉 更新文档封面等内容
V1.3 2019/08/16 明誉 更新文档格式和部分内容
V1.4 2019/11/11 明誉 更新部分文案错误以及
EMR集群配置新流程
文档版本:20191111(发布日期) I
4企业上云实践 EMR本地盘实例大规模数据集测试最佳实践
前言
概述
本文介绍如何使用阿里云 EMR 搭建本地盘机型集群节点并进行大数据基准性能测试方
法实践,模拟每天产生 3GB日志,一年大约生成 1TB日志规模的用户使用阿里云大数据
集群进行性能测试方法指引。
应用范围
⚫ 需要使用阿里云 EMR+本地盘进行大数据业务前进行性能测试的用户
⚫ 线下自建大数据集群用户需要迁移到阿里云云上 EMR+本地盘进行大数据分析
性能对比测试的用户
名词解释
⚫ VPC:Virtual Private Cloud,简称 VPC。基于阿里云创建的自定义私有网络, 不
同的专有网络之间二层逻辑隔离,可以在自己创建的专有网络内创建和管理云产
品实例,比如 ECS、负载均衡、RDS等。在创建前,您需要结合具体业务,规划
VPC和交换机的数量及网段等。
⚫ ECS: Elastic Compute Service,简称 ECS。是阿里云提供的一种基础云计算服
务。无需提前采购硬件设备,根据业务需要,随时创建所需数量的云服务器 ECS
实例。在使用过程中,随着业务的扩展,可以随时扩容磁盘、增加贷款,也能随
时释放资源,节省费用。
⚫ EMR: E-MapReduce(EMR)是构建在阿里云云服务器 ECS 上的开源 Hadoop、
Spark、Hive、Flink 生态大数据产品,提供用户在云上使用开源技术建设数据仓
库、离线批处理、在线学习、即时查询、机器学习等场景下的大数据解决方案。
⚫ PT测试:Power Test(PT)功耗测试,TPC-DS用于大数据性能测试的方法。
⚫ 大数据实例本地盘:阿里云为了满足大数据场景下的存储需求,目前在云上推出
文档版本:20191111(发布日期) III
5企业上云实践 EMR本地盘实例大规模数据集测试最佳实践
的本地盘 D1机型,该系列提供本地盘而非云盘作为存储,可解决云盘的成本高问
题,同时提供了磁盘的吞吐能力,发挥 Hadoop的就近计算能力,目前 EMR的
Core节点的数据盘可以选择 D1机型的本地盘。
文档版本:20191111(发布日期) IV
6企业上云实践 EMR本地盘实例大规模数据集测试最佳实践
最佳实践描述
概述
阿里云为了满足大数据场景下的存储需求,在云上推出了本地盘 D1机型,这个系列提
供了本地盘而非云盘作为存储,解决了之前使用云盘的多份冗余数据导致的成本高问题,
同时数据的传输不再需要全部通过网络,从而提供了磁盘的吞吐能力,发挥 Hadoop
的就近计算的优势
阿里云 EMR产品针对本地盘机型,推出了一整套的自动化运维方案,帮助阿里云用户
方便可靠地使用本地盘机型,不需要关心整个运维过程的同时,做到数据的高可靠、服
务的高可用。
大数据基准测试用于公平、客观评测不同大数据产品/平台的功能和性能,对用户选择
合适的大数据平台产品具有重要的参考价值, TPC-DS逐渐成为了业界公认的大数据系
统测试基准,本文就阿里云 EMR+D1本地盘方案,进行了模拟 TPC-DS测试的演示方
案
方案架构说明
⚫ 方案架构
⚫ 架构说明
✓ 大数据平台使用 EMR+D1本地盘
✓ TPC-DS测试使用功耗测试(Power Test, PT),测试框架使用 Hive-testbench
文档版本:20191111(发布日期) V
7企业上云实践 EMR本地盘实例大规模数据集测试最佳实践
✓ 可以生产不同规模的数据集进行基准测试
EMR+D1本地盘优势
⚫ 强制节点的高可靠分布
⚫ 本地盘与节点的故障监控
⚫ 数据迁移时自动决策
⚫ 自动的故障节点迁移与数据平衡
⚫ 自动的 HDFS数据检测
⚫ 网络拓扑调优
文档版本:20191111(发布日期) VI
8企业上云实践 EMR本地盘实例大规模数据集测试最佳实践
目录
文档版本信息 ......................................................................................................................................... I
法律声明 ............................................................................................................................................... II
前言 ...................................................................................................................................................... III
最佳实践描述 ....................................................................................................................................... V
目录 ..................................................................................................................................................... VII
前置条件 ............................................................................................................................................... 1
演示环境说明 ....................................................................................................................................... 2
1. VPC环境创建 ................................................................................................................................. 3
1.1 VPC及虚拟交换机 ............................................................................................................. 3
1.2 安全组创建 ............................................................................................................................ 4
2.大数据集群测试环境 ....................................................................................................................... 7
2.1 集群创建 .............................................................................................................................. 7
2.2 TPC-DS测试环境搭建 ....................................................................................................... 11
3.性能测试 ......................................................................................................................................... 14
3.1 测试数据生成 ...................................................................................................................... 14
3.2 测试数据查看 ...................................................................................................................... 15
3.3 性能测试 .............................................................................................................................. 19
3.4 查看测试结果 ...................................................................................................................... 22
文档版本:20191111(发布日期) VII