相关产品

相关推荐

探索阿里云产品,构建云上应用和服务

免费试用

相关产品

相关推荐

探索阿里云产品,构建云上应用和服务

免费试用

温馨提示

抱歉,登录前您只能看到8页哦。立刻登录,浏览全部技术解决方案最佳实践案例内容!

如果您是企业账号,可以生成子账号授权访问。

BpFile(id=166, bpId=55, name=EMR本地盘实例大规模数据集测试, author=null, keyword=大数据分析, description=使用阿里云EMR和D1本地盘实例实现大数据分析集群架构以及大规模数据集测试, position=null, ossUrl=bp-NQ70DEVRU73DMUR2.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=0, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述 阿里云为了满足大数据场景下的存储需求,在云 上推出了本地盘D1机型,这个系列提供了本地 盘而非云盘作为存储,提高了磁盘的吞吐能力, 发挥Hadoop的就近计算优势。阿里云EMR 产品针对本地盘机型,推出了一整套的自动化运 维方案,帮助用户方便可靠地使用本地盘机型, 不需要关注整个运维过程同时数据的高可靠和 服务的高可用。 解决问题 1.云盘多份冗余数据导致成本高 2.磁盘吞吐量不高 3.节点的高可靠分布问题 4.本地盘与节点的故障监控问题 5.数据迁移时自动决策问题 6.自动故障节点迁移与数据平衡问题 产品列表 ⚫EMR(E-MapReduce) ⚫本地盘 ⚫VPC

, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null, cooperation=null, cooperationList=null)
1 EMR本地盘实例大规模数据集测试 最佳实践 场景描述 方案架构图 阿里云为了满足大数据场景下的存储需求,在云 上推出了本地盘 D1机型,这个系列提供了本地 盘而非云盘作为存储,提高了磁盘的吞吐能力, 发挥 Hadoop 的就近计算优势。阿里云 EMR 产品针对本地盘机型,推出了一整套的自动化运 维方案,帮助用户方便可靠地使用本地盘机型, 不需要关注整个运维过程同时数据的高可靠和 服务的高可用。 解决问题 1. 云盘多份冗余数据导致成本高 2. 磁盘吞吐量不高 3. 节点的高可靠分布问题 4. 本地盘与节点的故障监控问题 5. 数据迁移时自动决策问题 6. 自动故障节点迁移与数据平衡问题 产品列表 ⚫ EMR(E-MapReduce) ⚫ 本地盘 ⚫ VPC
2企业上云实践 EMR本地盘实例大规模数据集测试最佳实践 阿里云 企业上云实践 EMR本地盘实例大规模 数据集测试最佳实践 产品版本:V1.3(软件版本) 文档版本:20190816(发布日期) 文档版本:20191111(发布日期) 2
3企业上云实践 EMR本地盘实例大规模数据集测试最佳实践 文档版本信息 文本信息 属性 内容 文档名称 EMR本地盘实例大规模数据集测试最佳实践 文档编号 055 文档版本 V1.3 版本日期 2019-11-11 文档状态 外部发布 制作人 明誉 审阅人 文档变更记录 版本编号 日期 作者 审核人 说明 V1.0 2019/05/14 明誉 创建 V1.1 2019/05/24 明誉 游圣、阿瑟 更新部分文案错误 V1.2 2019/06/17 明誉 更新文档封面等内容 V1.3 2019/08/16 明誉 更新文档格式和部分内容 V1.4 2019/11/11 明誉 更新部分文案错误以及 EMR集群配置新流程 文档版本:20191111(发布日期) I
4企业上云实践 EMR本地盘实例大规模数据集测试最佳实践 前言 概述 本文介绍如何使用阿里云 EMR 搭建本地盘机型集群节点并进行大数据基准性能测试方 法实践,模拟每天产生 3GB日志,一年大约生成 1TB日志规模的用户使用阿里云大数据 集群进行性能测试方法指引。 应用范围 ⚫ 需要使用阿里云 EMR+本地盘进行大数据业务前进行性能测试的用户 ⚫ 线下自建大数据集群用户需要迁移到阿里云云上 EMR+本地盘进行大数据分析 性能对比测试的用户 名词解释 ⚫ VPC:Virtual Private Cloud,简称 VPC。基于阿里云创建的自定义私有网络, 不 同的专有网络之间二层逻辑隔离,可以在自己创建的专有网络内创建和管理云产 品实例,比如 ECS、负载均衡、RDS等。在创建前,您需要结合具体业务,规划 VPC和交换机的数量及网段等。 ⚫ ECS: Elastic Compute Service,简称 ECS。是阿里云提供的一种基础云计算服 务。无需提前采购硬件设备,根据业务需要,随时创建所需数量的云服务器 ECS 实例。在使用过程中,随着业务的扩展,可以随时扩容磁盘、增加贷款,也能随 时释放资源,节省费用。 ⚫ EMR: E-MapReduce(EMR)是构建在阿里云云服务器 ECS 上的开源 Hadoop、 Spark、Hive、Flink 生态大数据产品,提供用户在云上使用开源技术建设数据仓 库、离线批处理、在线学习、即时查询、机器学习等场景下的大数据解决方案。 ⚫ PT测试:Power Test(PT)功耗测试,TPC-DS用于大数据性能测试的方法。 ⚫ 大数据实例本地盘:阿里云为了满足大数据场景下的存储需求,目前在云上推出 文档版本:20191111(发布日期) III
5企业上云实践 EMR本地盘实例大规模数据集测试最佳实践 的本地盘 D1机型,该系列提供本地盘而非云盘作为存储,可解决云盘的成本高问 题,同时提供了磁盘的吞吐能力,发挥 Hadoop的就近计算能力,目前 EMR的 Core节点的数据盘可以选择 D1机型的本地盘。 文档版本:20191111(发布日期) IV
6企业上云实践 EMR本地盘实例大规模数据集测试最佳实践 最佳实践描述 概述 阿里云为了满足大数据场景下的存储需求,在云上推出了本地盘 D1机型,这个系列提 供了本地盘而非云盘作为存储,解决了之前使用云盘的多份冗余数据导致的成本高问题, 同时数据的传输不再需要全部通过网络,从而提供了磁盘的吞吐能力,发挥 Hadoop 的就近计算的优势 阿里云 EMR产品针对本地盘机型,推出了一整套的自动化运维方案,帮助阿里云用户 方便可靠地使用本地盘机型,不需要关心整个运维过程的同时,做到数据的高可靠、服 务的高可用。 大数据基准测试用于公平、客观评测不同大数据产品/平台的功能和性能,对用户选择 合适的大数据平台产品具有重要的参考价值, TPC-DS逐渐成为了业界公认的大数据系 统测试基准,本文就阿里云 EMR+D1本地盘方案,进行了模拟 TPC-DS测试的演示方 案 方案架构说明 ⚫ 方案架构 ⚫ 架构说明 ✓ 大数据平台使用 EMR+D1本地盘 ✓ TPC-DS测试使用功耗测试(Power Test, PT),测试框架使用 Hive-testbench 文档版本:20191111(发布日期) V
7企业上云实践 EMR本地盘实例大规模数据集测试最佳实践 ✓ 可以生产不同规模的数据集进行基准测试 EMR+D1本地盘优势 ⚫ 强制节点的高可靠分布 ⚫ 本地盘与节点的故障监控 ⚫ 数据迁移时自动决策 ⚫ 自动的故障节点迁移与数据平衡 ⚫ 自动的 HDFS数据检测 ⚫ 网络拓扑调优 文档版本:20191111(发布日期) VI
8企业上云实践 EMR本地盘实例大规模数据集测试最佳实践 目录 文档版本信息 ......................................................................................................................................... I 法律声明 ............................................................................................................................................... II 前言 ...................................................................................................................................................... III 最佳实践描述 ....................................................................................................................................... V 目录 ..................................................................................................................................................... VII 前置条件 ............................................................................................................................................... 1 演示环境说明 ....................................................................................................................................... 2 1. VPC环境创建 ................................................................................................................................. 3 1.1 VPC及虚拟交换机 ............................................................................................................. 3 1.2 安全组创建 ............................................................................................................................ 4 2.大数据集群测试环境 ....................................................................................................................... 7 2.1 集群创建 .............................................................................................................................. 7 2.2 TPC-DS测试环境搭建 ....................................................................................................... 11 3.性能测试 ......................................................................................................................................... 14 3.1 测试数据生成 ...................................................................................................................... 14 3.2 测试数据查看 ...................................................................................................................... 15 3.3 性能测试 .............................................................................................................................. 19 3.4 查看测试结果 ...................................................................................................................... 22 文档版本:20191111(发布日期) VII