阿里云全部技术解决方案

Spark on ECI大数据分析

探索阿里云产品，构建云上应用和服务

BpFile(id=184, bpId=160, name=Spark on ECI大数据分析, author=null, keyword=大数据,云原生,spark,容器服务Kubernetes,弹性容器实例, description=Spark和云原生结合提供计算与存储分离的高性价比大数据分析, position=null, ossUrl=bp-PG1W5X1BAB13I975.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=0, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述方案优势 1.计算引擎弹性扩缩容，兼顾资源弹性与计算资源成本优化。 2.计算与存储分离架构，结合阿里云原生云存储产品，海量数据湖优势。 3.Kubernetes原生的调度性能优势，提升在大规模分析作业时的分析性能优势分。 4.集群资源隔离和按需分配。解决问题 1.计算资源弹性能力不足，计算资源成本管控能力欠缺. 2.集群资源调度能力和隔离能力不足。 3.计算与存储无法分离，大数据量分析时出现数据存储资源瓶颈。 4.Spark submit方式提交分析作业参数支持有限等缺点。产品列表 ⚫容器服务Kubernetes版(ACK) ⚫弹性容器实例(ECI) ⚫文件存储HDFS ⚫对象存储OSS ⚫专有网络VPC ⚫容器镜像服务ACR

, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null, cooperation=, cooperationList=null)

1 Spark on ECI大数据分析最佳实践业务架构场景描述方案优势 1. 计算引擎弹性扩缩容，兼顾资源弹性与计算资源成本优化。 2. 计算与存储分离架构，结合阿里云原生云存储产品，海量数据湖优势。 3. Kubernetes原生的调度性能优势，提升在大规模分析作业时的分析性能优势分。 4. 集群资源隔离和按需分配。解决问题产品列表 1. 计算资源弹性能力不足，计算资源成本管 ⚫ 容器服务 Kubernetes版(ACK) 控能力欠缺. ⚫ 弹性容器实例(ECI) 2. 集群资源调度能力和隔离能力不足。 ⚫ 文件存储 HDFS 3. 计算与存储无法分离，大数据量分析时出 ⚫ 对象存储 OSS 现数据存储资源瓶颈。 ⚫ 专有网络 VPC 4. Spark submit方式提交分析作业参数支持 ⚫ 容器镜像服务 ACR 有限等缺点。文档版本：20200401（发布日期）

2文档模板（手册名称）/Error! Use the Home tab to apply 标云服务器 ECS（产品名称）题 to the text that you want to appear here. 阿里云企业上云实践 Spark on ECI大数据分析最佳实践文档版本：20200409（发布日期）文档版本：20200409 1

3Spark on ECI大数据分析文档版本信息文档版本信息文本信息属性内容文档名称 Spark on ECI大数据分析最佳实践文档编号 160 文档版本 V1.1 版本日期 2020-04-09 文档状态外部发布制作人明誉审阅人无文档变更记录版本编号日期作者审核人说明 V1.0 2020-03-31 明誉无创建 V1.1 2020-04-09 筱晖明誉文档工程师优化文档版本：20200409 I

4Spark on ECI大数据分析前言前言概述本实践结合阿里云容器服务 Kubernetes版（ACK）、弹性容器实例（ECI）、容器镜像服务（ACR）以及文件存储 HDFS等核心阿里云产品，为需要使用 Spark on Kubernetes 解决方案的用户提供计算资源弹性扩展、分布式应用隔离以及资源限制的实践参考。应用范围 ⚫ 需要使用 Spark on Kubernetes解决方案的用户 ⚫ 对 Spark大数据分析平台计算资源成本控制考虑的用户 ⚫ 需要有灵活可扩展计算平台资源弹性及管控的用户名词解释 ⚫ 文件存储 HDFS：阿里云文件存储 HDFS是面向阿里云 ECS实例及容器服务等计算资源的文件存储服务，允许用户像在 Hadoop分布式文件系统中管理和访问数据，无需对数据分析应用做任何修改，即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统，适用于对吞吐性能和延迟要求较高的大数据分析与机器学习的业务需求场景。 ⚫ ACK：容器服务 ACK（Alibaba Cloud Container Service for Kubernetes）提供高可性能可伸缩的容器应用管理服务，支持企业级 Kubernetes容器化应用的生命周期管理。容器服务 ACK简化集群的搭建和扩容等运维工作，整合阿里云虚拟化、存储、网络和安全能力，打造云端最佳的 Kubernetes容器化应用运行环境。 ⚫ 弹性容器实例 ECI：阿里云弹性容器实例(ECI)是免运维的 IaaS层容器组资源交付，提供安全的 Serverless容器运行服务，用户无需管理底层服务器，只需要提供打包好的 Docker镜像即可运行容器并只为容器实际运行消耗的资源付费。ECI可以与阿里云容器服务产品(ACK/ASK)无缝兼容，并且跟 Kubernetes的 Pod概念完全兼容。文档版本：20200409 III

5Spark on ECI大数据分析目录目录文档版本信息 ........................................................................................................................................................ I 法律声明 ............................................................................................................................................................... II 前言 ..................................................................................................................................................................... III 目录 ..................................................................................................................................................................... IV 最佳实践概述 ....................................................................................................................................................... V 前置条件 ............................................................................................................................................................... 1 方案背景 ............................................................................................................................................................... 2 1. 环境准备 ....................................................................................................................................................... 3 1.1. 创建容器服务 Kubernetes集群 ..................................................................................................... 3 1.2. 本地应用开发环境准备 ................................................................................................................. 3 1.3. 准备 HDFS数据源 .......................................................................................................................... 4 1.4. 安装 Apache Hadoop ...................................................................................................................... 4 2. 应用开发 ....................................................................................................................................................... 8 2.1. 数据源准备 .................................................................................................................................... 8 2.2. 创建镜像仓库 .............................................................................................................................. 11 2.3. 准备 Spark Base镜像 ................................................................................................................... 14 2.4. 准备 Spark应用镜像 .................................................................................................................... 15 3. Spark on Kubernetes实践方案对比 ............................................................................................................ 19 3.1. Spark on ACK方案 ........................................................................................................................ 19 3.2. Spark on ACK优势 ........................................................................................................................ 23 3.3. Spark on ACK+ECI方案 ................................................................................................................. 23 3.4. 小结 ............................................................................................................................................. 29 4. 总结 ............................................................................................................................................................. 30 文档版本：20200409 IV

6Spark on ECI大数据分析最佳实践概述最佳实践概述概述 Spark 作为主流的快速大数据分析处理平台技术，用户对其底层实际资源的管理和调度有更多灵活的需求， Kubernetes解决方案利用 Kubernetes原生的资源弹性、应用隔离与限制等特性结合 Spark提供了 Spark on Kubernetes解决方案，本实践使用阿里云容器服务、弹性容器实例、文件存储 HDFS等核心产品为用户提供了计算资源弹性扩展、计算资源成本可控的 Spark on Kubernetes解决方案实践参考。场景描述云原生和大数据时代的到来, 用户在拥抱云原生进行容器化改造的同时也专注于数据分析，希望能够将云原生容器化编排改造带来的计算资源弹性、计算资源成本优化、计算与存储分离、资源调度隔离等优势与大数据分析进行结合，因此可以将大数据分析与容器编排调度主流技术 Kubernetes相结合，同时结合阿里云提供的弹性容器实例组（ECI）的能力，进一步优化满足用户对于计算资源弹性和成本优化的需求。遇到的痛点： ⚫ 计算资源弹性能力不足，计算资源成本管控能力欠缺 ⚫ 集群资源调度能力和隔离能力不足 ⚫ 计算与存储无法分离，大数据量分析时出现数据存储资源瓶颈 ⚫ Spark submit方式提交分析作业参数支持有限等缺点方案架构和优势 ⚫ 方案架构文档版本：20200409 V

7Spark on ECI大数据分析最佳实践概述 ⚫ 方案优势 ˉ 计算引擎弹性扩缩容，兼顾资源弹性与计算资源成本优化。 ˉ 计算与存储分离架构，结合阿里云原生云存储产品，海量数据湖分析优势。 ˉ Kubernetes原生的调度性能优势，提升在大规模分析作业时的分析性能优势。 ˉ 集群资源隔离和按需分配。文档版本：20200409 VI

8Spark on ECI大数据分析前置条件前置条件为了顺利完成本实践，您需要提前完成以下准备工作： ⚫ 注册阿里云账号，并完成实名认证。您可以登录阿里云控制台，并前往实名认证页面（account.console.aliyun.com/v2/#/authc/home）查看是否已经完成实名认证。 ⚫ 阿里云账户余额大于 100 元。您可以登录阿里云控制台，并前往账户总览页面（expense.console.aliyun.com/#/account/home）查看账户余额。 ⚫ 本地具备 Java应用开发 IDE工具例如 IntelliJ IDEA 以及 Maven，同时具备一定的 Java应用开发能力。 ⚫ 本实践所有重要示例代码和命令行可以从如下 git地址获取： git@code.aliyun.com:best-practice/160.git 文档版本：20200409 1

Spark on ECI大数据分析

相关产品

相关推荐

探索阿里云产品，构建云上应用和服务

相关产品

相关推荐

探索阿里云产品，构建云上应用和服务

Spark on ECI大数据分析

相关产品

相关推荐

探索阿里云产品，构建云上应用和服务

相关产品

相关推荐

探索阿里云产品，构建云上应用和服务

温馨提示