Ctrl+F / Command+F 全文检索
客户案例

相关最佳实践
业务上云 |

传统企业、零售和游戏行业系统分级后单库单服系统云上搭建最佳实践,涉及大部分基础云产品。

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版 负载均衡 SLB CDN 云速搭
业务上云 |

使用云桌面和VPN网关产品快速构建远程办公环境,在云桌面可以访问企业IDC内的应用和资源

云服务器ECS NAT网关 VPN网关 智能接入网关 云桌面
DevOps | 容器&微服务 |

使用云效完成容器应用自动化构建和持续部署

专有网络 VPC 负载均衡 SLB 容器服务 ACK 云效 云速搭
安全&合规 |

使用阿里云实现电商网站运营期间的安全防护,包括防爬风险管理、DDoS防御、风险管理产品的能力及操作

云数据库RDS MySQL 版 负载均衡 SLB DDoS防护 风险识别 爬虫风险管理
数据分析 |

Spark和云原生结合提供计算与存储分离的高性价比大数据分析

专有网络 VPC 对象存储 OSS 容器服务 ACK 弹性容器实例 ECI 文件存储HDFS
容器&微服务 |

使用ACK上运行常规业务,业务突发波动时突增业务运行在ECI上/达到成本的最优控制

云数据库RDS MySQL 版 文件存储NAS 容器服务 ACK 云数据库 Redis 版 弹性容器实例 ECI 云速搭
数据分析 |

针对资讯聚合类业务场景,Step by Step介绍如何搭建实时数仓

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版 NAT网关 云原生数据仓库AnalyticDB MySQL版
数据分析 |

对网站用户行为的每一个事件对应的位置进行埋点通过SDK上报/汇总数据进行分析以推动产品优化及指导运营

云服务器ECS 云数据库RDS MySQL 版 日志服务(SLS) DataWorks Terraform
数据分析 | 数据迁移 |

介绍如何将自建Hadoop集群及生态组件迁移到阿里云MaxCompute大数据服务。

云服务器ECS DataWorks 大数据计算服务 MaxCompute 云数据库 HBase 版 数据总线 云速搭

温馨提示

未登录用户仅可预览8页内容,请您前往登录后浏览更多企业上云最佳实践案例内容。企业账号建议生成子账号授权访问。

BpFile(id=184, bpId=160, name=Spark on ECI大数据分析, author=null, keyword=大数据,云原生,spark,容器服务Kubernetes,弹性容器实例, description=Spark和云原生结合提供计算与存储分离的高性价比大数据分析, position=null, ossUrl=bp-6K11U60Z6BEJ91Z3.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=0, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=场景描述 方案优势 1.计算引擎弹性扩缩容,兼顾资源弹性与计 算资源成本优化。 2.计算与存储分离架构,结合阿里云原生云 存储产品,海量数据湖优势。 3.Kubernetes原生的调度性能优势,提升在 大规模分析作业时的分析性能优势分。 4.集群资源隔离和按需分配。 解决问题 1.计算资源弹性能力不足,计算资源成本管 控能力欠缺. 2.集群资源调度能力和隔离能力不足。 3.计算与存储无法分离,大数据量分析时出 现数据存储资源瓶颈。 4.Spark submit方式提交分析作业参数支持 有限等缺点。 产品列表 ⚫容器服务Kubernetes版(ACK) ⚫弹性容器实例(ECI) ⚫文件存储HDFS ⚫对象存储OSS ⚫专有网络VPC ⚫容器镜像服务ACR , templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null)
1 Spark on ECI大数据分析 最佳实践 业务架构 场景描述 方案优势 1. 计算引擎弹性扩缩容,兼顾资源弹性与计 算资源成本优化。 2. 计算与存储分离架构,结合阿里云原生云 存储产品,海量数据湖优势。 3. Kubernetes原生的调度性能优势,提升在 大规模分析作业时的分析性能优势分。 4. 集群资源隔离和按需分配。 解决问题 产品列表 1. 计算资源弹性能力不足,计算资源成本管 ⚫ 容器服务 Kubernetes版(ACK) 控能力欠缺. ⚫ 弹性容器实例(ECI) 2. 集群资源调度能力和隔离能力不足。 ⚫ 文件存储 HDFS 3. 计算与存储无法分离,大数据量分析时出 ⚫ 对象存储 OSS 现数据存储资源瓶颈。 ⚫ 专有网络 VPC 4. Spark submit方式提交分析作业参数支持 ⚫ 容器镜像服务 ACR 有限等缺点。 文档版本:20200401(发布日期)
2文档模板(手册名称)/Error! Use the Home tab to apply 标 云服务器 ECS(产品名称) 题 to the text that you want to appear here. 阿里云 企业上云实践 Spark on ECI大数据分析 最佳实践 文档版本:20200409(发布日期) 文档版本:20200409 1
3Spark on ECI大数据分析 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 Spark on ECI大数据分析最佳实践 文档编号 160 文档版本 V1.1 版本日期 2020-04-09 文档状态 外部发布 制作人 明誉 审阅人 无 文档变更记录 版本编号 日期 作者 审核人 说明 V1.0 2020-03-31 明誉 无 创建 V1.1 2020-04-09 筱晖 明誉 文档工程师优化 文档版本:20200409 I
4Spark on ECI大数据分析 前言 前言 概述 本实践结合阿里云容器服务 Kubernetes版(ACK)、弹性容器实例(ECI)、容器镜像 服务(ACR)以及文件存储 HDFS等核心阿里云产品,为需要使用 Spark on Kubernetes 解决方案的用户提供计算资源弹性扩展、分布式应用隔离以及资源限制的实践参考。 应用范围 ⚫ 需要使用 Spark on Kubernetes解决方案的用户 ⚫ 对 Spark大数据分析平台计算资源成本控制考虑的用户 ⚫ 需要有灵活可扩展计算平台资源弹性及管控的用户 名词解释 ⚫ 文件存储 HDFS:阿里云文件存储 HDFS是面向阿里云 ECS实例及容器服务等计 算资源的文件存储服务,允许用户像在 Hadoop分布式文件系统中管理和访问数 据,无需对数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一 命名空间、多共享、高可靠和高可用等特性的分布式文件系统,适用于对吞吐性 能和延迟要求较高的大数据分析与机器学习的业务需求场景。 ⚫ ACK:容器服务 ACK(Alibaba Cloud Container Service for Kubernetes)提供高 可性能可伸缩的容器应用管理服务,支持企业级 Kubernetes容器化应用的生命周 期管理。容器服务 ACK简化集群的搭建和扩容等运维工作,整合阿里云虚拟化、 存储、网络和安全能力,打造云端最佳的 Kubernetes容器化应用运行环境。 ⚫ 弹性容器实例 ECI:阿里云弹性容器实例(ECI)是免运维的 IaaS层容器组资源交付, 提供安全的 Serverless容器运行服务,用户无需管理底层服务器,只需要提供打 包好的 Docker镜像即可运行容器并只为容器实际运行消耗的资源付费。ECI可以 与阿里云容器服务产品(ACK/ASK)无缝兼容,并且跟 Kubernetes的 Pod概念完 全兼容。 文档版本:20200409 III
5Spark on ECI大数据分析 目录 目录 文档版本信息 ........................................................................................................................................................ I 法律声明 ............................................................................................................................................................... II 前言 ..................................................................................................................................................................... III 目录 ..................................................................................................................................................................... IV 最佳实践概述 ....................................................................................................................................................... V 前置条件 ............................................................................................................................................................... 1 方案背景 ............................................................................................................................................................... 2 1. 环境准备 ....................................................................................................................................................... 3 1.1. 创建容器服务 Kubernetes集群 ..................................................................................................... 3 1.2. 本地应用开发环境准备 ................................................................................................................. 3 1.3. 准备 HDFS数据源 .......................................................................................................................... 4 1.4. 安装 Apache Hadoop ...................................................................................................................... 4 2. 应用开发 ....................................................................................................................................................... 8 2.1. 数据源准备 .................................................................................................................................... 8 2.2. 创建镜像仓库 .............................................................................................................................. 11 2.3. 准备 Spark Base镜像 ................................................................................................................... 14 2.4. 准备 Spark应用镜像 .................................................................................................................... 15 3. Spark on Kubernetes实践方案对比 ............................................................................................................ 19 3.1. Spark on ACK方案 ........................................................................................................................ 19 3.2. Spark on ACK优势 ........................................................................................................................ 23 3.3. Spark on ACK+ECI方案 ................................................................................................................. 23 3.4. 小结 ............................................................................................................................................. 29 4. 总结 ............................................................................................................................................................. 30 文档版本:20200409 IV
6Spark on ECI大数据分析 最佳实践概述 最佳实践概述 概述 Spark 作为主流的快速大数据分析处理平台技术,用户对其底层实际资源的管理和调 度有更多灵活的需求, Kubernetes解决方案利用 Kubernetes原生的资源弹性、应用 隔离与限制等特性结合 Spark提供了 Spark on Kubernetes解决方案,本实践使用阿 里云容器服务、弹性容器实例、文件存储 HDFS等核心产品为用户提供了计算资源弹 性扩展、计算资源成本可控的 Spark on Kubernetes解决方案实践参考。 场景描述 云原生和大数据时代的到来, 用户在拥抱云原生进行容器化改造的同时也专注于数据 分析,希望能够将云原生容器化编排改造带来的计算资源弹性、计算资源成本优化、 计算与存储分离、资源调度隔离等优势与大数据分析进行结合,因此可以将大数据分 析与容器编排调度主流技术 Kubernetes相结合,同时结合阿里云提供的弹性容器实例 组(ECI)的能力,进一步优化满足用户对于计算资源弹性和成本优化的需求。 遇到的痛点: ⚫ 计算资源弹性能力不足,计算资源成本管控能力欠缺 ⚫ 集群资源调度能力和隔离能力不足 ⚫ 计算与存储无法分离,大数据量分析时出现数据存储资源瓶颈 ⚫ Spark submit方式提交分析作业参数支持有限等缺点 方案架构和优势 ⚫ 方案架构 文档版本:20200409 V
7Spark on ECI大数据分析 最佳实践概述 ⚫ 方案优势 ˉ 计算引擎弹性扩缩容,兼顾资源弹性与计算资源成本优化。 ˉ 计算与存储分离架构,结合阿里云原生云存储产品,海量数据湖分析优势。 ˉ Kubernetes原生的调度性能优势,提升在大规模分析作业时的分析性能优势。 ˉ 集群资源隔离和按需分配。 文档版本:20200409 VI
8Spark on ECI大数据分析 前置条件 前置条件 为了顺利完成本实践,您需要提前完成以下准备工作: ⚫ 注册阿里云账号,并完成实名认证。您可以登录阿里云控制台,并前往实名认证 页面(account.console.aliyun.com/v2/#/authc/home)查看是否已经完成实名认 证。 ⚫ 阿里云账户余额大于 100 元。您可以登录阿里云控制台,并前往账户总览页面 (expense.console.aliyun.com/#/account/home)查看账户余额。 ⚫ 本地具备 Java应用开发 IDE工具例如 IntelliJ IDEA 以及 Maven,同时具备一定 的 Java应用开发能力。 ⚫ 本实践所有重要示例代码和命令行可以从如下 git地址获取: git@code.aliyun.com:best-practice/160.git 文档版本:20200409 1