BpFile(id=349, bpId=221, name=全链路压测构建高可用应用, author=null, keyword=容器应用,全链路压测pts,架构感知,流量控制, description=通过阿里云的PTS+AHAS+ARMS 的产品组合,可以对如电商大促、明星直播、在线教育等不同场景都能保证高可用的能力,可以方便的做到大促容量评估、性能优化、系统防护等能力,大体量的客户还可以通过PTS 做线上环境的全链路压测,让线上环境直接提前经历真实的高峰业务。
, position=null, ossUrl=bp-X8N66TVJQA0H9D9L.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=1, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=
电商大促、明星直播、在线教育等大量场景,用户访问量会在一定时间段剧增,或者在业务上云过程中需要高可用体系评估客户系统在云环境下面的性能表现,判断是否符合客户的预期。
通过阿里云的PTS+AHAS+ARMS 的产品组合,可以对上述不同场景都能保证高可用的能力,可以方便的做到大促容量评估、性能优化、系统防护等能力,大体量的客户还可以通过PTS 做线上环境的全链路压测,让线上环境直接提前经历真实的高峰业务。
, templateId=X5G9Q5SOFLUU64K3, freetry=, visitTime=null, visitCount=null, video_url=, buttonName=null, buttonUrl=null, targetId=X5G9Q5SOFLUU64K3, partner=, partnerUrl=, partnerLogo=, cooperation=, cooperationList=null)
1
全链路压测构建高可用应用 最佳实践
业务架构 场景描述
电商大促、明星直播、在线教育等大量场景,
用户访问量会在一定时间段剧增,或者在业务
上云过程中需要高可用体系评估客户系统在
云环境下面的性能表现,判断是否符合客户的
预期。
通过阿里云的 PTS+AHAS+ARMS 的产品组
合,可以对上述不同场景都能保证高可用的能
力,可以方便的做到大促容量评估、性能优化、
系统防护等能力,大体量的客户还可以通过
PTS 做线上环境的全链路压测,让线上环境直
接提前经历真实的高峰业务。
方案优势
1. 对应用零侵入,接入成本低;
2. 大幅度减少运维人力投入,通过精确的容
产品列表
量评估避免不合理的资源投入;
3. 极大提高系统的可用性,建立全方位立体
容器服务 Kubernetes版(ACK)
化的监控体系;
性能测试 PTS
4. 快速定位性能瓶颈,从人肉运维升级为智
云数据库服务 RDS
能运维,从被动变为主动。
微服务引擎 MSE
应用高可用服务 AHAS
应用实时监控服务 ARMS
解决问题
线上压测难
最佳实践频道 阿里云最佳实践技术分享群
系统保护难
定位问题难
统一监控难
文档版本:20200401(发布日期)
2文档模板(手册名称)/Error! Use the Home tab to apply 标
云服务器 ECS(产品名称) 题 to the text that you want to appear here.
阿里云
全链路压测构建高可用应用
最佳实践
文档版本:20210616(发布日期)
文档版本:20210616 1
3全链路压测构建高可用应用最佳实践 文档版本信息
文档版本信息
文本信息
属性 内容
文档名称 全链路压测构建高可用应用最佳实践
文档编号 221
文档版本 V1.1
版本日期 2021-06-16
文档状态 外部发布
制作人 川知
审阅人 -
文档变更记录
版本编号 日期 作者 审核人 说明
V1.0 2021-06-16 川知、神鱼 - 创建
文档版本:20210616 I
4全链路压测构建高可用应用最佳实践 前言
前言
概述
通过阿里云的 PTS+AHAS+ARMS 的产品组合,可以对上述不同场景都能保证高可
用的能力,可以方便的做到大促容量评估、性能优化、系统防护等能力,大体量的客
户还可以通过 PTS 做线上环境的全链路压测,让线上环境直接提前经历真实的高峰
业务。
应用范围
业务上云,对系统进行评估,包括容量、性能以及系统防护等能力。
需要快速诊断分布式微服务应用架构性能瓶颈,提升开发诊断效率的用户。
大促前进行压测,提前做好故障预案等。
名词解释
ACK:容器服务 ACK(Alibaba Cloud Container Service for Kubernetes)提供
高可性能可伸缩的容器应用管理服务,支持企业级 Kubernetes容器化应用的生
命周期管理。容器服务 ACK简化集群的搭建和扩容等运维工作,整合阿里云虚
拟化、存储、网络和安全能力,打造云端最佳的 Kubernetes容器化应用运行环
境。详见:https://www.aliyun.com/product/kubernetes
PTS:性能测试服务(Performance Testing Service,简称 PTS)是具备强大的
分布式压测能力的 SaaS压测平台,可模拟海量用户的真实业务场景,全方位验
证业务站点的性能、容量和稳定性。PTS的目标是将性能压测本身的工作持续简
化,用户可以通过较低的人力和资源成本,构造出最接近真实业务场景的复杂交
互式流量,快速衡量系统的业务性能状况,为性能问题定位、容量最佳配比、全
链路压测的流量构造提供最好的帮助。详见: https://www.aliyun.com/product/pts
AHAS:应用高可用服务(Application High Availability Service)专注于提高应
用及业务的高可用能力,主要提供应用架构探测感知,故障注入式高可用能力评
测和流控降级高可用防护三大核心能力,通过各工具模块可以快速低成本的在营
销活动场景、业务核心场景全面提升业务稳定性和韧性。详见:
https://www.aliyun.com/product/ahas
ARMS:应用实时监控服务 (Application Real-Time Monitoring Service)是一款
应用性能管理产品,包含前端监控,应用监控和 Prometheus监控三大子产品,
文档版本:20210616 III
5全链路压测构建高可用应用最佳实践 前言
涵盖了浏览器、小程序、APP、分布式应用和容器环境等性能管理,能帮助你实
现全栈式的性能监控和端到端的全链路追踪诊断,让应用运维更加轻松高效。详
见:https://www.aliyun.com/product/arms
MSE:微服务引擎(Micro Service Engine)是一个面向业界主流开源微服务生态的
一站式微服务平台, 帮助微服务用户更稳定、更便捷、更低成本的使用开源微
服务技术构建微服务体系。提供注册中心、配置中心全托管(兼容
Nacos/ZooKeeper/Eureka)、网关(兼容 Zuul/Kong/Spring Cloud Gateway)和无
侵入的开源增强服务治理能力。详见:
https://www.aliyun.com/product/aliware/mse
文档版本:20210616 IV
6全链路压测构建高可用应用最佳实践 目录
目录
文档版本信息 .................................................................... I
法律声明 ....................................................................... II
前言 .......................................................................... III
目录 ............................................................................ V
最佳实践概述 ................................................................... VI
前置条件 ........................................................................ 1
1. 基础环境搭建 ................................................................ 2
1.1. 通过CADT创建资源 .................................................... 2
1.2. 创建数据库 ........................................................... 3
1.3. ACK接入 AHAS ......................................................... 5
1.4. ACK接入 ARMS ......................................................... 8
1.5. 获取NACOS访问地址 .................................................. 10
1.6. 配置redis数据库 .................................................... 11
2. 应用部署 ................................................................... 13
2.1. 应用架构 ............................................................ 13
2.2. 应用部署 ............................................................ 13
3. 架构感知 ................................................................... 18
3.1. 应用视图 ............................................................ 18
3.2. Kubernetes监控视图 .................................................. 19
3.3. 架构巡检 ............................................................ 21
4. PTS压测 .................................................................... 23
4.1. 配置PTS ............................................................. 23
4.2. 第一次压测 .......................................................... 30
4.3. 服务扩容 ............................................................ 33
4.4. 第二次压测 .......................................................... 34
5. 流量控制 ................................................................... 36
5.1. 环境整理 ............................................................ 36
5.2. 第一次压测 .......................................................... 38
5.3. 配置流控 ............................................................ 41
5.4. 第二次压测 .......................................................... 43
文档版本:20210616 V
7全链路压测构建高可用应用最佳实践 最佳实践概述
最佳实践概述
概述
通过阿里云的 PTS+AHAS的产品组合,可以对上述不同场景都能保证高可用的能力,
可以方便的做到大促容量评估、性能优化、系统防护等能力,大体量的客户还可以通
过 PTS 做线上环境的全链路压测,让线上环境直接提前经历真实的高峰业务。
场景描述
电商大促、明星直播、在线教育等大量场景,用户访问量会在一定时间段剧增,或者在业务
上云过程中需要高可用体系评估客户系统在云环境下面的性能表现,判断是否符合客户的预
期。
遇到的痛点:
线上压测难:难以做到无侵入的对系统进行全链路压测改造,无法高效的模拟真
实线上流量对系统进行压测
系统保护难:在海量用户流量的冲击下,随时有可能超出后端服务所能够承受的
极限,导致系统崩溃,甚至完全没有办法恢复。无法建立对系统抵御生产环境中
失控条件的能力以及信心,难以做到有效的故障演练计划
定位问题难:微服务化后,应用规模大增,复杂的系统存在数十个应用,调用跨
越了多个应用实例进程,没法高效地串联起来还原调用链。应用的问题不能快速发
现,不能快速定位业务 RT超长,线程问题,SQL问题,异常问题。
统一监控难:应用用运行的 IAAS层健康状况没法实时知道,各种机器资源, 网
络资源,磁盘资源得不到有效的观测与告警。应用用运行的 JVM状况没法实时
知道,内存占用率,GC情况得不到有效的观测与告警。
方案架构和优势
方案架构
文档版本:20210616 VI
8全链路压测构建高可用应用最佳实践 最佳实践概述
方案优势
ᅳ 对应用零侵入,接入成本低;
ᅳ 大幅度减少运维人力投入,通过精确的容量评估避免不合理的资源投入;
ᅳ 极大提高系统的可用性,建立全方位立体化的监控体系;
ᅳ 快速定位性能瓶颈,从人肉运维升级为智能运维,从被动变为主动。
文档版本:20210616 VII