Ctrl+F / Command+F 全文检索
客户案例

相关最佳实践
业务上云 |

传统企业、零售和游戏行业系统分级后单库单服系统云上搭建最佳实践,涉及大部分基础云产品。

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版 负载均衡 SLB CDN 云速搭
DevOps | 容器&微服务 |

使用云效完成容器应用自动化构建和持续部署

专有网络 VPC 负载均衡 SLB 容器服务 ACK 云效 云速搭
业务上云 |

使用云桌面和VPN网关产品快速构建远程办公环境,在云桌面可以访问企业IDC内的应用和资源

云服务器ECS NAT网关 VPN网关 智能接入网关 云桌面
容器&微服务 |

使用ACK上运行常规业务,业务突发波动时突增业务运行在ECI上/达到成本的最优控制

云数据库RDS MySQL 版 文件存储NAS 容器服务 ACK 云数据库 Redis 版 弹性容器实例 ECI 云速搭
数据分析 |

针对资讯聚合类业务场景,Step by Step介绍如何搭建实时数仓

专有网络 VPC 云服务器ECS 云数据库RDS MySQL 版 NAT网关 云原生数据仓库AnalyticDB MySQL版 云速搭
安全&合规 |

使用阿里云实现电商网站运营期间的安全防护,包括防爬风险管理、DDoS防御、风险管理产品的能力及操作

云数据库RDS MySQL 版 负载均衡 SLB DDoS防护 风险识别 爬虫风险管理
数据分析 |

微服务应用化过程的日志采集运维管理,解决用户微服务改造过程中日志采集处理分析痛点

云服务器ECS 云数据库RDS MySQL 版 文件存储NAS 容器服务 ACK 容器镜像服务 ACR

温馨提示

未登录用户仅可预览8页内容,请您前往登录后浏览更多企业上云最佳实践案例内容。企业账号建议生成子账号授权访问。

BpFile(id=274, bpId=82, name=云上prometheus监控运维, author=null, keyword=监控运维,Prometheus,Grafana,云监控, description=本实践主要介绍两种基于阿里云容器服务 Kubernetes集成部署 Prometheus 监控方案,Prometheus-Operator 和 ARMS Prometheus。, position=null, ossUrl=bp-ATD7YFTMDCVTRYCP.pdf, tags=null, level=null, tagList=null, products=null, productList=null, hotspot=null, oneClick=0, createTime=null, modifiedTime=null, timeConsuming=null, status=1, pdfDescription=

场景描述 Prometheus是一款面向云原生应用程序的开 源监控工具。本实践主要介绍两种基于阿里云 容器服务Kubernetes集成部署Prometheus 监控方案。Prometheus-Operator和ARMS Prometheus。 解决问题 1.Prometheus-Operator部署和运维 2.ARMSPrometheus部署和运维 产品列表 容器服务ACK 云服务器ECS 应用实时监控服务ARMS 云监控CMS

, templateId=null, freetry=null, visitTime=null, visitCount=null, video_url=null, buttonName=null, buttonUrl=null, targetId=null, partner=null, partnerUrl=null, partnerLogo=null)
1 云上 Prometheus监控运维最佳实践 场景描述 Prometheus架构 Prometheus是一款面向云原生应用程序的开 源监控工具。本实践主要介绍两种基于阿里云 容器服务 Kubernetes集成部署 Prometheus 监控方案。Prometheus-Operator和阿里云 Prometheus。 解决问题 1. Prometheus-Operator部署和运维 2. 阿里云 Prometheus部署和运维 产品列表 Prometheus-Operator VS 阿里云 Prometheus ⚫ 容器服务 ACK ⚫ 云服务器 ECS ⚫ 应用实时监控服务 ARMS ⚫ 云监控 CMS 最佳实践频道 阿里云最佳实践技术分享群
2云服务器 ECS(产品名称) 文档模板(手册名称)/文档版本信息 阿里云 云上Prometheus 监控运维最佳实践 文档版本:20210812(发布日期) 文档版本:20150122(发布日期) II
3云上 Prometheus监控运维 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 云上 Prometheus监控运维最佳实践 文档编号 082 文档版本 V2.2 版本日期 2021-8-12 文档状态 对外发布 制作人 毕役\阿瑟\七凌 审阅人 畅风\华颋\牧蓝 文档变更记录 版本编号 日期 作者 说明 V1.0 2019/08/08 毕役 创建 V1.1 2019/08/13 毕役 初稿完成 V1.2 2019/08/19 筱晖 文档优化 V1.3 2019/08/19 毕役 添加代码库 V1.4 2019/10/09 毕役 添加 HPA V1.5 2019/11/17 毕役 添加 CMS模板 V1.6 2019/12/2 毕役 修改默认告警 V1.7 2019/12/17 毕役 添加存储配置 V1.8 2020/1/21 毕役 增加概览页 V1.9 2020/2/4 毕役 增加 ARMS 监控,去掉托管版 TSDB4Prometheus V2.0 2020/2/21 毕役 增加 Grafana数据未持久化说明 V2.1 2020/3/23 毕役 增加 Grafana数据持久化配置 V2.2 2021/4/26 毕役 最新版本迭代 V2.3 2021/8/12 七凌 内容更新 文档版本:20210812 I
4云上 Prometheus监控运维 前言 前言 概述 Prometheus 是一款面向云原生应用程序的开源监控工具。本实践主要介绍两种基 于阿里云容器服务 Kubernetes集成部署 Prometheus监控方案。 ⚫ 方案一:通过 Operator部署 Prometheus 上图中的 Operator 作为控制器会去创建 Prometheus、 ServiceMonitor、 PodMonitor 、 AlertManager 以及 PrometheusRule 等 多 个 CRD (CustomResourceDefinitions)资源。 1. Prometheus:作为 Prometheus Server存在。 2. ServiceMonitor:以声明方式指定应如何监视服务组。Operator根据定义自 动生成 Prometheus采集配置。实际上就是 exporter的各种抽象,提供 metrics 数据接口。 Prometheus就是通过 ServiceMonitor提供的 metrics数据接口去 pull 数据。 3. PodMonitor:以声明方式指定应如何监视 Pod组。Operator根据定义自动生 成 Prometheus采集配置。 4. AlertManager:作为 AlertManager存在。 文档版本:20210812 III
5云上 Prometheus监控运维 前言 5. PrometheusRule:Prometheus实例使用的报警规则文件。 ⚫ 方案二:ARMS控制台部署 Prometheus 仅需要在 ACK 集群中部署采集点阿里云 Prometheus Collector,其余部分如 Prometheus Server/Alertmanager/Grafana都是基于公共云托管,按照租户进行 隔离。 应用范围 适用于部署 Prometheus实施运维监控的场景。 ⚫ 方案一: 以 Operator 的形式 在 ACK 集群内一键部署 Prometheus/Grafana/Alertmanager/Pushgateway,运维人员可以像操作 Kubernetes原生资源一样做配置。基于熟悉的 Kubernetes标签查询自动生成监 视目标配置,无需学习 Prometheus特定的配置语言。缺点是用户环境资源开销较 文档版本:20210812 IV
6云上 Prometheus监控运维 前言 大,需要运维众多组件,成本较高。 ⚫ 方案二:用户少运维 5+组件,资源开销是开源的 1/4,轻量级运维或免运维,数 据 量 无 上 限 , 完 全 兼 容 开 源 生 态 。 更 多 优 势 请 参 考 https://help.aliyun.com/document_detail/122123.html 约定 本示例相关的代码文件参考附录 5.2 名词解释 ⚫ ACK:容器服务 ACK 提供高性能可伸缩的容器应用管理服务,支持企业级 Kubernetes 容器化应用的生命周期管理。容器服务 ACK 简化集群的搭建和扩 容等运维工作,整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳的 Kubernetes 容器化应用运行环境。容器服务是全球首批通过 Kubernetes一致 性认证的服务平台,可以为您提供专业的容器支持和服务。 详细信息,请参考 https://help.aliyun.com/document_detail/86737.html ⚫ 云速搭 CADT:是一款为上云应用提供自助式云架构管理的产品,显著地降低应用 云上管理的难度和时间成本。本产品提供丰富的预制应用架构模板,同时也支持 自助拖拽方式定义应用云上架构;支持较多阿里云服务的配置和管理。用户可以 方便的对云上架构方案的成本、部署、运维、回收进行全生命周期的管理。详细信 息:https://www.aliyun.com/product/developerservices/cadt ⚫ 时序时空数据库:时序时空数据库产品系列是是广泛应用于物联网(IoT)设备 监控系统 ,企业能源管理系统(EMS),生产安全监控系统,电力检测系统等行 业场景的专业数据库产品,提供百万高效写入,高压缩比低成本存储、预降采样、 插值、多维聚合计算,查询结果可视化功能;解决由于设备采集点数量巨大,数 据采集频率高,造成的存储成本高,写入和查询分析效率低的问题。目前提供: 时序数据库 TSDB ,时序数据库 InfluxDB®,时序数据库 Promethues® 和时 空数据库 4个产品类型。 详细信息,请参考 https://help.aliyun.com/product/54825.html 文档版本:20210812 V
7云上 Prometheus监控运维 目录 目录 文档版本信息 .............................................................................................................................................................. I 法律声明 ..................................................................................................................................................................... II 前言 ............................................................................................................................................................................ III 目录 ............................................................................................................................................................................ VI 最佳实践概述 ............................................................................................................................................................. 1 前置条件 ..................................................................................................................................................................... 2 1. Prometheus Operator部署 ................................................................................................................................. 3 1.1. 概述 ..................................................................................................................................................... 3 1.2. 使用 CADT创建 ACK集群 .................................................................................................................. 3 1.3. 部署 Prometheus监控 ........................................................................................................................ 6 1.3.1. 创建 Prometheus监控应用 ........................................................................................................ 6 1.3.2. 存储配置 ..................................................................................................................................... 8 1.3.2.1. TSDB存储 ............................................................................................................................ 8 1.3.2.2. 云盘存储 ............................................................................................................................. 8 1.3.3. 添加 Ingress路由 ...................................................................................................................... 12 1.3.4. 查看 Prometheus采集任务 ...................................................................................................... 16 1.3.5. 查看 Grafana监控数据 ............................................................................................................. 18 1.3.6. 查看 Alertmanager告警 ........................................................................................................... 20 1.3.7. 安装 node-exporter & pushgateway ......................................................................................... 20 1.3.8. 设置钉钉告警 ........................................................................................................................... 21 1.3.9. 告警配置 ................................................................................................................................... 26 1.3.9.1. 修改默认告警 Source........................................................................................................ 26 1.3.9.2. 修改默认告警规则 ............................................................................................................ 27 1.3.9.3. 告警抑制 ........................................................................................................................... 27 1.3.10. 设置邮箱告警 ........................................................................................................................... 28 1.3.11. 添加自定义采集任务 ............................................................................................................... 31 1.3.12. 添加自定义告警规则 ............................................................................................................... 33 1.3.13. 自定义指标伸缩 Pod ................................................................................................................ 36 1.3.13.1. 部署 Prometheus adapter ............................................................................................... 36 1.3.13.2. 部署测试应用 & HPA ..................................................................................................... 39 1.3.13.3. 验证 HPA .......................................................................................................................... 43 2. 阿里云 Prometheus部署 .................................................................................................................................. 45 2.1. 概述 ................................................................................................................................................... 45 2.2. 创建 ACK集群 ................................................................................................................................... 45 2.3. 创建容器镜像仓库 ........................................................................................................................... 45 2.4. 安装 Prometheus插件 ...................................................................................................................... 48 2.5. 查看 Prometheus监控指标 ............................................................................................................. 50 2.6. 配置 Prometheus监控任务 .............................................................................................................. 53 文档版本:20210812 VI
8云上 Prometheus监控运维 目录 2.6.1. 通过埋点暴露 JVM数据 ........................................................................................................... 53 2.6.2. 将应用部署至阿里云容器服务 K8s集群 ................................................................................ 54 2.6.3. 配置 阿里云 Prometheus 监控以采集 JVM 数据 ................................................................ 60 2.6.4. 通过 Grafana 大盘展示 JVM 数据 ........................................................................................ 62 2.6.5. 创建 Prometheus 监控报警 .................................................................................................... 64 2.6.6. 创建报警的说明和建议............................................................................................................ 67 2.6.7. 其他监控任务配置 ................................................................................................................... 69 3. 阿里云 Prometheus其他应用 .......................................................................................................................... 70 3.1. 自建 K8s集群部署阿里云 Prometheus ........................................................................................... 70 3.2. 阿里云 Prometheus作为远程存储 .................................................................................................. 70 3.3. 本地 Grafana集成阿里云 Prometheus ............................................................................................ 70 3.4. Prometheus服务收费说明 ............................................................................................................... 70 4. 自建 Grafana集成云监控 ................................................................................................................................. 71 4.1. 安装 Grafana ...................................................................................................................................... 71 4.2. 配置云监控 CMS数据源 .................................................................................................................. 72 4.3. 配置 Prometheus数据源 .................................................................................................................. 80 5. 附录 ................................................................................................................................................................... 84 5.1. 启用邮箱授权码 ............................................................................................................................... 84 5.2. 代码库地址 ....................................................................................................................................... 86 5.3. 官方文档 ........................................................................................................................................... 86 文档版本:20210812 VII