从瓶颈破局到平台化治理——互联网公司监控平台架构演进全历程
在互联网业务高速扩张、多云部署、资产指数级增长的背景下,监控平台是保障服务稳定性的核心基建。本文完整复盘某大型互联网公司监控平台2019-2021年的演进之路,从解决老旧监控性能瓶颈,到跨云分布式监控落地,再到云原生平台化治理,呈现监控体系从0到1搭建→规模化扩展→平台化治理的完整蜕变。
演进总览:三年三大步,锚定核心目标
监控平台的三年演进,始终围绕业务增长、多云异构、故障自愈、易用高效四大核心诉求,分三阶段完成蜕变:
- 2019年(破局):替换Zabbix+MySQL老旧架构,完成监控平台0-1落地
- 2020年(扩张):跨云整合、全链路监控、自建拨测,补齐用户侧监控短板
- 2021年(治理):云原生改造、平台化闭环、易用性升级,实现监控全生命周期管理
2019年:破局之年——监控平台0-1落地,解决核心瓶颈
1. 核心痛点
- 业务监控数据百万级上报,Zabbix+MySQL分库分表达性能瓶颈,监控告警濒临失效
- 云厂商数据库监控API存在数据丢帧,无法适配Prometheus实时拉取模式
- 业务侧接入监控SDK学习成本高,资产激增无统一分类标准
- 原有架构无法支撑K8s集群监控,跟不上容器化转型趋势
核心解决方案
- 技术替换:引入Prometheus替代Zabbix,自研业务Exporter承接监控上报
- 数据兼容:用InfluxDB+Grafana处理云厂商DB监控数据,修复API数据丢帧问题
- 日志支撑:引入ELK体系满足业务统计报表需求
- 多读扩展:接入Thanos解决监控数据多读场景,Prometheus专注采集与告警
- 服务发现:用Consul实现资源注册与信息读取
2019年监控平台核心架构
graph TD
%% 采集阶段
A[云厂商API] --> B[云API采集工具] --> C[InfluxDB]
D[业务/主机Exporter] --> E[Prometheus]
F[Consul] --> E[资源注册/服务发现]
%% 数据处理
E --> G[Thanos Sidecar] --> H[S3对象存储]
C --> I[Grafana]
E --> I
%% 事件产生
E --> J[告警推送] --> K[企业IM]
I --> J阶段遗留问题
- 云厂商DB监控告警回迁Prometheus周期长
- 架构仅支撑400+资产,资产爆发后周报表性能极差
- 多技术栈并行,维护成本居高不下
2020年:扩张之年——跨云分布式+全链路能力补齐
核心痛点
- 业务故障根因分析困难,原有日志体系排查效率极低
- 多云厂商资源无内网专线,无法实现统一监控
- 用户侧最后一公里监控空白,第三方拨测服务成本过高
- 告警渠道切换,原有模板无法复用,告警触达效率低
核心解决方案
- 全链路监控:引入链路追踪系统、轻量日志系统,辅助故障定位
- 跨云整合:基于Mesh技术栈实现公网跨地域分布式监控,Ansible统一节点管理
- 监控补齐:自建黑盒拨测系统,替代高成本第三方服务,覆盖URL/证书/网络质量监控
- 告警自研:打造告警中枢系统,对接CMDB实现定向推送,适配企业IM/短信
2020年监控平台核心架构
graph TD
%% 采集升级
A[云厂商API] --> B[云API采集工具] --> C[InfluxDB]
D[云Exporter/Kafka Exporter] --> E[Prometheus]
F[Consul] --> E
%% 数据处理
E --> G[Thanos Sidecar] --> H[S3对象存储]
E --> I[Thanos Query/Rule] --> J[集群统计事件]
%% 告警中枢
E --> K[自研告警系统] --> L[企业IM/短信]
C --> M[Grafana] --> K跨地域Mesh分布式架构
graph LR
%% 多地域拨测/监控节点
N1[云平台北京节点] --> P[59080 Mesh端口]
N2[云平台广州节点] --> P
N3[云平台新加坡节点] --> P
N4[云平台上海节点] --> P
P --> Q[Prometheus集群]
Q --> R[Thanos全局汇聚]阶段遗留问题
- 链路追踪成本与业务价值不匹配,投入产出失衡
- 无分布式管理系统,Mesh架构复杂度提升
- 跳板机升级导致Ansible统一管理失效
- 多云厂商适配消耗大量人力
2021年:治理之年——云原生平台化,实现监控闭环
核心目标
从分散运维转向平台化管理,完成云原生改造,提升监控覆盖率、告警治理效率、用户易用性。
核心建设内容
- 告警闭环:开发告警静默、统计分析、策略管理、路由分发系统
- 服务发现:对接CMDB/CICD,自动注册资源,主机监控覆盖率达90.8%
- 云原生改造:全量迁移至K8s集群,基于HPA实现弹性伸缩
- 性能优化:Thanos Store加缓存、LRU策略、分维度索引,提升查询性能
- 易用升级:搭建WEB可视化后台,支持手机端告警抑制、阈值可调
2021年平台化监控架构
graph TD
%% 采集层
A[Exporter/Sidecar] --> B[Prometheus]
C[CMDB系统] --> D[服务发现注册] --> B
%% 数据层
B --> E[Thanos集群] --> F[S3对象存储+缓存]
E --> G[Grafana/WEB UI]
%% 告警中枢(邮局)
B --> H[Alertmanager] --> I[自研告警平台]
I --> J[告警抑制/路由/策略]
J --> K[企业IM/短信/个人订阅]云原生K8s集群架构
graph TD
A[K8s集群] --> B[Prometheus]
B --> C[Thanos Sidecar] --> D[S3对象存储]
B --> E[Thanos Query]
E --> F[Thanos Store] --> D
E --> G[Thanos Compact]
F --> H[Grafana Frontend]
%% 弹性能力
B --> I[HPA弹性伸缩]
F --> J[LRU缓存/60分钟数据缓存]阶段核心成果
- 资源监控覆盖率逼近100%,自动发现无需手动配置
- 告警处理效率大幅提升,支持手机端静默、阈值可视化调整
- 云原生架构支撑千级以上资产,彻底解决性能瓶颈
- 监控全流程平台化,降低SRE日常运维成本
核心技术演进盘点
| 维度 | 2019年(初始) | 2020年(扩展) | 2021年(平台化) |
|---|---|---|---|
| 监控引擎 | Zabbix+MySQL | Prometheus+Thanos | Prometheus+Thanos+K8s |
| 部署架构 | 单机房单机 | 跨云Mesh分布式 | 云原生容器化 |
| 数据存储 | 单机MySQL分表 | TSDB+S3对象存储 | 缓存+分维度索引+对象存储 |
| 告警体系 | 零散推送 | 自研告警中枢 | 告警闭环+策略治理+可视化 |
| 监控能力 | 基础指标监控 | 全链路+拨测+日志 | 全场景+自动化+平台化 |
演进价值与总结
- 破性能瓶颈:彻底解决老旧监控架构无法支撑业务增长的核心问题
- 补监控短板:自建拨测补齐用户侧最后一公里监控,从被动报障转为主动发现
- 降成本提效:替代高成本第三方服务,自研体系适配业务定制化需求
- 云原生升级:K8s+平台化实现监控体系可扩展、易维护、易使用
- 全链路闭环:指标+日志+链路+拨测融合,形成完整的稳定性保障体系
这套监控平台的演进,是互联网公司业务驱动技术、技术支撑业务的典型实践,从应急解决单点问题,到构建全局化、平台化的稳定性基建,为大规模、多云、容器化业务的监控落地提供了完整参考。