从瓶颈破局到平台化治理——互联网公司监控平台架构演进全历程

January 10, 2022 架构设计监控平台, 架构演进, 架构 2597 字 6 分钟阅读

在互联网业务高速扩张、多云部署、资产指数级增长的背景下，监控平台是保障服务稳定性的核心基建。本文完整复盘某大型互联网公司监控平台2019-2021年的演进之路，从解决老旧监控性能瓶颈，到跨云分布式监控落地，再到云原生平台化治理，呈现监控体系从0到1搭建→规模化扩展→平台化治理的完整蜕变。

演进总览：三年三大步，锚定核心目标

监控平台的三年演进，始终围绕业务增长、多云异构、故障自愈、易用高效四大核心诉求，分三阶段完成蜕变：

2019年（破局）：替换Zabbix+MySQL老旧架构，完成监控平台0-1落地
2020年（扩张）：跨云整合、全链路监控、自建拨测，补齐用户侧监控短板
2021年（治理）：云原生改造、平台化闭环、易用性升级，实现监控全生命周期管理

2019年：破局之年——监控平台0-1落地，解决核心瓶颈

1. 核心痛点

业务监控数据百万级上报，Zabbix+MySQL分库分表达性能瓶颈，监控告警濒临失效
云厂商数据库监控API存在数据丢帧，无法适配Prometheus实时拉取模式
业务侧接入监控SDK学习成本高，资产激增无统一分类标准
原有架构无法支撑K8s集群监控，跟不上容器化转型趋势

核心解决方案

技术替换：引入Prometheus替代Zabbix，自研业务Exporter承接监控上报
数据兼容：用InfluxDB+Grafana处理云厂商DB监控数据，修复API数据丢帧问题
日志支撑：引入ELK体系满足业务统计报表需求
多读扩展：接入Thanos解决监控数据多读场景，Prometheus专注采集与告警
服务发现：用Consul实现资源注册与信息读取

2019年监控平台核心架构

mermaid
graph TD
    %% 采集阶段
    A[云厂商API] --> B[云API采集工具] --> C@{shape: cyl, label: "InfluxDB"}
    D[业务/主机Exporter] --> E[Prometheus]
    F[Consul] --> E[资源注册/服务发现]

    %% 数据处理
    E --> G[Thanos Sidecar] --> H@{shape: cyl, label: "S3对象存储"}
    C --> I[Grafana]
    E --> I

    %% 事件产生
    E --> J[告警推送] --> K[企业IM]
    I --> J

    classDef primary fill:#e3f2fd,stroke:#1976d2
    classDef storage fill:#e8f5e9,stroke:#4caf50
    classDef alert fill:#fce4ec,stroke:#e53935
    classDef process fill:#f3e5f5,stroke:#7b1fa2
    class C,H storage
    class E,G,J,K alert
    class B,D,I process
    class A,F primary

阶段遗留问题

云厂商DB监控告警回迁Prometheus周期长
架构仅支撑400+资产，资产爆发后周报表性能极差
多技术栈并行，维护成本居高不下

2020年：扩张之年——跨云分布式+全链路能力补齐

核心痛点

业务故障根因分析困难，原有日志体系排查效率极低
多云厂商资源无内网专线，无法实现统一监控
用户侧最后一公里监控空白，第三方拨测服务成本过高
告警渠道切换，原有模板无法复用，告警触达效率低

核心解决方案

全链路监控：引入链路追踪系统、轻量日志系统，辅助故障定位
跨云整合：基于Mesh技术栈实现公网跨地域分布式监控，Ansible统一节点管理
监控补齐：自建黑盒拨测系统，替代高成本第三方服务，覆盖URL/证书/网络质量监控
告警自研：打造告警中枢系统，对接CMDB实现定向推送，适配企业IM/短信

2020年监控平台核心架构

mermaid
graph TD
    %% 采集升级
    A[云厂商API] --> B[云API采集工具] --> C@{shape: cyl, label: "InfluxDB"}
    D[云Exporter/Kafka Exporter] --> E[Prometheus]
    F[Consul] --> E

    %% 数据处理
    E --> G[Thanos Sidecar] --> H@{shape: cyl, label: "S3对象存储"}
    E --> I[Thanos Query/Rule] --> J[集群统计事件]

    %% 告警中枢
    E --> K[自研告警系统] --> L[企业IM/短信]
    C --> M[Grafana] --> K

    classDef primary fill:#e3f2fd,stroke:#1976d2
    classDef storage fill:#e8f5e9,stroke:#4caf50
    classDef alert fill:#fce4ec,stroke:#e53935
    classDef process fill:#f3e5f5,stroke:#7b1fa2
    class C,H storage
    class E,G,J,K,L alert
    class B,D,M process
    class A,F primary

跨地域Mesh分布式架构

mermaid
graph LR
    %% 多地域拨测/监控节点
    N1[云平台北京节点] --> P[59080 Mesh端口]
    N2[云平台广州节点] --> P
    N3[云平台新加坡节点] --> P
    N4[云平台上海节点] --> P

    P --> Q[Prometheus集群]
    Q --> R[Thanos全局汇聚]

    classDef primary fill:#e3f2fd,stroke:#1976d2
    classDef network fill:#fff3e0,stroke:#ff9800
    classDef alert fill:#fce4ec,stroke:#e53935
    class N1,N2,N3,N4 primary
    class P network
    class Q,R alert

阶段遗留问题

链路追踪成本与业务价值不匹配，投入产出失衡
无分布式管理系统，Mesh架构复杂度提升
跳板机升级导致Ansible统一管理失效
多云厂商适配消耗大量人力

2021年：治理之年——云原生平台化，实现监控闭环

核心目标

从分散运维转向平台化管理，完成云原生改造，提升监控覆盖率、告警治理效率、用户易用性。

核心建设内容

告警闭环：开发告警静默、统计分析、策略管理、路由分发系统
服务发现：对接CMDB/CICD，自动注册资源，主机监控覆盖率达90.8%
云原生改造：全量迁移至K8s集群，基于HPA实现弹性伸缩
性能优化：Thanos Store加缓存、LRU策略、分维度索引，提升查询性能
易用升级：搭建WEB可视化后台，支持手机端告警抑制、阈值可调

2021年平台化监控架构

mermaid
graph TD
    %% 采集层
    A[Exporter/Sidecar] --> B[Prometheus]
    C[CMDB系统] --> D[服务发现注册] --> B

    %% 数据层
    B --> E[Thanos集群] --> F@{shape: cyl, label: "S3对象存储+缓存"}
    E --> G[Grafana/WEB UI]

    %% 告警中枢（邮局）
    B --> H[Alertmanager] --> I[自研告警平台]
    I --> J[告警抑制/路由/策略]
    J --> K[企业IM/短信/个人订阅]

    classDef primary fill:#e3f2fd,stroke:#1976d2
    classDef storage fill:#e8f5e9,stroke:#4caf50
    classDef alert fill:#fce4ec,stroke:#e53935
    classDef process fill:#f3e5f5,stroke:#7b1fa2
    class F storage
    class B,E,H,I,J,K alert
    class A,C,D,G process

云原生K8s集群架构

mermaid
graph TD
    A[K8s集群] --> B[Prometheus]
    B --> C[Thanos Sidecar] --> D@{shape: cyl, label: "S3对象存储"}
    B --> E[Thanos Query]
    E --> F[Thanos Store] --> D
    E --> G[Thanos Compact]
    F --> H[Grafana Frontend]
    %% 弹性能力
    B --> I[HPA弹性伸缩]
    F --> J[LRU缓存/60分钟数据缓存]

    classDef primary fill:#e3f2fd,stroke:#1976d2
    classDef storage fill:#e8f5e9,stroke:#4caf50
    classDef alert fill:#fce4ec,stroke:#e53935
    classDef process fill:#f3e5f5,stroke:#7b1fa2
    class D storage
    class B,E,F,G,H alert
    class A,I,J process

阶段核心成果

资源监控覆盖率逼近100%，自动发现无需手动配置
告警处理效率大幅提升，支持手机端静默、阈值可视化调整
云原生架构支撑千级以上资产，彻底解决性能瓶颈
监控全流程平台化，降低SRE日常运维成本

核心技术演进盘点

维度	2019年（初始）	2020年（扩展）	2021年（平台化）
监控引擎	Zabbix+MySQL	Prometheus+Thanos	Prometheus+Thanos+K8s
部署架构	单机房单机	跨云Mesh分布式	云原生容器化
数据存储	单机MySQL分表	TSDB+S3对象存储	缓存+分维度索引+对象存储
告警体系	零散推送	自研告警中枢	告警闭环+策略治理+可视化
监控能力	基础指标监控	全链路+拨测+日志	全场景+自动化+平台化

演进价值与总结

破性能瓶颈：彻底解决老旧监控架构无法支撑业务增长的核心问题
补监控短板：自建拨测补齐用户侧最后一公里监控，从被动报障转为主动发现
降成本提效：替代高成本第三方服务，自研体系适配业务定制化需求
云原生升级：K8s+平台化实现监控体系可扩展、易维护、易使用
全链路闭环：指标+日志+链路+拨测融合，形成完整的稳定性保障体系

这套监控平台的演进，是互联网公司业务驱动技术、技术支撑业务的典型实践，从应急解决单点问题，到构建全局化、平台化的稳定性基建，为大规模、多云、容器化业务的监控落地提供了完整参考。