互联网公司黑盒拨测监控系统架构设计与落地实践

August 31, 2021 架构设计拨测, 黑盒监控, 架构可观测性系列 2253 字 5 分钟阅读

🔊

在互联网服务的全链路监控体系中，白盒监控侧重主动挖掘潜在隐患、提前预判风险，黑盒监控则以故障为核心导向，快速感知已发生的线上问题。二者协同才能构建完整的监控闭环。而多数互联网企业长期存在公网服务、用户侧最后一公里的监控盲区，用户侧故障往往只能被动等待报障后才启动排查，黑盒拨测监控系统正是为解决这一行业痛点而生。

一、监控体系定位与核心痛点

1. 白盒与黑盒监控的核心差异

白盒监控：从系统内部视角出发，基于指标、日志、链路追踪，主动发现/预测潜在问题。
黑盒监控：模拟真实用户访问行为，检测服务外部可用性、访问效率，故障发生时快速定位、即时响应。

2. 行业通用监控痛点

公网及用户侧最后一公里监控存在空白，用户端故障无法主动发现。
第三方拨测服务成本高昂，业务场景覆盖率低，难以适配企业定制化需求。
分布式拨测节点管理难度大，数据采集、告警收敛、安全审计难以兼顾。

二、自建与第三方监控方案对比

企业放弃高成本第三方服务，选择自建黑盒拨测监控系统，核心对比如下：

对比维度	自建拨测监控	行业第三方拨测服务
资源覆盖	自有IDC节点部署，可覆盖内网场景	公网节点更丰富，地理位置更细化
成本控制	拨测数量、频率无限制，仅需基础服务器资源	按URL/城市/运营商/节点/频次计费，成本随规模激增
核心优势	支持内网拨测、监控频率自定义、证书监控、TCP拨测、自研CMDB对接，与企业现有Prometheus+Grafana体系天然融合	支持CDN/源站MD5校验、丰富的HTTP监控、临时拨测、终端抓包

三、系统支撑的核心业务场景

该系统可覆盖互联网公司主流服务监控需求，全面适配各类业务场景：

前端服务监控：证书链有效性、DNS耗时、TLS握手耗时、建连耗时、页面加载耗时。
网络质量监控：ICMP拨测，跨域内外网、专线网络质量监测。
协议与场景覆盖：支持DNS、TLS、TCP、SMTP等协议，适配CDN、代理服务、企业邮箱等场景。

四、系统核心架构设计

1. 拨测节点内部架构

单个拨测节点为自治孤岛单元，具备独立拨测、告警、状态监控能力，通过网格代理实现安全管控。

mermaid
flowchart TD
    BE@{ shape: rounded, label: "blackbox<br/>_exporter" } -->|执行拨测| TS@{ shape: rounded, label: "目标服务" }
    P@{ shape: rounded, label: "Prometheus<br/>+ node_exporter" } -->|Pull 拨测/状态| BE
    P -->|Push 告警| AM@{ shape: rounded, label: "Alertmanager<br/>+ 告警机器人" }
    M@{ shape: rounded, label: "Mosn 网格代理" } -->|代理/限流熔断| P
    M -->|认证| IN@{ shape: double-circle, label: "互联网" }

    classDef src fill:#bbdefb,stroke:#2196F3,color:#1B5E20
    classDef proc fill:#fff3e0,stroke:#FF9800,color:#BF360C
    classDef out fill:#c8e6c9,stroke:#4CAF50,color:#1B5E20
    classDef warn fill:#ffcdd2,stroke:#f44336,color:#B71C1C
    class BE,TS src
    class P,M proc
    class IN out
    class AM warn

2. 公网整体架构

采用分布式拨测点+集中式数据汇聚架构，严格分离数据流，保障安全与审计合规。

mermaid
flowchart TD
    N@{ shape: rounded, label: "分布式拨测点<br/>(geohash 定位)" } -->|上报| Z@{ shape: rounded, label: "Prometheus 汇总" }
    Z -->|存储| O@{shape: cyl, label: "OSS" }
    Z -->|查询| T@{ shape: rounded, label: "Thanos Query" }
    T --> G@{ shape: rounded, label: "Grafana 可视化" }
    Z -->|告警| A@{ shape: rounded, label: "Alertmanager" }

    classDef src fill:#bbdefb,stroke:#2196F3,color:#1B5E20
    classDef proc fill:#fff3e0,stroke:#FF9800,color:#BF360C
    classDef spec fill:#f3e5f5,stroke:#9C27B0,color:#4A148C
    classDef store fill:#c8e6c9,stroke:#4CAF50,color:#1B5E20
    classDef out fill:#bbdefb,stroke:#2196F3,color:#1B5E20
    class N src
    class Z proc
    class T spec
    class O store
    class G out
    class A out

3. 数据可视化架构

基于geohash+OpenStreetMap实现地域化数据展示，替代传统时序图，直观呈现全国节点网络质量。

mermaid
graph TD
    A@{ shape: rounded, label: "分布式拨测点" } --> B@{ shape: rounded, label: "geohash地理编码" }
    B --> C@{ shape: rounded, label: "Thanos数据聚合" }
    C --> D@{ shape: rounded, label: "OpenStreetMap地域展示" }
    C --> E@{ shape: rounded, label: "Grafana指标图表" }
    D & E --> F@{ shape: rounded, label: "运营/运维监控控制台" }
    classDef primary fill:#e3f2fd,stroke:#1976d2
    classDef storage fill:#e8f5e9,stroke:#4caf50
    classDef network fill:#fff3e0,stroke:#ff9800
    classDef alert fill:#fce4ec,stroke:#e53935
    classDef process fill:#f3e5f5,stroke:#7b1fa2
    class A,B,D,E,F primary
    class C alert

五、关键技术实现

1. 探针引擎选型

采用Prometheus+blackbox_exporter作为核心探针，支持HTTP/TCP/ICMP/DNS/SMTP等多协议拨测，精准模拟用户访问行为。

2. 分布式节点管理

引入Mosn服务网格，统一代理管控端口、限流熔断、加密认证，降低全国分布式节点的管理成本，实现无信任网络架构。

3. 地域可视化能力

通过geohash+OpenStreetMap将拨测数据与地理位置绑定，直观展示不同区域、运营商的服务质量，快速定位区域性故障。

4. 安全与审计

云厂商安全组+Mosn双重网络管控。
严格控制PULL/PUSH数据流，与现有监控系统物理隔离。
全链路操作可审计，满足企业安全合规要求。

六、告警机制与实践效果

系统支持告警聚合收敛、多渠道推送，告警信息包含节点、目标、耗时、异常状态等核心维度，示例如下：

【告警】连通拨测耗时较长触发节点：云计算北京节点目标地址：https://hub.xxx.com 耗时详情：总耗时7.9s，DNS耗时3.7ms，建连耗时3.2s，TLS耗时3.4s 状态：FIRING

通过该系统，企业可提前感知用户侧故障，无需等待用户报障，故障发现效率提升90%以上，全面补齐最后一公里监控短板。

七、架构核心优势

全场景覆盖：公网/内网、多协议、多业务场景一站式监控。
成本可控：自建模式无拨测频次限制，弹性适配业务规模。
深度融合：与企业现有监控体系无缝对接，支持自研系统定制化接入。
安全可控：无信任网络架构，敏感业务支持IP白名单监控。
直观可视：地域化展示+精准告警，故障定位零延时。

总结

这套黑盒拨测监控系统，以用户视角补齐了互联网公司监控体系的最后一块短板，与白盒监控形成主动预判+快速发现的完整闭环。架构上兼顾分布式管理、安全合规、可视化展示，成本上远低于第三方服务，是大型互联网企业构建全链路监控体系的最优实践之一。

所属系列: 可观测性系列

← 上一篇监控系统企业架构演进史-拨测监控下一篇 → 从瓶颈破局到平台化治理——互联网公司监控平台架构演进全历程