1.
概述:目标与部署边界
目标:保证
香港站群云主机稳定性与可用性;小分段:a) 监控边界:主机、网络、服务、应用层;b) 可观测性:指标、日志、追踪;c) 部署原则:集中采集、分区告警(按机房/业务)
2.
关键指标清单(必须监控)
小分段:a) 主机层:CPU 使用率、LoadAverage、内存/Swap、磁盘已用与 I/O、inode 使用;b) 网络层:带宽利用、丢包率、延迟(RTT)、连接数;c) 服务层:进程存活、端口响应、HTTP 5xx/延迟、数据库连接数;d) 业务指标:QPS、错误率、队列长度
3.
推荐工具与角色分配
小分段:a) 指标采集:Prometheus + node_exporter、blackbox_exporter、cAdvisor;b) 可视化:Grafana(导入Dashboard);c) 日志:Filebeat -> Elasticsearch -> Kibana 或 Loki + Grafana;d) 告警:Prometheus Alertmanager 或 Zabbix/Nagios 备选;e) 主机健康脚本:自定义 systemd + shell / Python 脚本
4.
实操:在香港云主机上安装 node_exporter 与 Prometheus
小分段:a) 在每台主机安装 node_exporter(Debian/Ubuntu):sudo apt update && sudo apt install -y wget && wget https://github.com/prometheus/node_exporter/releases/download/v*/node_exporter-*.*-amd64.tar.gz && tar xzf ... && sudo cp node_exporter /usr/local/bin && 创建 systemd 单元;b) systemd 示例:/etc/systemd/system/node_exporter.service,内容 ExecStart=/usr/local/bin/node_exporter;sudo systemctl enable --now node_exporter;c) Prometheus 服务器:在集中监控节点上编辑 prometheus.yml,加入 scrape_configs 指向香港主机:9100;d) 防火墙:允许 Prometheus IP 访问 9100,采用安全组限定来源
5.
实操:常用告警规则与 Alertmanager 配置
小分段:a) 常用规则示例(PromQL):CPU 高:avg(rate(node_cpu_seconds_total{mode!="idle"}[5m])) by (instance) > 0.85 for 5m;磁盘:node_filesystem_avail_bytes / node_filesystem_size_bytes < 0.2 for 10m;HTTP 错误:sum(rate(http_requests_total{status=~"5.."}[5m])) / sum(rate(http_requests_total[5m])) > 0.01;b) Alertmanager 简单 receiver:配置 slack/wechat/webhook 或集成 PagerDuty;c) 示例 alertmanager.yml:receivers: - name: 'ops' webhook_configs: - url: 'https://hooks.example.com/xxxx';routes 根据 severity 与 team 分流
6.
自动化修复与运维流程(Runbook)
小分段:a) 常见自动修复脚本:磁盘报警触发清理脚本(logrotate、删除 tmp)、服务异常重启 systemctl restart xxx;b) Runbook 示例:CPU 高先查看 top、是短时峰值还是持续,若持续则重启相关进程并扩大实例/水平扩容;c) 定期演练:每月演练一次故障转移,记录并修正告警阈值与抑制规则
7.
问1:如何在香港站群检测跨境延迟与丢包?
小分段:问:如何做?
8.
答1
小分段:答:使用 mtr/ping 从香港节点到各重要目标(例如中国大陆出口、CDN 节点)做定时任务并上报到监控;也可用 blackbox_exporter 配置 icmp/tcp/http 探针,Prometheus 抓取并设置丢包/延迟告警(例如丢包率>1% 持续 5 分钟或 RTT 中位数提高 200ms)。
9.
问2:告警频繁抖动如何优化?
小分段:问:如何减少噪音?
10.
答2
小分段:答:采用 for-duration(持续时间)抑制短峰值,增加数据平滑(如 rate/avg over 5m),使用 Alertmanager 抑制规则(抑制同一主机多个相关告警),并对非关键告警设置低优先级或仅在维护窗口通知。
11.
问3:如何保证监控系统自身高可用?
小分段:问:监控如何冗余?
12.
答3
小分段:答:Prometheus 可采用联邦式部署(中央汇总与本地短期存储)、多个 Alertmanager 实例并用 gossip 模式或 HA Pair,Grafana 使用数据库后端并做备份;监控组件放在不同可用区并对外暴露只读接口以防单点故障。
来源:监控与告警香港站群云主机稳定性保障的关键指标与工具