1. 日常巡检总览
• 检查节点在线状态:确认所有香港 POP 与主机在线并响应心跳。
• 核对主机资源:CPU、内存、磁盘、网络吞吐的采样值。
• 检查域名解析与证书:DNS 生效,HTTPS 证书到期日 >30天。
• 验证 CDN 回源与缓存率:缓存命中率应 >= 70%。
• 审核安全告警:已有未处理的入侵或异常流量告警需 <24h 处理。
2. 服务器与 VPS 配置核对
• 列表核对:确认主机型号与规格与配置单一致。示例:HK-VPS-01。
• 系统与内核:Ubuntu 20.04 / kernel 5.4 核心补丁是否为最新 LTS。
• 服务进程:nginx/php-fpm/mysql 进程数、监听端口和状态。
• I/O 与磁盘健康:SMART 检查、磁盘使用率 <80%。
• 网络接口:核对带宽上限、丢包率、链路冗余配置。
3. 网络与域名、BGP策略
• 验证 ISP 链路:两条以上不同 ISP 或 BGP 多线可用性检查。
• 路由收敛检测:定期检测 BGP 路由是否被篡改或丢失。
• 域名解析保底:主 DNS 与辅 DNS 的响应时间、TTL 策略。
• 监测链路质量:Ping/ICMP 丢包率 <1%,平均延迟 <30ms。
• 验证 Anycast/GeoDNS:根据来源 IP 命中就近 POP。
4. CDN 与缓存策略日检
• 缓存命中率:统计 24h 命中率,目标 >=80%(若静态站点)。
• 回源带宽:回源流量峰值与平均值,确定带宽预留。
• 缓存刷新策略:对发布频繁页面设置合适 Cache-Control/Surrogate-Control。
• SSL/TLS 卸载:CDN 层是否完成 TLS,origin 是否仅允许 CDN IP 回源。
• 日志检查:是否有由 CDN 返回的大量 5xx 或 4xx 错误。
5. DDoS 防御与流量清洗
• 检查防护供应商策略:Cloudflare/Tencent/阿里 CDNs 策略有效性。
• 阈值设定:TCP/UDP 每秒连接数、同时连接数阈值与触发动作。
• 本地防护:iptables/nftables 限速、conntrack 限制、fail2ban 白名单配置。
• 清洗带宽准备:确认上游 ISP/清洗中心带宽与 SLA(例如 10Gbps 清洗能力)。
• 演练和恢复:定期模拟攻击演练,验证切换到清洗策略耗时 <15 分钟。
6. 备份、快照与跨机房容灾
• 备份频率:数据库每日全量 + 每小时增量,文件同步每日。
• 备份保留:本地 7 天,异地(例如新加坡)保留 30 天。
• 快照策略:VPS 每周快照并保留 4 周;重大发布前做即时快照。
• 自动恢复演练:每月一次从备份恢复到备用节点并验证完整性。
• 灾备切换:DNS 与 GSLB 的故障自动切换时间目标 <120 秒。
7. 监控、告警与响应流程
• 指标阈值:CPU>75% 5min,内存>85%,磁盘>80%,丢包>1%。
• 工具栈:Prometheus + Grafana + Alertmanager,日志用 ELK/EFK。
• 告警频道:SRE 群组短信/电话轮班、工单与 PagerDuty 集成。
• SLA 与 RTO:关键服务 SLA 99.99%,RTO 30 分钟。
• 事件复盘:所有 P1 事件需在 72 小时内完成 RCA 并落地修复项。
8. 自动化与补丁管理
• 补丁窗口:非高峰时段自动部署安全补丁并回归测试。
• 配置管理:使用 Ansible/Terraform 管控主机配置与 IaC 状态。
• 发布流水线:CI/CD 控制发布,灰度与回滚机制到位。
• 变更审批:所有生产变更需有变更单并记录回滚步骤。
• 自动化脚本:定期清理日志、自动扩容脚本和故障自愈脚本。
9. 真实案例与配置示例说明
• 真实案例:某香港电商在促销期间遇到 8Gbps UDP 反射攻击。
• 响应过程:启用 Cloudflare 高级 DDoS 策略 + 上游 ISP 清洗,12 分钟恢复访问。
• 改进措施:在 origin 增加 iptables rate-limit + BGP Anycast 调整。
• 配置示例:HK-VPS-01(4 vCPU @2.4GHz, 8GB RAM, 160GB NVMe, 1Gbps 公网),HK-VPS-02(同规格)作主备。
• 指标结果:促销前平均 1,200 RPS,峰值 15,000 RPS,经 CDN 缓存后 origin 带宽下降 90%。
10. 日常操作清单(可复制执行)
• 每日:检测 1)主机心跳 2)CPU/内存/磁盘 3)证书到期 4)备份成功 5)异常流量。
• 每周:检查补丁、快照、演练恢复、清理旧日志与临时文件。
• 每月:完整 DR 演练、RCA 复盘、容量预测与带宽采购评估。
• 自动化命令示例:crontab -l 查看定时任务;rsync -az /var/www/ backup@hk-vps-02:/backup/。
• 通讯矩阵:值班表、应急电话、第三方厂商联络信息必须更新并可在 5 分钟内获取。
11. 关键服务器配置对照表
| 节点 |
CPU |
内存 |
磁盘 |
公网 |
| HK-VPS-01 |
4 vCPU @2.4GHz |
8 GB |
160 GB NVMe |
1 Gbps |
| HK-VPS-02 |
4 vCPU @2.4GHz |
8 GB |
160 GB NVMe |
1 Gbps |
来源:运维团队如何保证香港站群服务器稳定性 日常操作清单