1.
概述与准备
目标:评估葵湾机房实例稳定性并能快速排查故障。小分段:a) 准备SSH访问与实例ID;b) 在本地准备iperf3、mtr、tcpdump工具;c) 在云控制台开启监控(CPU、网络、磁盘IO、报警阈值)。
2.
基础健康检查(快速步奏)
小分段:a) 登录:ssh -i key.pem root@IP;b) 查看基本状态:uptime; cat /proc/loadavg; free -h; df -h; uname -a;c) 检查是否存在CPU steal:top 或者 vmstat 1 5(观察%st列),若steal>5%说明宿主机争用。
3.
网络连通与延迟测试
小分段:a) Ping:ping -c 10 8.8.8.8,观察丢包与平均延迟;b) 路由:traceroute -n 8.8.8.8 或 mtr -rw 8.8.8.8(持续检测跳点时延或丢包);c) 端口连通:ss -tlnp | grep :80 或 curl -I http://127.0.0.1:80;d) 若跨地域延迟高,记录时间戳并抓包:tcpdump -i eth0 -w /tmp/trace.pcap host 目标IP。
4.
带宽与吞吐压力测
小分段:a) 部署iperf3服务端:iperf3 -s;b) 客户端测试:iperf3 -c SERVER_IP -P 4 -t 60,记录带宽峰值与丢包;c) 如需双向测试在双方运行iperf3;d) 若性能不达标,检查云控制台的网络带宽上限与计费模式。
5.
磁盘与IO性能检测
小分段:a) 查看设备:lsblk; blkid;b) 实时IO:iostat -x 1 5 或 vmstat 1 5;c) 读写基准:fio --name=rw --rw=readwrite --bs=4k --size=1G --iodepth=32 --runtime=60 --group_reporting;d) 若延迟高,检查云盘类型(SSD/HDD)、IOPS限制与队列深度,考虑提升磁盘类型或增加IOPS配额。
6.
进程、服务与日志排查
小分段:a) 查找占用:ps aux --sort=-%mem | head; ps aux --sort=-%cpu | head;b) 服务状态:systemctl status nginx|mysql -l;c) 系统日志:dmesg | tail -n 100;journalctl -u 服务名 -S "1 hour ago";d) 若出现OOM或内核错误,记录日志并在短时间内重现以便提交工单。
7.
中长期监控与告警设置
小分段:a) 在云监控开启CPU、网络、磁盘IO与内存曲线采样频率为1m;b) 配置告警:CPU>80% 5m、网络丢包>5% 10m、磁盘延迟>50ms;c) 部署Prometheus/Grafana或使用云厂商监控并保留历史至少7天以便回溯。
8.
常见故障处理流程(一步步)
小分段:a) 网络不稳定:先ping本地网关,再ping外网,若本地网关丢包,重启网卡:ip link set dev eth0 down; ip link set dev eth0 up;检查MTU:ip link show eth0;b) 服务响应慢:查看CPU/IO瓶颈,重启服务:systemctl restart 服务;c) 磁盘满/IO高:清理日志、扩容云盘或迁移到更高IOPS;d) 无法SSH:在云控制台使用Serial Console或重置SSH密钥。
9.
问:如何判断问题是宿主机资源争用还是实例内部配置问题?
答:先看CPU steal(top中%st或cloud监控的steal指标);若steal高为宿主争用;若steal正常但实例CPU/IO高,结合iostat/fio与进程列表判断为实例内部问题。
10.
问:遇到间歇性网络抖动,如何定位根因?
答:同时在实例内运行mtr -rw 目标并在本地/对端同时抓包(tcpdump),记录抖动时间点,查看云监控网络错误、丢包和链路变更事件,然后向厂商提供时间戳与pcap请求进一步检测。
11.
问:向云厂商提交支持工单时需要准备哪些信息?
答:准备实例ID、发生时间范围、监控截图(CPU/网络/磁盘曲线)、top/iostat/iperf/mtr输出、tcpdump捕获文件、重现步骤与业务影响描述,能加速定位与解决。
来源:香港葵湾云服务器稳定性评测与常见故障排查指南