
网络延迟高通常与路径、带宽、丢包、或者目标机资源被占满有关。首先确认是否是全局性问题还是仅部分地域受影响,排查可分为链路、主机与应用三个层面。
使用ping、traceroute(或mtr)检测到目标的平均延迟与丢包率。若出现跨国跳数异常或丢包集中在某一跳,可能是运营商链路问题,需要联系供应商或更换出口节点。
用iperf或vnstat检测带宽利用率,若带宽饱和会导致延迟上升;短期可限速非关键流量或启用流量清洗,长期应升级带宽或启用多链路负载均衡。
检查CPU、内存、软中断、网络队列(tx/rx)占用,若CPU频繁飙高或中断过多,优化应用线程、开启SO_REUSEPORT、调整网卡中断亲和性,或纵向扩容实例。
连接断开常见原因包括防火墙策略、连接数达上限、实例网络卡异常或后端服务崩溃。定位需从防火墙日志、系统连接数与服务状态入手。
确认安全组、本机iptables及云平台ACL没有误拦截,查看拒绝日志并放行合法端口。若启用Geo-IP或限速策略,验证规则是否生效但误封。
检查系统文件描述符限制(ulimit -n)、nginx/Apache/数据库的最大连接数,若达到上限会拒绝新连接,适当调高限制并优化连接池或开启长连接复用。
排查网卡驱动、虚拟化网桥或MTU不一致引发的断连,尝试重启网络服务或切换驱动版本,必要时与云厂商申请底层链路检测。
DNS问题常表现为域名无法解析、解析结果不一致或解析延迟高。先确认本地解析器、权威解析以及CDN或负载均衡配置是否正确。
使用dig或nslookup测试不同DNS服务器的解析结果,比较权威DNS与缓存DNS差异,若权威记录正确而缓存不一致,可能是TTL过长或CDN缓存策略问题。
确认A/AAAA/CNAME记录指向正确IP,检查权重轮询或健康检查策略是否导致异常回源;对海外访问使用智能解析或GeoDNS以降低跨国解析延迟。
若怀疑DNS被篡改,检查域名注册商与DNS服务商的安全设置(双重认证、变更通知);修改记录后可通过刷新缓存、降低TTL来加速生效。
磁盘I/O瓶颈会导致整体服务性能下降,常见于日志暴涨、备份任务、或数据库查询未优化。排查应同时查看I/O延迟、空间使用和数据库慢查询。
使用iostat、iotop查看磁盘读写延迟与吞吐,du和df查看文件系统使用情况。对于空间不足,先清理临时文件、旧日志与无用快照。
开启数据库慢查询日志,定位长耗时SQL并添加索引或改写查询,考虑分库分表、读写分离或使用缓存(Redis/Memcached)降低磁盘访问频率。
对频繁I/O的应用考虑使用SSD或更高性能云盘,调整RAID或云盘类型;优化备份窗口与并发,避免在高峰期进行全量快照操作。
当出现流量突增、连接数激增或服务不可用时,应迅速判断是否为DDoS或爬虫暴增,并采取分层防护措施减少影响。
通过云监控、NetFlow或防护日志识别异常IP、端口或协议,区分SYN洪水、UDP泛洪、HTTP洪水等类型,以决定清洗策略。
启用云厂商的DDoS清洗服务、配置WAF规则拦截可疑请求、对高风险IP进行黑名单过滤或限速;临时切换至流量清洗节点并分散负载。
实现多节点负载均衡、CDN加速、WAF防护与严格访问控制;建立自动化报警与流量阈值触发机制,定期演练攻击响应流程。