本手册聚焦于香港CN2线路在机房内对服务器的网络质量监测与故障定位。对于追求低延迟与稳定性的用户,CN2通常被认为是“最好/最佳”的线路选择,但成本较高;若预算有限,可选择性价比更高的普通国际链路作为“最便宜”的备选。实际运维中建议根据业务SLA把“最佳性能、可接受成本、冗余备份”结合起来设计监测与告警策略。
运维应持续监测RTT(延迟)、丢包率、抖动(jitter)、带宽利用率、连接建立失败率与BGP邻居状态。建议阈值示例:持续丢包>1%或短时丢包峰值>5%触发告警;平均RTT超出基线30%触发延迟告警;带宽利用>80%持续5分钟触发流量告警。阈值需结合历史数据与业务敏感度调整。
常用工具包括:主动监测工具如ping、mtr、traceroute、nping;带宽与吞吐量测试如< b>iperf3;被动采集如SNMP、NetFlow/sFlow;可视化与告警平台如Zabbix、Prometheus+Grafana、PRTG;链路综合检测如Smokeping用于丢包与延迟历史;抓包工具tcpdump用于深层包分析。所有工具应与机房监控体系集成。
建议在机房内部署至少两套监测点:内网探针(近服务器)与出口探针(靠近CN2口或对端网关)。内网探针负责快速定位服务器侧问题,出口探针用于判断链路与运营商侧问题。探针数据通过MQ或HTTP安全上报至监控平台,保证时序与告警可靠性。
故障通常分为:服务器层(应用/网卡/配置)、机房内部网络(交换机/VLAN/链路)、运营商链路(CN2中断/BGP问题)、跨域对端问题(目标小区或第三方ISP)。优先级依据影响范围与业务重要性划分:全站中断为P0,单点服务严重退化为P1,短时抖动或轻微丢包为P2。
1) 验证服务器本地:检查服务进程、网卡状态(ethtool)、队列与CPU/内存;2) 本地网络测试:ping本机回环、ping默认网关、mtr到出口;3) 出口链路测试:traceroute至目标,iperf3并发测试带宽;4) 运营商侧确认:查看BGP邻居(show ip bgp summary)、联系CN2对端或使用BGP Looking Glass;5) 若为包捕获必要,使用tcpdump在不同点抓包并比对。
案例1:服务器到大陆段高丢包。操作:在服务器端与出口探针分别运行mtr,若出口探针显示丢包而服务器内网无,则上报运营商并提供mtr/traceroute与时间窗包;案例2:带宽瞬时耗尽。操作:查NetFlow/ sFlow确认流量源,使用ipset或ACL临时阻断异常流量,根因定位至具体IP/端口并在防火墙或交换机层面实施策略。
定位运营商或跨域问题时需提供完整证据包:时间戳同步的mtr/traceroute/iperf日志、tcpdump抓包(pcap)、接口错误统计(ifconfig或ethtool -S)、交换机端口统计与SNMP历史数据、BGP路由变更日志。时间请统一使用UTC并保留NTP同步记录,便于双方比对。
构建自动化检测脚本周期性采集关键指标并结合滑动窗口算法减少误报。对频繁波动指标采用多级告警(提醒→确认→紧急),并在告警中附带诊断信息(最近5分钟mtr/traceroute快照、接口错误计数)。结合自动化工单系统将故障上下文快速派单至相应责任人。
定期演练故障应对流程,包括链路故障切换、BGP切换演练与跨机房切换。演练结果应用于更新SOP与 Runbook。对于香港CN2线路,需与运营商约定联动联系人与SLA,并定期验证主备链路切换的可用性与收敛时间。
做好网络质量监测与故障定位不只是技术堆栈的选择,更是流程、证据与沟通的协同。通过合理的监测指标、精确的故障定位流程与自动化告警,可以在保证服务器与业务可用性的同时控制成本,实现“最佳性能与可控费用”的平衡。落实SLA、保留完整日志与定期演练是长期稳定运营的关键。