1.
概述与目标
- 目标:确保新加坡与香港 CN2 路由的业务可用性、性能与安全性;
- 监控范围:主机资源(CPU/内存/磁盘)、网络(带宽/延迟/丢包)、服务(HTTP/DB/缓存)、安全(DDoS/异常流量);
- 频率与保留:关键指标 15s 采集,普通指标 60s;监控数据至少 30 天保留;
- 通知链路:短信/邮件/企业微信/钉钉与 PagerDuty,支持分级告警与抑制策略;
- 目标达成:SLA 99.95%,出现网络抖动时 5 分钟内发现并通知;
2.
新加坡与香港 CN2 网络特点
- CN2(中国电信骨干网)特点:对大陆回程友好、抖动较低、带宽稳定;
- 延迟参考:SG/HK 到中国主要城市平均 RTT:30~80ms(具体节点不同,示例:SG→上海 45ms,HK→广州 28ms);
- 丢包敏感区:跨境链路在高峰期丢包可上升到 0.1%~0.5%,阈值设置需谨慎;
- 带宽计费与计量:建议监控以 1s 峰值与 5m 平均结合,防止突发峰值导致计费或触发限速;
- DDoS 高风险时段:促销/发布类窗口,需提前拉升 CDN/WAF 与清洗带宽;
3.
监控指标与建议阈值
- 指标包括:CPU、内存、磁盘使用、磁盘 I/O、网卡收发包、带宽利用率、延迟、丢包、HTTP 5xx、DB 连接;
- 告警分级:警告(Warning)→ 临界(Critical),示例阈值见下表;
| 指标 | Warning | Critical |
| CPU 使用率 | >75% 5m | >90% 2m |
| 内存使用率 | >70% | >90% |
| 磁盘剩余 | <15% 可用 | <5% 可用 |
| 带宽利用 | >70% 峰值 | >90% 峰值 |
| 往返时延 RTT | >80ms | >150ms |
| 丢包率 | >0.5% | >1.5% |
- 说明:阈值根据业务类型可放宽或收紧,数据库与缓存需更低的阈值;
4.
告警配置示例(Prometheus + Alertmanager / Zabbix)
- Prometheus 告警示例规则(简化):
groups:
- name: cn2.rules
rules:
- alert: HighCPU
expr: 100 - (avg by(instance)(irate(node_cpu_seconds_total{mode="idle"}[2m])) * 100) > 90
for: 2m
labels: {severity="critical"}
annotations: {summary="CPU 高负载", description="{{ $labels.instance }} CPU>90%"}
- Alertmanager 路由:对 critical 级别走电话+短信,对 warning 走邮件+企业微信;
- Zabbix 示例:使用 agent active 上报,触发器表达式:{host:system.cpu.util[,idle].last(0)}<10 -> 触发;
- 抑制与聚合:同一实例 5min 内重复告警聚合,网络抖动类事件使用抑制规则防止告警风暴;
- 告警演练:每月一次通知链路演练,记录响应时间并优化接收策略;
5.
日常巡检与自动化脚本
- 日常巡检清单:服务可用性、证书有效期、磁盘空间、端口连通、备份状态;
- 自动化脚本示例(cron 每 5 分钟检测 HTTP):
*/5 * * * * /usr/bin/curl -sS -o /dev/null -w "%{http_code}" https://app.example.com | grep -q 200 || /usr/bin/logger "HTTP check failed"
- 网络链路检测:使用 mtr 或 ping 每 1 分钟采样,若连续 3 次丢包 >1% 则告警;
- 系统调优建议:net.ipv4.tcp_tw_reuse=1、tcp_fin_timeout=30、nginx worker_connections 10240(视并发调整);
- 自动恢复动作:磁盘满时先清理 /var/log,服务进程挂死时自动重启并上报;
6.
真实案例与优化措施
- 案例:某电商在双十一期间,香港 CN2 VPS(配置:2 vCPU / 4GB / 80GB SSD,带宽 100Mbps),在高峰出现 RTT 升至 120ms 且 5m 内带宽峰值达 95Mbps;
- 观测数据:HTTP 5xx 占比 2.8%,丢包峰值 1.2%,Prometheus 指标显示 CPU 平均 65%,网络 I/O 接近上限;
- 处置措施:临时开启 CDN + WAF,流量切分到新加坡备节点,通知 ISP 拉通 CN2 清洗;
- 优化结果:30 分钟内 5xx 降至 0.2%,RTT 回落到 45ms,丢包恢复 <0.2%;
- 结论与建议:预置 CDN 策略与清洗线路,监控阈值提前 20% 设置,定期进行故障演练与容量预留;
来源:运维手册 新加坡 香港 cn2 日常监控与告警配置建议