1.
监控体系搭建与必备组件
说明:建议使用Prometheus+Alertmanager采集指标、Grafana展示、Elasticsearch+Kibana或Loki用于日志、以及流量采样(sFlow/NetFlow)。实际步骤:1) 部署Prometheus并配置node_exporter;2) 在边界设备和服务器安装并开启sFlow或使用路由器NetFlow导出到采集器;3) Grafana导入面板模版;4) 配置Alertmanager接入企业微信/短信。
2.
关键监控项与采集频率
说明:监控项包括带宽(入/出)、并发连接数、每秒请求数(RPS)、SYN/UDP包率、CPU/内存、磁盘IO、错误率、证书到期。步骤:1) 在Prometheus中设置scrape_interval=15s用于网络数据;2) 使用ipvs/conntrack导出并发连接;3) 在Web层统计RPS并上报自定义指标(HTTP exporter)。
3.
阈值设定与报警策略
说明:设定基线阈值(基于历史7/14/30天中位数)。步骤:1) 分析历史流量得到正常峰值,例如峰值带宽的85%作为触发阈值;2) 在Prometheus写表达式(例如 sum(rate(node_network_receive_bytes_total[1m])) > X);3) 配置分级告警:黄色(通知)、橙色(介入)、红色(启动应急);4) 在Alertmanager配置抑制与接收者路由。
4.
日常巡检清单与操作步骤
说明:每天早/晚巡检并记录。步骤清单:1) 登录Grafana查看带宽/连接曲线,确认无异常突变;2) 检查Alertmanager未处理告警;3) 用netstat/ss查看连接状态:ss -ntp | awk '{print $1,$4,$5}';4) 用tcpdump抓包定位异常流量:tcpdump -n -i eth0 'tcp or udp' -c 10000 -w /tmp/trace.pcap;5) 检查日志:journalctl -u nginx -n 200。
5.
快速定位攻击与流量分类
说明:识别DDoS类型并选择策略。操作步骤:1) 查看流量来源IP分布:使用ntop或流日志分析;2) 判断协议(TCP/UDP/ICMP/HTTP flood);3) 对HTTP层通过请求头/UA/URI聚合定位异常路径:使用goaccess或ELK聚合查询;4) 对异常源IP做样本抓包并用tcptraceroute确认路径。
6.
应急处置与逐步缓解动作
说明:按优先级从轻到重执行。步骤:1) 启用速率限制(nginx limit_req、iptables hashlimit):iptables -A INPUT -p tcp --dport 80 -m connlimit --connlimit-above 200 -j DROP;2) 启用SYN cookies:sysctl -w net.ipv4.tcp_syncookies=1;3) 对UDP/ICMP异常使用黑洞或ACL在上游骨干丢弃;4) 请求高防厂商切换到洗流/清洗服务并调整白名单;5) 在承载层启用WAF规则阻挡异常URI。
7.
策略调整与回归测试流程
说明:调整后需验证无误。步骤:1) 在测试窗口先在非生产流量或小流量段试行新的限速或WAF规则;2) 观察15-30分钟若无误触发则逐步扩大;3) 记录规则ID与变更人、时间;4) 回滚指令准备好(例如iptables -D ... 或撤销Cloud API规则)。
8.
自动化与运维脚本示例
说明:推荐编写自动化脚本减少人为失误。示例步骤:1) 编写脚本检测带宽阈值并通过API通知高防厂商;2) 脚本自动切换BGP公告(需要供应商API或控制台权限);3) 使用Ansible统一下发iptables/WAF规则;4) 定时脚本检测证书到期并提醒:openssl s_client -connect host:443 -servername host 2>/dev/null | openssl x509 -noout -dates。
9.
日志保留与事后复盘流程
说明:攻击后必须完整保存证据并复盘。步骤:1) 保存pcap、nginx/防火墙日志、流量采样至安全存储;2) 按时间线还原攻击过程,标注触发阈值与响应时间;3) 输出复盘报告并更新Runbook与阈值;4) 每次复盘做一次桌面演练。
10.
问:如何快速判断是否需要上游清洗?
答:查看带宽与应用可用性指标:若带宽接近链路饱和且应用出现大量连接超时或错误,同时本地限流和SYN cookies无法缓解,即刻联系高防厂商申请上游清洗(准备好流量样本与pcap)。
11.
问:日常如何避免误封正常流量?
答:使用分级灰度策略:先在监控模式记录命中规则的数据并人工核验,基于来源IP/请求特征建立白名单与速率阈值,使用统计窗口(如5分钟)判断异常而非瞬时峰值,必要时先做流量镜像再下发阻断规则。
12.
问:运维人员在无经验情况下首要做什么?
答:首要确认通信与备份:1) 保持与高防/带宽供应商的紧急联系方式;2) 备份当前防护配置与路由表;3) 启动监控面板并按手册逐条检查告警;4) 若不确定,先启用被动防护(限速/连接数限制)并保存证据,随后请资深同事或厂商介入。
来源:运维手册 香港高防服务器能力 日常监控与策略调整的最佳实践