1.
概述与准备工作
准备清单:确定业务规模(服务器数量、总功率)、可接受延迟、带宽需求、冗余等级(TIER目标)、预算和租期。
操作步骤:1) 计算机房总IT负载(机柜数 × 每机柜平均功耗);2) 根据业务增长预留20%-50%扩展余量;3) 制定PUE目标(例如≤1.5)。
2.
选址初筛:位置与合规性核对
操作要点:1) 优先选择靠近主要网络枢纽(香港电讯/海底光缆登陆点、商业楼宇中枢)的楼层或园区;2) 查询地块洪水、消防、噪声和土地用途限制;3) 确认楼宇承载能力(楼板静载 ≥ 800kg/m2)。
实际步骤:向物业要求结构图、机电图、消防合规证明,若属旧楼要求做结构承载评估并取得物业同意书。
3.
现场勘查详细清单
勘查项目:电力进线(市电A/B路)、变压器位置与容量、配电房位置、机房空调系统(CRAC/Chiller)、暖通噪声和回风通道、消防喷淋/气体灭火可用性、机房周边安全与出入口。
验收标准:逐项拍照并记录参数(电压等级、断路器型号、配电柜剩余空间、管道口径、光缆沟井位置),形成PPT或Excel表格便于比对。
4.
电力容量与配电设计(从估算到落地)
步骤详解:1) 计算瞬时最大负载和平均负载;2) 选择UPS容量:UPS容量 ≥ 最大负载 × 1.2;UPS数量按N+1或2N配置;3) 配电柜设计:每机柜至少2路PDU(A/B)独立供电,PDU支持遥测与远程重启;4) 设计馈线与断路器规格(按香港电力规范及建筑要求)。
实操建议:制作单线图并与电力承包商确认,签署SLA中明确切换时间与维护窗口。
5.
UPS与发电机配置与测试步骤
选择与配置:1) UPS选型(在线双转换)并配置电池组运行时间(建议在满负载下保证至少10-30分钟以完成切换与发电机起动);2) 发电机容量应能承载全部关键负载(含冷却系统),并留20%余量;3) 自动并转控制(ATS)采用双路市电优先+发电机自动投入。
测试流程:到场按下面步骤执行并记录:A. 市电断电测试:切换到UPS → 再由UPS切换到发电机,记录切换时延和电压波动;B. 发电机负载测试:在不同负载点(30%、60%、100%)跑3小时;C. UPS电池放电测试并记录放电曲线与温度。
6.
接地、浪涌与防雷实施细则
具体步骤:1) 制定接地网:等电位接地将机柜、配电箱、冷水管道和建筑接地母线统一接地电阻 < 1Ω(或依规范);2) 在市电进线处配置SPD(浪涌保护器)并分级安装(一级主进线、二级配电柜);3) 做接地电阻测试并拍照留档。
实操提醒:避免将敏感设备和大型电机共用一条接地回路,定期(半年)复测接地电阻。
7.
机房冷却与热管理优化步骤
操作细则:1) 采用冷热通道封闭或局部封堵来降低空调能耗;2) 计算冷负荷(匹配机柜散热功率),选择CRAC/Chiller并配置冗余(N+1);3) 部署温湿度传感器(每行机柜1个)并接入DCIM监控。
现场操作:调整送风温度与风速,做热点扫描(使用红外摄像或温度探针),对高热点采取加装风门或提升冷工况。
8.
网络多线接入与物理链路规划
实施步骤:1) 确保至少两家不同海缆/骨干网运营商的物理多线接入,光缆入楼路径应物理隔离;2) 在机房内配置MMR(Meet-Me Room)或交叉连接柜,签署Cross-connect SLA;3) 准备MDF/ODF布线图与纤芯预留。
验收检查:对每条链路做链路测试(OTDR)并记录链路长度、损耗、每端光功率。
9.
网络路由与BGP多宿主配置步骤
技术流程:1) 确定ASN与公网IP申请策略;2) 与两家或以上ISP建立BGP会话,设置合理的AS_PATH、MED和local-pref策略以控制出站流量;3) 配置BFD监测链路可用性;4) 如果需要低延迟优先,设置任何汇聚点Anycast或在本地使用L7负载均衡器做流量分配。
测试操作:做掉线演练(断开一线),验证BGP路由收敛时间并记录抖动和丢包率。
10.
机柜布局、线缆管理与安全控制
落地步骤:1) 按电力、冷却与网络的路径优化机柜排列,留下热通道和维护通道;2) 使用托盘、桥架和标签化线缆管理,每根网络/电源线标注机柜号与端口;3) 门禁与视频监控按区域分级,重要区域采用双人双锁和审计日志。
运维要求:制定机房巡检表(每日、每周、每月项)并保留巡检记录和改进项。
11.
验收测试(工厂验收与现场验收FAT/SAT)
测试清单:1) 电力测试:市电切换、ATS、UPS放电曲线、发电机负载;2) 网络测试:光链路OTDR、延迟/抖动/丢包测试、BGP failover;3) 冷却与环境:冷热通道温度图、湿度、烟雾与漏水检测;4) 安防:门禁、录像回放与入侵报警测试。
交付资料:单线图、配电清单、测试报告、保修与维护合同、操作手册与应急预案。
12.
问:在香港选择机房时,如何权衡成本与冗余等级?
答:首先量化业务对可用性的需求(年故障停机时长预算)。若业务可承受较短时间窗口,可选择TIER 2/3并用成本换扩展性;对金融/关键站群建议TIER 3+或双活灾备,增加UPS/发电机与多线接入。实际操作上,把成本分解到硬件(UPS/发电机)、运营(燃油、维护)、网络(多运营商)三类,做CAPEX+OPEX对比,选择在可承受的SLA下最经济的冗余组合。
13.
问:如何验证承租机房的电力与网络真实能力?
答:在签约前要求现场演示或签署FAT/SAT,明确进行断电/切换测试与BGP切换演练。要求提供近6个月的电力中断记录、链路故障记录与营业执照/合规证书。对网络,做从业务节点到目标机房的延迟与丢包测量(ping、traceroute、iperf3),并要求交付OTDR与损耗测试报告。
14.
问:机房日常运维中,哪些电力与网络监测要即时报警?
答:建议至少监测并即时报警:市电A/B路失电、UPS电池电压异常、发电机故障与燃油低位、进线电流过载、配电柜温升异常、冷热通道温度超阈、光链路丢失/误码率增高、BGP邻居掉线。报警应触达值班工程师并触发预案(例如自动转移到备用链路或降级策略)。
来源:香港站群服务器机房选址标准与电力网络环境优化实用指南