数据集中、SAN、云计算、10/40/100G运用正引领我们整整的高带宽时代,数据中心的高速物理链路也遭遇自综合布线系统诞生以来空前的质量要求。即便是有着丰富经验的大型集成商、安装商和供应商,习惯了以往布线方式和检测方式的他们也正开始经历一番“磨难”。特别是高速、高密度光纤链路的使用带来了一些设计、安装、验收、维护等方面的深刻变化。本文探讨如何打造高可靠性的数据中心,并着重从测试的角度提供实现靠可靠性的保障方法,使得因布线问题造成的系统资源浪费、低效运行、停运等造成的损失减到最小。
高可靠性的数据中心布线系统一方面意味着基本上不会出问题,即便出了问题也一定是应用系统软硬件的问题,但实际情形却并不乐观。CTEAM 2010年提供的数据表明,我国1000点以上的工程检测报告的可信度在84%左右,不包括未进行光纤二级测试(后述)的比例。加上此因素后则可信度在20%以下。另一方面,如果布线系统出现问题则需要尽快发现、定位并尽快解决。但在云计算系统中,低效的布线链路很难被即时发现,因为它会被系统误认为是服务器资源的退化,进而分配资源给其它服务器承担计算工作,结果造成云系统中可能积累大量被错判的低效服务器,且这种误判会持续相当长的时间,浪费大量计算资源。
那么,如何才能打造一个高可靠性的数据中心信息布线系统呢?
打造高可靠的数据中心信息化布线系统始于规划设计阶段。除了选择品质过硬的产品和能支持灵活扩容的方案,设计时预留适度备份(TIA942A要求4级的物理链路达到1:1备份)、采用电子(追踪)标签、采用“结构化可重敷管线槽系统”、注意电缆系统散热处理、接地处理等措施可以大大减少系统可靠性降低的风险。设计任务书中应标明拟采用何种方式、标准等进行验收检测、选型测试、进货测试,在运行维护阶段如何采取措施保证标签准确即时更新、保证定期检测维护的周期和内容得以具体落实,也是提高可靠性的有效手段。具体时间中,任务书的效力在逐渐递减,这是需要解决的一个问题。
如果在施工管理阶段实施进场测试、入库测试、随工测试、监理测试等流程控制,验收阶段保证普遍实施光纤二级测试、铜缆外部串扰测试,使用维护阶段保证实施开通测试、维护后恢复再认证测试、扩容升级拓扑优化调整后再认证测试,则系统可靠性可达高指标。
甲方如何选择并委托有资质和经验的监理方、第三方检测机构来实施上述可靠性方案。目前在高可靠性特别是高密度数据中心布线系统工程中这还是一个尚未解决的难题。甲方如何就后续使用维护阶段获得持续的可靠性保障所需的人员、经验、工具也基本上处于自我摸索阶段。
其实,如何实施高可靠性项目已经是一套比较成熟的理论和方法,以下部分就如何通过检测来保障数据中心信息化布线系统的高可靠性进行介绍,以期缩短这种“摸着石头过河”不成熟期和高损失期。
如何避免开通应用时链路误码率高的问题
【案例】一家网络即时通讯公司租用电信机房作为数据中心,数十条万兆链路开通时工作不稳定,端口总有错误,且时常重启,由于光纤长度70~100米,损耗只有大约2.5dB,故怀疑是10G光模块问题,更换模块和交换机主机后问题依旧。后经过高解析度OTDR测试发现是中间误用了一段35米左右的OM1光纤。更换OM3光纤后系统回复正常。
由于损耗测试合格,链路长度不超差,故传统的损耗测试(一级测试,Tier 1)在此不能发挥作用,必须引入二级测试(在一级测试的基础上增加OTDR测试),才能检测是否有异质光纤、连接点/熔接点损耗超标、连接点/气泡/裂纹/捆扎过紧是否有过强反射。为了识别1米跳线,OTDR最好使用事件分辨率指标短于1米的。