1 引言
今天,数据中心比以往更大、更快、更复杂。虚拟化、以太网光纤通道和40/100G以太旨在帮助企业将多种类型的传输流,即数据、存储、视频和语音转移到一个单一的、融合的核心中。就如老话所说:“你不能管理你不能测量的东西”,对这些新技术的验证和性能评估是实现这些新技术至关重要的第一步。在数据中心环境中,这意味着不仅单独测试每一项技术,而且还与许多其它数据中心的新老组件一起进行测试。简而言之,关键问题是:当扩展数据中心时,如何验证所有的组件是否能像一个密不可分的整体那样一起工作。本文将逐一讨论每一项新数据中心技术,并详细论述每一种技术面临的重大测试挑战。
2 虚拟化
这些年来,一直使服务器受益的虚拟化开始进入联网的设备。测试虚拟网络设备和服务器提出了以下几个有趣的新问题:
(1)测试仪器怎样能连接在虚拟网络设计上
对于许多类型的测试,一条到运行虚拟交换机的物理服务器的连接将是不够的。一个物理接口可能为几十个虚拟机(VM)实例处理传输流,因此使隔离和测量每个VM实例的性能变得很困难。
现在需要的是虚拟化测试仪的功能。虚拟的测试仪器运行在软件中,因此在运行虚拟网络和服务器实例的物理机器内部运行。从虚拟网络设备的观点来看,一个测试端口与它在物理世界中没有什么两样。
当然,虚拟测试仪器应当提供与物理仪器相同的功能。测试仪器应当能够提供任意数量和任意组合的虚拟和物理接口间的传输流,作为单一实体测量整个系统。它还应当能够在虚拟和物理接口上提供测试人员需要的任意从2层到7层的传输流模式。
(2)是否能信赖运行在虚拟机上的测试仪
运行在软件中的测试仪的概念肯定不是新东西;实际上,基于软件的网络测试工具出现的日期比基于硬件的仪器早几十年,但是基于软件的测试工具常常更多地提供关于基础组件(如网络栈、主机操作系统、驱动程序和网络接口卡)的测量值。
基于软件的工具还会产生不可重复或不可重现的结果。
一种确保测量值可信赖的策略是在软件中实现整个测试仪――包括对硬件组件的基于软件的仿真。这种方法需要比纯软件工具设计更严格的方法实现系统设计。不过,好处是显而易见的:通过在软件中仿真整个测试仪,仪器的测量结果对外部因素的依赖程度大大减少。因此,一台仪器将产生比纯软件工具更有意义的测量结果。
(3)虚拟和物理交换机性能是否相当
线速吞吐量和低延时与抖动长期以来一直是物理以太网交换机的标志,而它们的虚拟同行可能没法与之相比。对早期虚拟交换机的测试显示,在低达50 Mbit/s的负载下就会出现丢帧。此外,这些测试只涉及到一台虚拟交换机上的一对接口;相比之下,交换机和路由器测试的标准作法是将测试接口连接在所有交换机端口上,以全网格模式产生传输流,这是比使用单一端口对压力大得多的测试模式。
即使虚拟交换机永远无法处理像物理交换机那样沉重的负载(虚拟网络早期时代中的一种靠不住的假定),但进行压力测试对于描述系统性能极限仍很重要。
(4)虚拟交换机是否支持与物理交换机同样的协议和功能
在评估以太网交换机时,网络管理员常常至少像强调性能那样强调可靠性和特性。功能性测试对于虚拟交换机就如同性能和可伸缩性测试那样同等重要,应当成为任何数据中心测试方法的一部分。
网络管理员有理由期待任何现代以太网交换机支持像虚拟LAN(VLAN)和访问控制列表(ACL)等特性,以及用于转发多播传输流的Internet组管理协议(IGMP)。这些协议(通常还有许多其它协议)通常是物理交换机性能测试内容的一部分;它们也应当成为测试虚拟交换机的内容。
3 以太网光纤通道(FCoE)
到目前为止,光纤通道(FC)是存储区域网(SAN)中使用最广泛的传输技术。把它融入基于以太网的数据中心提出了特殊的挑战。FC利用管理帧确定终端和交换结构,以及提供以太网中所没有的流控制特性。另外,与以太网不同,FC用于以无丢帧方式运行;相比之下,以太网网络可以容忍丢帧。FC传输流对延时和抖动的增加高度敏感。
以太网光纤通道(FCoE)将FC传输流封装在以太网帧中,因此大大减少了数据中心的接口和线缆数量。但是,它本身并不保护前面提到的FC特有的特性。IEEE开发了几种新规范来确保可靠地提交FC传输流――而这些规范中的每一种都需要测试,尤其在许多数据中心中越来越常见的混合以太网/FCoE部署中。
新IEEE规范包括以下内容:
(1)802.1Qbb优先流控制(PFC)
允许多种传输流种类(如FCoE和非FCoE传输流)共享以太网链路的拥塞控制机制。同IEEE 802.3x中定义的较早版本的以太网流控制一样,PFC也应当成为测试虚拟交换机的内容。
(2)802.1Qaz优先组
这种调度机制旨在为多种传输流种类确保一致的服务质量水平。
(3)数据中心桥接交换(DCBX)
这种IEEE的链路层发现协议(LLDP)的扩展集合使数据中心设备可以在链路建立时交换能力信息。DCBX利用LLDP传送数据中心网络技术特有的消息,如PFC或802.1Qaz优先组的使用。
基本FCoE测试包括对这种新协议的功能验证。具有FCoE功能的测试仪器应当帮助解答一些问题,如FCoE接口是否正确使用FC初始化协议(FIP)来发现,然后登入和退出交换结构;FC终端ID(FCID)是否正确地与以太网MAC地址对应等问题。
在更高级的FCoE基准测试中,测试仪器产生和分析多种FCoE和非FCoE传输流类组合。这里最重要的是FCoE兼容设备在拥塞时期是否很好地察觉优先流控制消息。同步是评估PFC效率时的关键因素。
同常规的以太网暂停帧一样,PFC消息包含一个暂停量子(Pause Quanta)。这种暂停量子指示设备应当暂停传送多少时间。一个暂停量子等于512 bit时间,等价于10Gbit/s速度时的51.2ns。注意,暂停量子指示接口应当延迟传送的最大时间量;如果设备发送指示拥塞清除的XON消息,实际时间可能会短一些。
在产生PFC帧后,测试仪器可以测量暂停持续时间和暂停响应时间,即收到PFC消息和实际的暂停之间的间隔。此外,暂停响应时间可能对于PFC XOFF和XON消息是不同的。
通过产生具有不同的暂停量子(并且使用多种帧长度)来产生多种传输量类型,测试仪器可以生成复杂的负载来仿真FCoE交换机在生产网络中可能遇到的压力。
参考图1所示的测试仪器,这台仪器最初同时生成3种类型的传输流,标记为P1,P2和P3。
图1 测试仪器最初同时生成3种类型的传输流
测试仪器对每种传输流类型使用不同的XOFF/XON间隔,并用不同的间隔重复产生每一类传输流,具体参见表1。
在本例中,所有3种优先级最初同时发送PFC XOFF消息,每个都具有65536的暂停量子。大约150μs后,P2类发送XON消息,紧接着测试仪器在50μs后发送P1传输流的XON消息。在300μs时,测试仪器发送P3传输流的XON消息。然后,重复整个循环:从第一个消息后的450μs发送P2传输流的XOFF消息开始。
由于使用不同的帧长度和PFC间猝发间隔,不同传输流类型迅速变得不同步,从而给FCoE设备施加沉重的负担。
此外,随着端口数量的增加,测试变得压力越来越大。当测试具有数百或数千个端口(每个端口都处理多种PCoE和非FCoE帧组合)的数据中心时,交换机的流控制逻辑必须跟上以10Gbit/s以太网线速(或更高的速度,如下节所讨论的那样)潮水般涌来的PFC消息。正如使用任何新技术那样,必须谨慎对PFC功能进行压力测试来确定系统性能的极限。
4 40/100G以太网
数据中心的另一个重要技术驱动力是40Gbit/s和100Gbit/s版本以太网技术的即将到来。一方面,这些新传输技术是“纯以太网”,只不过速度更快;另一方面,它们对测试设备提出更大的挑战,甚至包括统计包数的能力。
这些新版以太网提出以下新测试挑战:
●我的测试仪器能统计帧数吗?
●我的测试仪器能提供准确的延时和抖动测量值吗?
●我的测试仪器能测量作为单一实体的40/100Gbit/s以太网吗?
●我的测试仪器能确定先后次序吗?
第一个问题,即统计帧数,似乎太显而易见,不需要提出来。但是在40/100Gbit/s以太网上获得准确的包数将是测试仪器面临的重大的技术挑战。搞清楚时间戳分辨率的概念有助于了解其中的原因。
时间戳分辨率刻画测试仪器记录每个测试端口上的帧离开和到达时间的精度。在测量传送时间和统计包数时,测试仪器在每个帧中嵌入一个“签名域”。