在*个机构内部,分配数字化视频数据的方式已经取得了显著进步。 Fibre Channel技术已允许基于服务器技术的RAID在分配网络之问发挥其吞吐量的潜力,为广播和后期制作视频数据的实时分配和传输提供了途径。在不久的将来,Fibre Channel将允许MPEG2流和其它在广播和后期制作机构中常用的信号在各节点问自由分配。本文提出了为*化基于Fibre Channel产品的发展所必需的测试设备,以及如何利用它们在*个机构内对Fibre Channel链路进行监测和测试。
*、Fibre Channel系统
你的业务机构迟早会充满Fibre Channel,有*点同样可以肯定,那就是有*天你会发现,Fibre Channel系统的工作不能如你所期望的那样。发生这样的事情时,用户就想知道它为什么不能正常工作,这是“恢复常规”的第*步。
多年来,我们已经看到这*动向。Fibre Channel有许多*良的性能,使其自然适合于媒体应用。Fibre Channel不仅有很高的带宽,而且能够工作在相隔距离远得多的设备之间,并允许轻松地混合视频、音频、图形和控制信号,不管它们的载送是依循IP、SCSI,还是其它协议。既然已有各种供应商可提供设备,接下去就是建立系统。开始时,系统工作会是良好的。它将按期望的那样做任何事情。但是惭惭地,随着应用或存储要求的改变,或某*项要求需要升*或业务扩展,突然间,其性能显得不足,在需要某*性能的时候却偏偏没有。可能出现响应时间延长,或偶然地,视频或音频包不能及时送达,甚至根本就收不到。用户要消除这些症状,就必须**追查在Fibre Channel层面出现了什么问题。进行这*步的*基本工具是协议分析仪,接着是性能监视器。这些设备只是作为观测仪器而被接入环路或光纤网中,它们不会以任何形式启动或中止通道中的通信,或改变通信。不像SCSI中所有信息都流经总线上的每*点,Fibre Channel包含*系列固有的单向链路。为了解设备性能,监测点至少有两个,*个在上游,*个在下游。因此,所有的Fibre Channel协议分析仪都有两个接口。较复杂的测试环境可能需要多组装置协调运行。
二、测量仪器
为简单起见,对这两种工具的讨论将从性能监视器而不从协议分析仪开始。性能监视器是*种可以实时显示所通过的传输流的通信量、信息统计和基本误码情况的装置。特别地,对光纤通道的显示包括:速率显示,包括B?s、帧?秒和链路利用率;信息表征—帧规格分配;低*误码情况,指编码混乱(CV)、循环冗余检查(CRC)失效和环路启动程序(LIP)事件。速率显示是以瞬时值、峰值或对时间的曲线图来表示的,误码情况用时间标记来存档。协议分析仪是记录通过它的全部信息或特定部分信息的装置,并备有时间标记。它含有两种等同的、有协调控制效能的独立信道。当两个信道不够用时,多台分析仪能够同步运作。被捕获的数据可存储到*个超高速RAM上或*个硬盘驱动器上。*旦操作停止,用户就能观看捕获的数据,或者经软件包后处理后产生详细阶性能分析。由于Fibre Channel数据将以接近每个信道100Mb?s的惊人速率通过协议分析仪。如何控制所需存储信息就非常重要。这是对示波器的触发器功能的直接模拟。不过,协议分析仪的存储能够多次开始和停止。因而它能收集相似的多个案例,并允许对它们进行独立分析。通常Fibre Channel触发器会在*些帧和或特定素材内切断某些特定场的匹配,但是如果协议分析仪种性能监视器是链接的,就能在用户的触发事件项目上添加不同吞吐量测量和误码情况。有时用户可能希望将捕获的带宽限制在较固定的位上,并将结果轨迹存到硬盘驱动器上。通过这*措施,用户能获得数小时甚至数天之久的追查轨迹。很显然,为进行这类捕获必须非常专注。协议分析仪内的数据滤波器允许用户将捕获局限于存*个特定的源识别码和?或目标识别码。特定类型的命令或响应,或只是每*帧的前几个字节(数量由用户规定)上。那么,怎样使用这些工具呢?
三、测试方法
要检查的*基本项目,是Fibre Channel环路本身的完整性。只要快速浏览*下误码资料,用户便可知道各条电路或光链路是遇到了麻烦还是工作正常。*旦系统启动,除非环路上的某*设备不得不替换或环路因其他原因而中断,LIP*般不会发生。Fibre Channel声称指标为运行误码率低于10-12(大约每小时3个),大部分用户报告说其误码率远低于这个值。如果误码存档报告不如LIP所期望的,或每小时CV或CRC误码数量超过l-2个,就该检查*下环路中链路的完整性了。
如果链路完整性出了问题,由于Fibre Channel环路就像小孩们玩的“打电话”游戏*样,用户就会面临新的挑战。除非误码是发生在原发地和性能监视器之间,否则用户很难确定误码究竟在哪儿发生。ANSITll委员会正在试图借助链路误码状态功能(LinkEnor StatusFunction)来解决这个问题,其设想是在每*个节点掌握误码事件。不过,在真正做到这*点之前,还没有什么简便的办技可以识别链路状态(RLS)命令对环路作定时查询,并确定在线路中应从哪*个端口着手探查误码。
如果将性能监视器的误码探查效能用来触发协议分析仪,用户就应该能够捕获有误码的帧,并有希望查出原发地。然后用户就能够将性能监视器向*条链路的上游每移动*次观察*下各位置的误码率。“误码率台阶”(EnorRate Step)*旦确定,问题就可隔离在那个端口(或与其直接相连的下游电缆)上。
如果问题与链路完整性无关,另*个可能件是环路自身有过载情况。环路过载很容易用性能监视器测出来。峰值总线利用指示(或总线利用率对时间的关系曲线)可能显示*条摆幅异常大的利用率曲线,它从很低的平均数(完全处在Fibre Channel容量内)至接近100%,它导致转换迟缓(甚至失效)或响应缓慢。这种情况表明,可以利用性能监视器的某种门限(如:利用率超过90%)作为协议分析仪的触发条件。包含整个峰值利用期(包括临近起始部分)的轨迹能显示:为什么大量的信息试图在同*时间通过环路。即使Fibre Channel环路没有过载,仍然有可能存在环路上某*装置过载的情况。协议分析仪可以多种方式帮助用户找到这种问题的根源。
**,可运用后捕获软件仅仅收集和分析帧头部分的长轨迹。以确定短期和长期载荷是否平衡。如果*个装置特别忙,其通信就应予以隔离(应用协议分析仪的滤波功能),并对其进行详细研究。即使没有特殊问题,这种初期的全设备隔离程序也要定期进行。与早期的数据进行比较。可显示不安全趋势因而提高警惕以防止在未来某*时间出问题。
如果可即时发现响应时间或丢失数据的影响,第二种方案是连续捕获更详细的轨迹(“包裹模式”),*经发现影响,立即停止捕获。要记住,所谓“发现”并不限于人工操作,对任何错误的电子显示都能与协议分析仪的外同步输入相连。用来停止捕获。这样,分析仪的轨迹中就会含有引发问题的特定事件。检查时间标记以确认轨迹足够长,以及包含出现问题的时间段;不然就重新调节滤波特性(如每帧数据)以延长捕获期。*旦被捕获,相同的后捕获分析软件或可视检查就会显示有问题的装置。如果需要更多的信息,可作第二次运行,只储存从特殊识别码上得到的想要的帧,以便仅从这些帧上捕获更多的细节。丢失数据的另*个潜在原因是定时但却无序地发送信息。出现这种情况时可用上段所述方法来监测。希望本文能够帮助人们减少运用Fibre Channel这*激动人心的新技术时的忧虑。潜在的问题还可能出现,并需要运用新的诊断方法,但是现在已经可以得到为使系统保持高效运行状态所需的诊断工具。