事件回顾
在中央电视台高清化、文件化、网络化的节目生产体系中,数字化的视音频资料是极具价值的媒体资产,建立媒体资产管理系统是中央电视台的一个重要战略部署。中央电视台音像资料馆作为第一个建成的媒资系统,承担着历史素材数字化的重要任务,每日需要将 200 余小时的传统磁带进行上载采集,全年保证完成 10 万小时。
音像资料馆配备 18 条工作站上载通道和 4 条服务器上载通道,用来完成每日的采集任务。整个系统采用双网结构,通过以太网实现数据之间的通讯,光纤网进行媒体文件的传输,录像机链接板卡,大洋上载软件实时对输入信号进行采集,采集生成的文件存储在高性能磁盘阵列上。系统在试运行阶段,运行正常未出现任何问题,但是随着业务量的增加,在日常生产过程中,时常出现采集丢帧,操纵系统报错的现象(系统错误代码: 1053 ),一旦出现报错,只能重新进行采集,严重影响生产进度。针对这一问题公司召开了专项会,各方面的专家进行问题会诊后,最后定位为是光纤网络波动导致上载工作站与光纤阵列链接闪断,造成采集任务执行失败。由于整个光纤网部署设备较多,但是 zone 的划分并没有遵循最简原则,过多的设备被划分到在一个 zone 里,只要整个 zone 中有一个设备出现问题,就会波及到这个 zone 中的成员出现问题。由于网络系统集成是另外一家公司完成的,所以 zone 的调整不可能在短时间内开展,但是每日的生产任务是不可以耽误的,所以大洋公司研发团队对上载采集环节的工作模式进行了优化,最终有效的减小了由于系统不稳定而带来的损失。
解决方案
原有的上载模式为边采集边传输,即上载软件实时将采集生成的文件存储在磁盘阵列上,一旦采集失败,不但要重新进行采集而其还要删除磁盘真理上的垃圾素材,不但耽误了每日的生产任务,还加重了日常工作。
在问题出现以后,大洋研发团队改进了上载模式,使用异步方式,先采集再传输。每次采集文件都先缓存到上载工作站本地,当采集完成后,再启用传输软件,将缓存在本地的文件传输到磁盘阵列上,这样设计的优点在于,如果出现网络波动,只是影响传输速度,但是丝毫不影响采集任务,这样可以将损失降到最低,并且传输软件具备验证功能,这个传输过程增加 MD5 的计算和验证,增加了文件传输的可靠性,保证了文件的完整。