首 页
 
经典案例
    经典案例

解放军电视宣传中心磁带库故障紧急处理案例

  

  一. 故障说明

   2011年5月,解放军电视宣传中心、媒体资产管理系统服务器机房供电系统意外中断,引起机房中所有设备在短时间内多次断电开关机,系统中承载着90%节目存储量的核心存储设备SL8500数据流磁带库受影响发生故障,该设备涉及到的业务应用众多,中断过长时间将带来巨大的损失。大洋传媒公司运维项目组承担着保证解放军电视宣传中心全台网7×24小时安全稳定运行的任务, 面临着严峻的考验。

   二. 故障处理

   发生故障的核心存储设备在解放军电视宣传中心网络中稳定运行多年,给用户留下很好的印象,曾经出现过的故障大多也都定位在软件配置等可即刻解决的小问题上。而这次电力系统断电对带库的冲击很大,大洋传媒运维人员多次调试重新启动仍不能解决问题。按行业惯例,如果用户设备已过保修期,厂家一般收到坏件才开始维修,最快也需近10个工作日的流程。急迫的形势下,大洋传媒运维人员在和技术部、总编室协商之后,及时联系带库厂商工程师当晚赶到现场进行全面检查,最终确定故障由机房温度不达标、中央空调不符合设备环境使用要求引起。

  故障一经发现,大洋传媒运维工程师马上果断关闭了所有服务器和网络存储设备,并迅速向台方物业部门和中心技术部反映电力故障现象,尽自己最大努力保护中心财产,将设备财产损失降到最低。物业人员到场后我方工程师协助物业电力人员检查各个机房的电力系统、所有设备的短路现象及UPS配电箱,发现某个主路UPS切换开关损坏是造成供电系统中断的直接原因,并用备用电路恢复了供电。

  为满足中心技术部需尽快恢复媒资子网业务生产的要求,大洋公司运维工程师随即着手检查机房的所有设备,当开启SL8500磁带库时,带库控制面板上出现了磁带库错误的提示,经过初步故障排查与监看日志输出发现,磁带库已经出现故障。运维工程师推测故障主要原因可能为供电故障引起交流电供应在短时间内多次切换主、备供电线路,对设备产生了瞬时超高电流的冲击,烧坏了磁带库的交直流马达和线路板,此推测在电话远程联系带库厂商工程师后得到确认,无奈之下中心的媒资上载业务只能暂停。

  在我方运维人员的努力下,整个故障解决过程从紧急关闭所有系统到处理定位故障点,再到电力恢复、开启所有服务器仅用了短短两个小时。

   三,后期维护 

  随后在存储系统恢复正常后,我方运维工程师针对用户的网络业务现状提供了详尽的检测报告,并及时进行了现场巡检,针对媒资网络的应用情况、硬件运行状态情况、设备的运行负载及流量统计等进行了详细的检查。 根据大洋传媒公司服务规范的要求,用户最后还收到了一份由我方运维工程师提供的巡检报告总结,切实感受到了大洋传媒服务的主动、快捷、规范、安全、质量可视化、具体化、多层次等特点。

  总结

  通过各方努力,此次带库故障得到了迅速的处理,但仍然影响了用户上载业务的正常生产。这次事件后,用户意识到自身系统存在着的诸多潜在危机,包括设备使用年限长、温度与机房环境不符合设备要求等等。更重要的是这次事件让用户深刻意识到,只有将被动救火式的运维服务转变为主动运维服务的管理模式,即只有购买大洋专业的设备维保服务,才能有力地保障在设备出现问题时,及时得到原厂级别的现场技术支持,及时排除设备故障和确保业务不被中断。


 

 
 
    客户服务热线:400-005-1055 2012 北京中科大洋传媒技术服务有限公司 All right reserved
    友情链接:北京中科大洋科技发展股份有限公司 法律声明 | 京ICP备11023527号