11月14日至16日,大洋运维与大洋DBA连续三天对安徽广播电视台全台网最小化应急系统数据库进行搭建与测试,此次搭建安装了Oracle Golden Gate软件,它是一种基于日志的结构化数据复制备份软件,它通过解析RAC集群数据库在线日志或归档日志获得数据的增量变化,再将这些变化应用到最小化应急系统数据库,从而实现源数据库与目标数据库同步。
11月17日10:30,大洋运维人员例行检查发现民生新闻网有几条流程无法正常传入演播室,当即判断可能与DBA调整数据库有关,现场运维人员立即将该事件通报项目经理及台方负责人,并通过查看数据库日志发现RAC集群数据库负载过大并出现大量关于Golden Gate软件错误提示。由于临近民生新闻网午间12:00《新闻午班车》节目直播时间,情况非常紧急。运维人员立即启动事先准备好的应急预案,按照步骤及时关闭Golden Gate软件,并将错误流程打回重新提交,经过及时的处理,10:40左右恢复正常,中午直播顺利进行,未受到影响。
11月17日当日晚上,合肥的气温已降至零度以下,运维小伙子们依然斗志昂扬陪同DBA对Golden Gate软件日志进行仔细分析和反复测试直到凌晨5点,最后发现是Golden Gate软件某个参数导致。在运维的大量测试下同时找出了民生新闻网数据库系统内最多使用的前10个未做优化的查询语句,其也是影响数据库性能问题之一。随即建议DBA对数据库参数进行修改、添加索引、优化语句,修改后运维小伙子们立即展开测试,经过1个多小时大量测试未发现任何异常。
其实Golden Gate可以与RAC集群数据库实现“无缝对接”,只需要关闭RAC集群并启动Golden Gate软件,客户端无需任何改动就可以连接,但Golden Gate和Data Guard一样不能多次启用,使用后需重新搭建,运维也将继续深度学习新投入使用的Golden Gate软件及相关技术。
此次数据库升级、优化及故障处理体现了运维人员遇事不慌、沉着冷静、科学应对的综合素质,同时也锻炼了团队的凝聚力和各子网的协调力,及时排除故障得到了台方的充分肯定。天已拂晓,运维小伙子们拖着疲惫的脚步,在寒风中走在回家的路上,但由于连日来加班换来了问题的圆满解决,小伙伴们心里还是暖暖的,脚步也越走越坚实。

