现在的位置: 首页 > 综合 > 正文

DBA与手机铃声

2014年02月15日 ⁄ 综合 ⁄ 共 1515字 ⁄ 字号 评论关闭

 早上起来去拔掉充了一夜电的手机,看到有几十个未接来电,和若干条短信。

部分短信内容如下:

‘数据库昨晚十二点半挂了’

‘看到短信后速回,着急’

 

呼吸有些紧张,大脑一片空白......

公司系统是7×24运行的。平时计划中的系统维护都是争分夺秒的。

凌晨十二点半到现在已经过去了近六个小时?

意味着业务中断了六个小时......

没时间了,也不敢再想了......

赶紧给同事打电话,问清楚发生了什么问题?

在0:30发现数据库失去了响应,2:10 SA到达现场后无法登陆系统,通过强制关电源重启了操作系统。

了解到操作系统已经恢复正常,但数据库还没起来。

马上用VPN登录系统,准备去启动数据库。

先浏览了一下数据库的日志,没发现什么异常。

接着检查了,磁盘空间,内存,cpu等系统资源.

确认都比较正常后,开始用sqlplus 登录,重启oracle,重启监听。

一切都非常顺利。

电话通知同事,数据库恢复正常,系统可以用了。

 

同事重启应用,应用恢复正常。观察了一会数据库没什么问题,

赶紧胡乱吃了口老婆准备的早饭,马上往单位赶。

 

到了单位看去跟往常一样,风平浪静。但我心情却极其复杂。

因为我手机在充电,且是震动状态,导致所有的来电都没有听到......

不知道怎么去面对辛苦了一夜的同事、领导,以及其它部门上夜班的同事们.....

不知道如何去解释这件事情......

 

想想目前能做的也只有老老实实的分析数据库和系统的日志了,等奋战了一夜的

同事们吃完早饭回来在了解详细情况吧。

日志的分析结果让我很无奈。

数据库最后的日志如下:

Wed Jul 04 00:27:04 2012

Archived Log entry 28154 added for thread 1 sequence 9361 ID 0x6bfce3e9 dest 1:

前面的日志都很正常,没有任何的错误信息。

 

手机的未接来电记录显示第一个未接来电是监控中心打来的,在0:34 分。

公司的监控中心离公司比较远,且数据库主机无法远程登录,所以监控人员无法解决问题.

随后在2:10分,SA到达现场后,无法登陆主机,通过强制关电源重启了操作系统。

 

从00:27 到2:10分在此期间:

1.数据库没有留下任何日志。

2.监控程序也没有留下任何日志

3.操作系统也没有任何日志。

 

这意味着什么呢?可能是硬件出了问题。为什么呢?

1.因为数据库在正常情况下,半小时做一次强制归档,但这个期间没有看到任何归档信息。

2.SA通过鼠标键盘无法登陆到操作系统,排除了网络的故障。

3.数据库、监控程序、操作系统三类不同的程序,在同一时刻同时失去了响应,大约只能是硬件导致的。

 

当然这只是猜想而已,证据呢?

DELL的工程师给了我们一个链接,用来收集硬件信息。

http://support1.ap.dell.com/cn/zh/forum/thread.asp?fid=20&tid=276581

把收集来的信息反馈给DELL的工程师,得到的答复是硬件正常,没有问题。

 

看来找DELL厂商是没希望了,给一个做系统集成的朋友打电话。描述了我遇到的情况。

当我说到是DELL的服务器时,他反问我说是不是R710,我回答是。

电话那头传来他得意的笑声,并用同情的口气说到‘不用查了,我已经遇到两家客户反馈DELL R710

在使用大约半年时间后,有一批同型号的机器莫名其妙的死机。现象跟你描述的差不多‘。

听到这个消息我顿时无语,只能自认点背了。

但也不能偏听偏信,去google一把,果然有几个类似的案例。还能说什么呢?

 

宁可信其有,不可信其无。决不能让同样的事情在发生一次。。。

1.加强演练应急预案

2.准备打报告,换机器。。。。。。

3.经历的这次事故后,手机状态改了为铃声加震动,会议中除外。

抱歉!评论已关闭.