现在的位置: 首页 > 综合 > 正文

北京修复宕机故障之旅

2013年05月03日 ⁄ 综合 ⁄ 共 3437字 ⁄ 字号 评论关闭

2012-12-18

下午开会探讨北京项目出现的一些问题,当时记录的问题是由可能因为有一定数量的客户上来后,就造成了Web服务器宕机,而且没有任何时间上的规律性,让我准备出差到北京,限定三天时间,以及准备测试压力的工具软件等等。

2012-12-19

上午飞抵北京后,进行了安顿安排,以及开会听王经理讲了一下情况。由于服务器已经在生产网上,客户在使用,北京大概有100多个将近200个收费网点,每天都有很多客户在排队缴费,所以不能进行相关的压力测试,只能在晚上进行。下午针对简单的操作编写了压力测试用的操作逻辑。

晚上和大家一起进行做对系统的初步压力检测。

检测结果:

本机搭建的Web服务器和一台数据库Oracle服务器并发1000人的登陆的结果是,虽然内存有逐步的上涨,但没有宕机。

真对运行生产网进行了压力测试检验后,和白天也出现的宕机状态一样,初步分析应该不是因为程序的架构缺陷,以及程序的编写缺陷造成的原因。

2012-12-20

针对系统现象表明,如果在集群内,一台服务器宕机,另外一台服务器不在集群入口进入的话,还可以使用。但如果有新登陆的客户,如果被分载到了宕机节点后,就会登陆不进去。晚上测试的现象表明,如果宕机了,Tomcat还没有挂掉,而在登陆的时候连接不上数据库,并且根本没有连接数据库失败的报错。但如果把数据库服务器网线拔掉后,就会在页面进行报错,当时分析有可能是数据库连接池的原因,但把数据库连接池设置很小后,也会在页面上提示连接失败,并不会宕机。此时分析的结果,有可能是在连接发送到Oracle数据库后,没有返回造成的。随即又做了个压力测试,把Oracle服务器进行全面的性能压力堵塞,在用Web服务器进行连接,这个时候很慢,页面反应效果很像,点连不进去。不过OracleCPU和内存利用几乎是百分之百,局域网内部人去连接Oracle服务器几乎没反应了。和白天的症状不一样,白天一台web服务器宕机后,另外一台服务器还可以很顺利的进行与Oracle服务器进行交互,而且其他用户还可以利用PL/SQP查看系统有没有死锁等症状。由此判断不是数据库的原因。

2012-12-21

由于针对前段症状的分析,程序上没问题的话,怀疑可能是Tomcat服务器造成的原因。Tomcat导致宕机的最大可能性就是内存及缓存的溢出造成的。于是把JVM的内存和最大最小内存连接池以及线程池都设置到最低,然后Web服务器运行后开始进行压力测试。虽然效果和昨天的页面反应情况很像,从测试机器的Logs里可以查出(严重:
Caught exception (java.lang.OutOfMemoryError: Java heap space)
即内存溢出),但是,我又查看了一下服务器的相关记录,并未找到任何一条关于内存溢出的错误日志。通过核对客户群里对系统反应错误的时间,以及核对集群Apache和两个Tomcat出错日志的比对,看看是否能够和集群的相关配置有关。

从日志的结果分析来看,apache在宕机时间内,有两次显示” [Thu Nov 15 14:13:05 2012] [warn] Server ran out of threads to serve requests. Consider raising the ThreadsPerChild
setting”,
这个意思是表明apache作为控制器来讲,他的允许线程数已经不够用了,后来看了一下Apache配置” conf/httpd.conf”文件,发现ThreadsPerChild默认为250。后来查询了相关资料,这个线程一般为最大可以为1920,然后我就把它调节到了1000。由此分析,本系统的应用负载,是现在的架构节点远远不够的。但从数据库的日志,以及tomcat相关日志,并没有对数据库出现异常的相关信息,比如连接速度慢,查看了linuxoracle的日志,也并没有线程以及内存相关的溢出信息,由此分析,瓶颈并不在oracle。于是为了验证想法,又增加了两个负载节点,观察服务器的动向。

2012-12-22

由于工作已经超出原定的三天,也就既来之则安之。而且经理说了,周六周日的人,并不多,每天上来缴费的网点差不多50,到60人左右,想最好是先观察一下。不过今天是周六,一整天都平安无事。

2012-12-23

为了安全起见,我对各种引起宕机可能的情况作了总结。一、内存溢出,二、表死锁,三、数据库连接池死链接,四、数据库瓶颈压力过大,五、负载均衡器入口瓶颈压力过大。当日查看了tomcat的系统日志,发现session会话复制失败率很高。因为两个或多个web服务器做负载的时候,为了保证高可用,要在一台服务器宕机后,自动切换到另外一台服务器。但我们的系统有个问题,因为是采用extjs作为前端,ajax与后台操作量非常大,从而导致服务器session复制两就很大。

Tomcat的系统管理页面可以看出,http协议与外面交互,这一上午的吞吐量也不过52MB,而用于session复制的ajp协议,却达到了133MB。为了认证这一说法,我把其中一台节点服务器的session复制关掉,为了迎接明天压力的到来。

2012-12-24

今天上午的时候,反应还良好,只不过其中有一台服务器稍微有些慢。不过到下午15:24的时候,从负载机,带集群节点,统一宕机。当然其中也包括我那台被关闭session复制的服务器,当时我就蒙圈了。我觉得不可能,没有任何理由啊。因为从负载机进去,就一个IP地址,但各个集群机都有各自的IP或端口,即使是一两个节点宕机,乃至三个节点宕机,但其中那台没session复制的机器也不应该啊。难道是Oracle有防火墙,同一时间出现网络闪断,但那也不用非得重启web服务器才好用啊,因为重启一个节点时,那个节点就好用了,不过另外的节点还是不好用。晚上的时候,开始在Linux查找各种问题。连接,以及日志,结果还是没问题。

2012-12-25

没办法了,只能出最后绝招了。因为系统宕机原因跑不出那五个原因,我决心全面监视起来,每一个信息参数都记录日志,然后进行分析。于是,我就做了个程序,监视内存,JVM内存,JVMCPU,死锁的表,用户操作登陆及日志,连接池,以及web服务器和数据库服务器的TCPIP流的吞吐量。剩下就是漫长的等待了,果然在下午两点多,TomcatJVM空闲内存值,一个节点在一小时内急速下降到0,然后JVM内存溢出,紧接着表开始死锁,然系统页面开始反应缓慢。

通过以上的现象来看。一天的操作都很正常,空闲内存突然的下降。引起了我很大的怀疑,同时我查看了那个时刻的Http页面的吞吐量。也是50多兆。不过JVM内存我可设置了1.5G,完全不是一个数量级别。就并发干整它一个星期,也宕机不了。一定是程序逻辑有问题,造成了内存超大的累加。

没办法,只能看是什么操作了,于是我划定了宕机时间段儿,通过群里的聊天记录,找出宕机的时间范围,然后把这几天的宕机时间内所有的操作日志调了出来,然后找出它们共同的操作。这个时候,“税控机导入”,这个日志这个词,紧排在“登陆/退出”的后面,立刻引起了我的注意。紧接着我就询问了开发人员,然后再我机器上搭了一套模拟环境,开始对这个操作日志进行了压力测试。结果表明,连续上传了三次,系统就JVM内存不够了,而且表被锁住。因为如果传一个比较大的excel,会出现上传时间很长的状态,如果没有耐心烦,就会把页面关闭,虽然关闭,数据库连接池并没有释放。紧接着使用者就会再次登陆,在去实验上传,然后屡试不爽。当他在实验的过程中,线程池,连接池一个个的被占满,内存逐渐溢出。其他人使用,不但反应缓慢,而且登陆都登陆不上去(因为连接池被占有没有释放)。

就此为止,罪魁祸首就浮出了水面。

就此处问题,我提出了解决方案。因为系统硬件为16G的内存,不过32位电脑JVM最大只支持到2G,而且excel上传并不耗费很大资源,只不过系统在读excel往数据库里插的时候,会耗费很大的内存空间。本来tomcat就最大1.5G的支持,几下就死掉。所以,只能把处理excel插数据库的任务,交给另外的进程和线程去做。做个服务,或应用啥的。实时改造的方法,可以利用消息队列进行业务接受。当上传成功后,就在消息队列内进行排序。然后服务读取到消息后,进行处理,等成功后在回执。

 

2012-12-26

准备收工,改造方案的落实。

 

抱歉!评论已关闭.