四个大型商城网站主要故障处理方法
大型商城网站建设运行后期比较常见的故障以及处理方法,深圳网站建设公司根据日常的工作经验总结出九大典型故障,本文与各位分享其中四种。我们先从一次工程师曾经的一次面试经历聊起,有一次,博纳网络程序员某位朋友和几个网站架构师讨论问题,期间,一位架构师被他们部门总监叫去面试位应聘者。结果过了十几分钟,这位架构师就回来了,我们都很奇怪:怎么这么快?他笑道:“这位老兄,工作十几年,什么都不会,没什么好问的”。我们问他都问了什么问题,结果都是一些如果没有经历过,就永远不会想到的问题,而这些问题只要在大型网站技术线呆上两三年,就一定会碰到。
一位网站资深架构师曾经说过:在互联网公司呆一年,相当于在传统软件公司呆三年。他的意思大概是在以开发为主的互联网公司年遇到的问题比传统软件公司三年遇到的问题还多。而且随着网站业务的快速发展,问题也层出不穷,每年遇到的问题都不同。遇到问题,解决问题,经历了这个过程,技术才能升华,人和技术才能融为一体,才知道什么技术是真正有用的,什么技术是花拳绣腿。
大型网站的技术本质都很简单,没有很花哨的东西,掌握起来也不难。大型网站的架构师最有价值的地方不在于他们掌握了多少技术而在于他们经历过多少故障。每次故障都会给公司带来难以估计的利益损失,所以培养一个网站架构师的成本不单要看付了他多少薪水给了他多少股票,还要看为他引起的故障买了多少次单。这里列举一些网站的典型故障,我们会发观,在高并发和海量数据的情况下,很多一般情况下不是问题的问题都会涌现出来
一、大型商城网站故障之写日志也会引发故障
故障现象:某应用服务器集群发布后不久就出现多台服务器相继报警,硬盘可用空间低干警戒值,并且很快有服务器宕机。登录到线上服务器,发现log文件夹里的文件迅速增加,不断消耗磁盘空间。
原因分析:这是个普通的应用服务器集群,不需要存储数据,因此服务器里配置的是块100GB的小硬盘,安装完操作系统、Web服务器、Java虚拟机、应用程序后,空闲空间只有几十GB了,正常情况下这些磁盘空间足够了,但是该应用的开发人员将log输出的level全局配置为Debug。这样次简单的Web请求就会产生大量的log文件输出,在高并发的用户请求下很快就消耗完不多的磁盘空间。
处理以及经验教训
·应用程序自己的日志输出配置和第三方组件日志输出要分别配置。
·检查log配置文件,日志输出级别至少为Warn,并且检查log输出代码调用,调用级别要符合其真实日志级别。
·有些开源的第三方组件也会不恰当地输出太多的Error日志,需要关闭这些第三方库的日志输出,至于哪些第三方库有问题,只有在遇到问题时才知道。
二、大型电商网站故障之高并发访问数据库引发的故障
故障现象:某应用发布后数据库Load居高不下,远超过正常水平,持续报警。
原因分析:检查数据库,发现报警是因为某条SQL引起的,这条SQL是一条简单的有索引的数据查询,不应该引发报警。继续检查,发现这条SQL执行频率非常高,远远超过正常水平。追查这条SQL,发现被网站首页应用调用首页是被访问最频繁的网页,这条SQL被首页调用,也就被频繁执行了。
经验教训:
·首页不应该访问数据库,首页需要的数据可以从缓存服务器或者搜索引擎服务器获取。
·首页最好是静态的。
三、高并发情况下锁引发的故障
故障现象:某应用服务器不定时地因为响应超时而报警,但是很快又超时解除,快复正常,如此反复,让运维人员非常苦恼。
原因分析:程序中某个单例对象(singleton object)中多处使用了svnchronized (this),由于this对象只有一个,所有的开发请求都要排队获得这唯一的一把锁。一般情况下,都是些简单操作,获得锁,迅速完成操作,释放锁,不会引起线程排队。但是某个需要远程调用的操作也被加了svnchronized (this),这个操作只是偶尔会破执行,但是每次执行都需要较长的时间才能完成,这段时间锁被占用所有的用户线程都要等待,响应超时,这个操作执行完后释放锁,其他线程迅速执行,超时解除。
经验教训:
·使用锁操作需谨慎
四、缓存引发的故障
故障现象:没有新应用发布,但是数据库服务器突然Loadaii升,并很快失去响应。DBA将数据库防问切换到备机,LoadW很快飙升,并失去响应。最终引发网站全部瘫痪。
原因分析:缓存服务器在网站服务器集群中的地位一直比较低,服务器配置和管理级别都比其他服务器要低些。人们都认为缓存是改善性能的手段,丢失些缓存也没什么问题,有叫候关闭两台缓存服务器也确实对应用没有明显影响,所以长期疏于管理缓存服务器。结果这次一个缺乏经验的工程师关闭了缓存服务器集群中全部的十几台Memcached服务器,导致了网站全部瘫痪的重大事故。
经验教训:
·当缓存已经不仅仅是改善性能,而是成为网站架构不可或缺的部分时,对缓存的管理就需要提高到和其他服务器一样的级别。好了,网站建设公司本文关于大型电商网站易发的四个故障现象以及处理方法就分享到这里,谢谢关注,我们会在下期的文章中继续就其他故障现象进行探讨分享。博纳网络编辑整理。