网站故障
昨天凌晨4点多服务器当机,到10点才恢复。今天上午9点再次当机,10点恢复。
前天通过 了第一个7×24测试,以为开始稳定了呢。
当机原因仍然都是JVM的GC问题。但具体引发GC问题的原因还不清楚,因此可行的方案还在寻找中。
前天通过 了第一个7×24测试,以为开始稳定了呢。
当机原因仍然都是JVM的GC问题。但具体引发GC问题的原因还不清楚,因此可行的方案还在寻找中。
hofman
2006-09-16 10:21:40
阅读:81
评论:0
引用:0
晚上19:55-23:25,网站再次出现长时间的访问故障。故障原因是:数据库服务器硬件老化,系统死机。数据库服务器是2002年夏季采购的PC机,几年来一直非常稳定,看来毕竟超期服役了,应该退居二线。
网站新服务器自2006.8.21服役以来,网站可访问性迅速下降,已经退步到比较严重的地步了。今天凌晨在上次70分钟访问故障出现不到2个小时,再次出现70分钟的访问故障。
新学年之初,一个重要任务,就是恢复网站的可访问性到原先的水平。一是要解决jvm crash问题,二是升级数据库服务器硬件。
网站新服务器自2006.8.21服役以来,网站可访问性迅速下降,已经退步到比较严重的地步了。今天凌晨在上次70分钟访问故障出现不到2个小时,再次出现70分钟的访问故障。
新学年之初,一个重要任务,就是恢复网站的可访问性到原先的水平。一是要解决jvm crash问题,二是升级数据库服务器硬件。
hofman
2006-09-04 23:39:28
阅读:43
评论:0
引用:0
晚上近11点,发现网站不能访问,查看服务器,原来是jvm heap资源用尽,jvm崩溃,服务器退出运行。
再看同一目录下,原来有3个类似的错误日志文件,分别是8.21,8.28,原来上次15个小时访问故障与此是同一问题,但当时大意了,虽然第一次出现原因不明的服务器故障,却未跟踪下去。
故障原因发现,但是解决方案可能还要几天,思路是调整jvm参数。
再看同一目录下,原来有3个类似的错误日志文件,分别是8.21,8.28,原来上次15个小时访问故障与此是同一问题,但当时大意了,虽然第一次出现原因不明的服务器故障,却未跟踪下去。
故障原因发现,但是解决方案可能还要几天,思路是调整jvm参数。
hofman
2006-09-03 23:07:22
阅读:65
评论:0
引用:0
今天发现,服务器出现了15个小时的访问故障。原因现在还没有弄明白。今天凌晨2点多一点,我下班的时候,服务器即停止运行,下午4点才知道,5点多启动jboss。查看服务器日志,包括操作系统的日志,未发现任何异常。可能是昨天远程启动不当所致?
hofman
2006-08-21 18:31:30
阅读:60
评论:0
引用:0
晚上19:10左右访问本站相册时,发现异常。远程查看服务器日志,原来17:40:04学校停电了1分钟,之后服务器在来电后之后自动恢复运行,17:43:34访问基本恢复,故障时间3分钟半。但相册等模块受到一定影响,原因是数据库服务器也受停电影响,来电后自动重新启动时,由于文件系统是ext2,自检速度远慢于网站服务器的ext3,从而导致网站服务器部署相册功能模块时,数据库服务器尚未完成启动过程,部署失败。
19:16证实了故障原因,kill掉服务器进程,再重启web服务器,故障消失。
此次停电1分钟,实际影响访问5分钟,影响相册模块则达90分钟。备份服务器218.247.173.83受其影响,至今处于关机状态,这种状态可能一直要持续到8.4教师开学。
看来,走前一天,紧急准备新服务器是非常正确的做法。
updated:再查服务器日志,发现昨天(07.23)10:57,学校也发生过一次供电异常,就是闪了一下, 可能1-3秒钟就恢复了,83应该在昨天就牺牲了。
19:16证实了故障原因,kill掉服务器进程,再重启web服务器,故障消失。
此次停电1分钟,实际影响访问5分钟,影响相册模块则达90分钟。备份服务器218.247.173.83受其影响,至今处于关机状态,这种状态可能一直要持续到8.4教师开学。
看来,走前一天,紧急准备新服务器是非常正确的做法。
updated:再查服务器日志,发现昨天(07.23)10:57,学校也发生过一次供电异常,就是闪了一下, 可能1-3秒钟就恢复了,83应该在昨天就牺牲了。
hofman
2006-07-24 23:08:12
阅读:54
评论:0
引用:0
下午3点开始,学校内部停电,主要是为别墅区(新学生宿舍区)供暖作电力准备,预计停电3个小时,实际停电100分钟。受其影响,网站出现110分钟访问故障。
hofman
2006-07-11 17:05:34
阅读:62
评论:0
引用:0
服务器时间15:10-16:40,网站无法访问.故障原因是停电了30分钟,而目前的网站服务器由于硬件配置低,无法在来电之后自动启动,故障延长了60分钟.
hofman
2006-07-05 16:54:09
阅读:71
评论:0
引用:0
21:30左右,由于雷击停电,11:00恢复。在经常有雷雨的夏季,类似的事故今年可能还要出现2-3次。
此次停电,验证了新购的ups性能不错,保护单台cisco 2621,成功地供电90分钟。其他几台服务器也都能在来点之后自动启动,唯一的例外是网站服务器本身。看来,网站服务器还得更换硬件,一直用的都是学生用机,而学生用机都不支持来电之后自动启动。好在还有几台能行。在休假之前,要解决的重点问题之一是:服务器系统抗事故能力。具体是:雷电之后,系统能够自动恢复运行。某台服务器出问题之后,能够远程启动备用服务器。
此次停电,验证了新购的ups性能不错,保护单台cisco 2621,成功地供电90分钟。其他几台服务器也都能在来点之后自动启动,唯一的例外是网站服务器本身。看来,网站服务器还得更换硬件,一直用的都是学生用机,而学生用机都不支持来电之后自动启动。好在还有几台能行。在休假之前,要解决的重点问题之一是:服务器系统抗事故能力。具体是:雷电之后,系统能够自动恢复运行。某台服务器出问题之后,能够远程启动备用服务器。
hofman
2006-06-28 23:26:17
阅读:79
评论:2
引用:0
下午4点半,发现服务器硬件故障,拆了4台机器,总算临时又拼装一台可以暂用的服务器。
hofman
2006-06-26 19:34:58
阅读:159
评论:5
引用:0
今日服务器时间09:06-09-43,由于电力故障,网站有37分钟无法访问。网站服务器在断电恢复后不能自启动,路由器也出现了需要手工干预冷启动的故障。
hofman
2006-06-25 10:41:27
阅读:92
评论:2
引用:0
