关于昨天的访问量飙飞问题
昨天一些热心用户的个人访问量一路飙升,显然这不是正常的情况。这个问题困扰了我一整天,我实在找不出代码错在什么地方,前后花了一个多小时,在几个有重点嫌疑的地方,找了无数遍,还是没找出来——因为原来的代码根本就没有问题!
到凌晨的时候,查看服务器日志,才发现原来是新浪的爱问(iaskspider)捣的乱!iaskspider真是有些可恶,它冒充是真实用户(MSIE 6.0),而且昨天抓取用户数据特别疯狂,它会重复地以变形的地址抓用户文章,比如/hofman/hofman/hofman/hofman/hofman/cat760.html/4555.html,天知道这种地址它是怎么整出来的。而它每抓一次,系统就会以为是真实的用户访问了一次,因为它冒充了MSIE6.0呀。
新浪作假作到它的虫虫(iaskspider)里面来了,太不厚道了。不仅如此,还非常弱智。昨天我在robots.txt,申明iaskspider,你别来了!但不出所料,新浪的虫虫根本就不遵守游戏规则,照样以莫名其妙的地址疯狂地抓我们的数据。我被迫在代码添加了如下部分:在(你是搜索引擎的机器人吗(spider,robots)盘问)检查通过之后,再追加:一句,让我检查你是不是iaskspider,哈,是,Go away!别蒙我了!
现在,应该都正常了。昨天不正常的,基本上都是近段时间的勤奋用户,就算是奖励吧。
到凌晨的时候,查看服务器日志,才发现原来是新浪的爱问(iaskspider)捣的乱!iaskspider真是有些可恶,它冒充是真实用户(MSIE 6.0),而且昨天抓取用户数据特别疯狂,它会重复地以变形的地址抓用户文章,比如/hofman/hofman/hofman/hofman/hofman/cat760.html/4555.html,天知道这种地址它是怎么整出来的。而它每抓一次,系统就会以为是真实的用户访问了一次,因为它冒充了MSIE6.0呀。
新浪作假作到它的虫虫(iaskspider)里面来了,太不厚道了。不仅如此,还非常弱智。昨天我在robots.txt,申明iaskspider,你别来了!但不出所料,新浪的虫虫根本就不遵守游戏规则,照样以莫名其妙的地址疯狂地抓我们的数据。我被迫在代码添加了如下部分:在(你是搜索引擎的机器人吗(spider,robots)盘问)检查通过之后,再追加:一句,让我检查你是不是iaskspider,哈,是,Go away!别蒙我了!
现在,应该都正常了。昨天不正常的,基本上都是近段时间的勤奋用户,就算是奖励吧。
hofman
2006-07-15 13:30:15
评论:3
阅读:260
引用:0
GB18030
@2006-07-16 13:54:49 hofman
我们网站的编码是以GB18030为主,因为数据库的编码也是GB18030.GB18030是GBK的超集,正如GBK是GB2312的超集.乱码问题可能基本是浏览器问题.
GBK
@2006-07-16 08:43:47 weiking
hofman, 我们网站全部是用GBK编码吗?
有没有进行过转码?
有没有进行过转码?
乱码
@2006-07-15 14:00:18 hofman
乱码谁之过?原来并不都是oracle的问题,至少不都是,是IE6的问题,至少一部分是。这篇文章第一段,IE6下可能会出现乱码。但同样一台机器(xp sp2),用FireFox就浏览正常。当然,在IE6下面编码用gb2312就又行了。还是IE6不够robust。感谢yxblium的提醒,否则我还一直把帐记在oracle??10g 的驱动上了。
