关于昨天的访问量飙飞问题
              昨天一些热心用户的个人访问量一路飙升,显然这不是正常的情况。这个问题困扰了我一整天,我实在找不出代码错在什么地方,前后花了一个多小时,在几个有重点嫌疑的地方,找了无数遍,还是没找出来——因为原来的代码根本就没有问题!
    到凌晨的时候,查看服务器日志,才发现原来是新浪的爱问(iaskspider)捣的乱!iaskspider真是有些可恶,它冒充是真实用户(MSIE 6.0),而且昨天抓取用户数据特别疯狂,它会重复地以变形的地址抓用户文章,比如/hofman/hofman/hofman/hofman/hofman/cat760.html/4555.html,天知道这种地址它是怎么整出来的。而它每抓一次,系统就会以为是真实的用户访问了一次,因为它冒充了MSIE6.0呀。
   新浪作假作到它的虫虫(iaskspider)里面来了,太不厚道了。不仅如此,还非常弱智。昨天我在robots.txt,申明iaskspider,你别来了!但不出所料,新浪的虫虫根本就不遵守游戏规则,照样以莫名其妙的地址疯狂地抓我们的数据。我被迫在代码添加了如下部分:在(你是搜索引擎的机器人吗(spider,robots)盘问)检查通过之后,再追加:一句,让我检查你是不是iaskspider,哈,是,Go away!别蒙我了!
    现在,应该都正常了。昨天不正常的,基本上都是近段时间的勤奋用户,就算是奖励吧。
      
hofman   2006-07-15 13:30:15 评论:3   阅读:244   引用:0
GB18030 @2006-07-16 13:54:49  hofman
我们网站的编码是以GB18030为主,因为数据库的编码也是GB18030.GB18030是GBK的超集,正如GBK是GB2312的超集.乱码问题可能基本是浏览器问题.
GBK @2006-07-16 08:43:47  weiking
hofman, 我们网站全部是用GBK编码吗?
有没有进行过转码?
乱码 @2006-07-15 14:00:18  hofman
乱码谁之过?原来并不都是oracle的问题,至少不都是,是IE6的问题,至少一部分是。这篇文章第一段,IE6下可能会出现乱码。但同样一台机器(xp sp2),用FireFox就浏览正常。当然,在IE6下面编码用gb2312就又行了。还是IE6不够robust。感谢yxblium的提醒,否则我还一直把帐记在oracle??10g 的驱动上了。

发表评论>>

署名发表(评论可管理,不必输入下面的姓名)

姓名:

主题:

内容: 最少15个,最长1000个字符

验证码: (如不清楚,请刷新)

2003-2007@copyright