本站开始支持站内搜索
   经过2天的努力,借助开源软件nutch,本站开始全文搜索。从今天凌晨3点15到6点15,nutch经过3个小时10个线程的并发工作,获取了本站13万个页面,数据量达到217Mb。blog这一块搜得很全了,但图片不支持,bbs似乎也没有被收录。据说,目前的nutch对中文切词支持得还不够好。但我对测试结果,还算满意。
感谢一切开源软件的大牛们,世界不能只有一个Google,它也需要小小的nutch.
      
hofman   2006-08-06 18:28:16 评论:8   阅读:239   引用:0
@2006-08-16 02:38:54  游客
test cmt from ajax comp.
盼望了很久的事情了! @2006-08-11 15:37:31  sttt
2年前就说弄,现在可也有了。千呼万唤呀!
恭喜 @2006-08-11 10:07:00  air_tuyh
恭喜!!!是件很让人高兴的事情啊!
@2006-08-06 23:11:28  游客
都很伟大,工具创造者和使用者都了不起
切词 @2006-08-06 22:35:43  hofman
nutch在中文切词方面,确实有缺点,比如搜“简历”,会搜出“简明的历史”,因为中间含“简“,”历“二字。也不能完全归罪nutch,中文之类的东方文字太特殊了。
太棒啦,恭次,恭次~ @2006-08-06 20:00:01  Jordan
太棒啦,恭次,恭次~@#$$%^%&%&*&*(*()$%$!$@#$#$*&*
非常棒 @2006-08-06 19:34:09  weiking
搜索了一下"weiking",很好玩,呵呵~~
还搜索了"简历" ,1793 项查询结果。高效啊。
恭喜hofman @2006-08-06 18:45:57  haohao
我们终于有自己的站内搜索了,功能上很大的突破,恭喜了。

发表评论>>

署名发表(评论可管理,不必输入下面的姓名)

姓名:

主题:

内容: 最少15个,最长1000个字符

验证码: (如不清楚,请刷新)

2003-2007@copyright