本站开始支持站内搜索
经过2天的努力,借助开源软件nutch,本站开始全文搜索。从今天凌晨3点15到6点15,nutch经过3个小时10个线程的并发工作,获取了本站13万个页面,数据量达到217Mb。blog这一块搜得很全了,但图片不支持,bbs似乎也没有被收录。据说,目前的nutch对中文切词支持得还不够好。但我对测试结果,还算满意。
感谢一切开源软件的大牛们,世界不能只有一个Google,它也需要小小的nutch.
感谢一切开源软件的大牛们,世界不能只有一个Google,它也需要小小的nutch.
hofman
2006-08-06 18:28:16
评论:8
阅读:239
引用:0
@2006-08-16 02:38:54 游客
test cmt from ajax comp.
盼望了很久的事情了!
@2006-08-11 15:37:31 sttt
2年前就说弄,现在可也有了。千呼万唤呀!
恭喜
@2006-08-11 10:07:00 air_tuyh
恭喜!!!是件很让人高兴的事情啊!
@2006-08-06 23:11:28 游客
都很伟大,工具创造者和使用者都了不起
切词
@2006-08-06 22:35:43 hofman
nutch在中文切词方面,确实有缺点,比如搜“简历”,会搜出“简明的历史”,因为中间含“简“,”历“二字。也不能完全归罪nutch,中文之类的东方文字太特殊了。
太棒啦,恭次,恭次~
@2006-08-06 20:00:01 Jordan
太棒啦,恭次,恭次~@#$$%^%&%&*&*(*()$%$!$@#$#$*&*
非常棒
@2006-08-06 19:34:09 weiking
搜索了一下"weiking",很好玩,呵呵~~
还搜索了"简历" ,1793 项查询结果。高效啊。
还搜索了"简历" ,1793 项查询结果。高效啊。
恭喜hofman
@2006-08-06 18:45:57 haohao
我们终于有自己的站内搜索了,功能上很大的突破,恭喜了。
