卢亮与搜索引擎研究
"关于搜索引擎,实际上我真的是误打正着.",卢亮如是说
前几年因为要研究知识管理系统, 遇到一个难题就是海量文章的检索. 从那个时候开始学习, 谈的上研究应该是我在完成了 booso.com 后才进入了一些创新的应用.
booso.com 是花了我大约1周的时间完成了代码, 第一次是使用文本进行数据存储, 利用perl写了一些检索的代码, 使得booso.com 能够将不同的联结通过相同的关键词进行联系, 并且可以查询一个联结被搜索引擎哪些关键词所击中, 因此我将之称为: 搜索搜索引擎的搜索引擎.
booso.com 的流量上升的很快, 有一天晚上我突然发现服务器已经不堪重负, cgi 启动了几十个查询操作同时运行, 我不得不当时就进行调整. 考虑到大部分的搜索是集中在少数的一些关键词上, 我采用了 perl + shell 对一些搜索结果进行了缓存, 那天晚上我记得完成代码的时候已经凌晨4点, 我终于看到服务器的压力下来了, 可以睡觉了. 那一天我记得大约有10万次查询.
booso.com 的第三次升级是我从文本索引转到了 berkeley db 索引, 代码全部重写了一次, 大约化了3天的时间, 这一次性能提高了近10倍, 可惜再也没有向去年那么集中的访问了.
booso.com 后来我将之作为一个实验场, 基本上有新的想法就会往上面加, 陆续加入了帖吧功能和分类引擎的功能. 说道创新, 这个分类引擎应该是花了一些精力的, 因为要计算一些词语之间的相关度, 颇费了些精力才完成了1000x1000矩阵的计算, 并从中发现了一些简约算法.
2005年, booso 已经没有精力维护了, 我回头也会考虑如何处理之.
过去的几年, booso, niu.la 都相继失修, 痛心.
前几年因为要研究知识管理系统, 遇到一个难题就是海量文章的检索. 从那个时候开始学习, 谈的上研究应该是我在完成了 booso.com 后才进入了一些创新的应用.
booso.com 是花了我大约1周的时间完成了代码, 第一次是使用文本进行数据存储, 利用perl写了一些检索的代码, 使得booso.com 能够将不同的联结通过相同的关键词进行联系, 并且可以查询一个联结被搜索引擎哪些关键词所击中, 因此我将之称为: 搜索搜索引擎的搜索引擎.
booso.com 的流量上升的很快, 有一天晚上我突然发现服务器已经不堪重负, cgi 启动了几十个查询操作同时运行, 我不得不当时就进行调整. 考虑到大部分的搜索是集中在少数的一些关键词上, 我采用了 perl + shell 对一些搜索结果进行了缓存, 那天晚上我记得完成代码的时候已经凌晨4点, 我终于看到服务器的压力下来了, 可以睡觉了. 那一天我记得大约有10万次查询.
booso.com 的第三次升级是我从文本索引转到了 berkeley db 索引, 代码全部重写了一次, 大约化了3天的时间, 这一次性能提高了近10倍, 可惜再也没有向去年那么集中的访问了.
booso.com 后来我将之作为一个实验场, 基本上有新的想法就会往上面加, 陆续加入了帖吧功能和分类引擎的功能. 说道创新, 这个分类引擎应该是花了一些精力的, 因为要计算一些词语之间的相关度, 颇费了些精力才完成了1000x1000矩阵的计算, 并从中发现了一些简约算法.
2005年, booso 已经没有精力维护了, 我回头也会考虑如何处理之.
过去的几年, booso, niu.la 都相继失修, 痛心.
hofman
2005-10-04 11:53:11
评论:0
阅读:510
引用:0
