Warning: curl_exec() has been disabled for security reasons in /pub/host/sunboyu/sunboyu/www/wp-includes/http.php on line 1022
2008 九月 21 一个程序猿 孙小一,孙小二,PHP,MYSQL,LINUX,APACHE,原创技术,扯淡

Nutch开源爬虫+Lucene开源分词工具

作者 : admin 于 2008年09月21日, 19:25:08
2008
09-21

Lucene是一个java写的开源分词工具,官方主页 http://lucene.apache.org/ 是apache下边的一个项目。

Lucene主要应用为分词并创建索引,提供高速的搜索服务,能讲海量的数据进行分词整理并生成轻量的数据包进行索引存储。

Lucene不是一个搜索引擎,但Lucene项目下有个子项目,Nutch爬虫。Nutch同样是基于Java的一个开源的爬虫,配合Lucene的分词索引功能,构建一个强大的开源搜索引擎。

官方Lucene已经更新到2.3.2版本http://svn.apache.org/repos/asf/lucene/java/tags/lucene_2_3_2/CHANGES.txt,Nutch已经更新到了0.9版本http://www.apache.org/dist/lucene/nutch/CHANGES-0.9.txt。

在测试中,我使用了Nutch0.7.2 http://apache.mirror.phpchina.com/lucene/nutch/nutch-0.7.2.tar.gz,比较稳定,而且对中文分词的效果也不错,能达到使用的水平,因为没有服务,只在本机做了简单测试,没有对效率进行评估,若哪位达人有闲置服务器,可借老朽一用。