Nutch配置指南

作者 : admin 于 2008-09-22 17:56:36 标签: ,
2008
09-22

//fuck这个破鼠标,写了半天,还没报错,页面就被跳没了!!
重写:
首先,下载相关软件
tomcat http://apache.mirror.phpchina.com/tomcat/tomcat-4/v4.1.37/bin/apache-tomcat-4.1.37.tar.gz
nutch http://apache.mirror.phpchina.com/lucene/nutch/nutch-0.7.2.tar.gz
jdk的配置,看这篇文章 http://www.sunboyu.cn/2008/09/20/centos5%E4%B8%8B%E9%85%8D%E7%BD%AEjdk%E7%8E%AF%E5%A2%83.shtml
顺便写了个脚本

  1. # author:sunboyu@gmail.com
  2. # qq:176300676 msn:sunboyu@gmail.com
  3. # http://www.sunboyu.cn
  4.  
  5. #!/bin/sh
  6. export JAVA_HOME=/opt/jdk1.6.0
  7. export CLASSPATH=.:/opt/jdk1.6.0/lib/tools.jar:/opt/jdk1.6.0/lib/dt.jar:/opt/jdk1.6.0
  8. export PATH=$PATH:/opt/jdk1.6.0/bin
  9. export JRE_HOME=/opt/jdk1.6.0
  10.  
  11. export CATALINA_BASE=/opt/tomcat
  12. export CATALINA_HOME=/opt/tomcat
  13. export CATALINA_TMPDIR=/opt/tomcat/temp

把nutch目录下的nutch-0.7.2.war配置为tomcat下的默认站点
修改tomcat下webapps/ROOT/WEB-INF/classes/nutch-site.xml
增加以下配置

  1. <property>
  2.       <name>searcher.dir</name>
  3.       <value>/local/nutch/crawl</value>
  4.    </property>

启动tomcat!
运行以下nutch命令
bin/nutch crawl urls -dir /test -depth 5 -topN 1000 -threads 5
则可以在/test目录中创建抓取的索引。
然后在tomcat服务中测试下搜索效果!

发表评论




XHTML:你可以使用的标签: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

(若看不到验证码,请重新加载页面。)