nutch1.3集成solr3.4并支持中文

来源：互联网发布：狼雨seo网站排名编辑：程序博客网时间：2024/06/09 14:35

(一）安装nutch1.3

1.linux环境，分别从nutch、solr官网下载1.3版本和3.4版本压缩包

2.分别解压，假定nutch目录为/nutch1.3，solr目录为/apache-solr-3.4.0

3.进入/nutch-1.3/runtime/local目录，vibin/nutch，设置JDK1.6路径

NUTCH_JAVA_HOME=/usr/local/jdk1.6.0_22（这个地方应该是jdk6的实际安装路径）

4.chmod +x bin/nutch

5.vi conf/nutch-site.xml,增加配置

<property> <name>http.agent.name</name> <value>My Nutch Spider</value></property>

6.mkdir-p urls 用来存放爬行目标站点

7.vi urls/nutch 增加第一个爬行站点

www.sina.com.cn

8.bin/nutchcrawl urls -dir crawl -depth 3 -topN 5

如果爬行无误，证明nutch安装成功，爬行功能正常。

（二）安装solr并集成中文

1.cp /nutch1.3/conf/schema.xml/apache-solr-3.4.0/example/solr/conf/

覆盖solr原始配置文件（原始文件想保留，可以先备份）

2.进入/apache-solr-3.4.0/example目录，vistart.sh

/usr/local/jdk1.6.0_22/bin/java -jarstart.jar&

3.chmod +x start.sh

4.vi solr/conf/schema.xml，增加ik中文分词支持

将旧的配置段

<fieldTypename="text" class="solr.TextField"

positionIncrementGap="100">

<tokenizerclass="solr.WhitespaceTokenizerFactory"/>

<filterclass="solr.StopFilterFactory"

ignoreCase="true"words="stopwords.txt"/>

<filterclass="solr.WordDelimiterFilterFactory"

generateWordParts="1"generateNumberParts="1"

catenateWords="1" catenateNumbers="1"catenateAll="0"

splitOnCaseChange="1"/>

<filterclass="solr.LowerCaseFilterFactory"/>

<filterclass="solr.EnglishPorterFilterFactory"

protected="protwords.txt"/>

<filterclass="solr.RemoveDuplicatesTokenFilterFactory"/>

</analyzer>

</fieldType>

替换为

<analyzertype="index">

<tokenizerclass="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>

<filterclass="solr.LowerCaseFilterFactory"/>

</analyzer>

<analyzertype="query">

<tokenizerclass="org.wltea.analyzer.solr.IKTokenizerFactory"isMaxWordLength="true"/>

<filterclass="solr.StopFilterFactory" ignoreCase="true"words="stopwords.txt" enablePositionIncrements="true"/>

<filterclass="solr.SynonymFilterFactory" synonyms="synonyms.txt"ignoreCase="true" expand="true"/>

<filterclass="solr.LowerCaseFilterFactory"/>

</analyzer>

</fieldType>

5. 此时solr还缺ik的支持包，无法运行，执行./start.sh会有提示

6.进入work目录，一直往里，找到WEB-INF/lib目录，将ik支持包IKAnalyzer3.2.8.jar拷贝到该目录

7.重启solr,执行./start.sh，如果不提示错误，证明solr集成ik启动无误。

8.访问http://your.host.ip/solr/admin出现solr页面，证明solr安装成功。

（三）集成nutch和solr

1.进入nutch目录，执行

./bin/nutch crawl urls -solr http://localhost:8983/solr/ -dir crawl-depth 3 -topN 5

如不提示错误，则nutch爬行www.sina.com.cn成功，并完成在solr建立索引。

2.访问http://your.host.ip/solr/admin，输入“财经”，如果显示查询结果页，证明整个安装集成大功告成。

转载请注明出处。

0 0