nutch搜索本地pdf文件

来源:互联网 发布:网络销售的平台有哪些? 编辑:程序博客网 时间:2024/05/21 17:37
1.nutch把索引映射到solr,一定注意solrj的jar包版本一定要保持一致,不然会报版本不一致问题。

我在用nutch1.3时,将索引映射到solr1.4.1时,就报版本不一致的错了,将solr换成3.1就好了

用nutch1.2时,可以将索引映射到solr1.4.1,但不能映射到solr3.1

映射过去后在solr搜索界面查询,只看到标题,文件目录,没看到内容,而直接在nutch的搜索界面中搜索的话,是可以看到文件内容的。这个是因为nutch配置文件复制到solr中时,在schema.xml中content字段中的stored属性为false,把它改成true就可以在solr搜索时看到内容了

2.注意设置配置文件,不要爬到父目录以上

将配置文件nutch-default.xml中的file.crawl.parent属性改成false就可以了

3.注意url地址,一定以"/"结尾,刚开始一直找不到文件

其它设置见参考资料

 

参考资料:
1.http://wiki.apache.org/nutch/FAQ#How_do_I_index_my_local_file_system.3F
2.http://www.folge2.de/tp/search/1/crawling-the-local-filesystem-with-nutch
3.http://blog.csdn.net/whiteotiger/article/details/6336173
4.http://wiki.apache.org/nutch/RunningNutchAndSolr

 

 

原创粉丝点击