nutch搜索本地pdf文件
来源:互联网 发布:网络销售的平台有哪些? 编辑:程序博客网 时间:2024/05/21 17:37
1.nutch把索引映射到solr,一定注意solrj的jar包版本一定要保持一致,不然会报版本不一致问题。
我在用nutch1.3时,将索引映射到solr1.4.1时,就报版本不一致的错了,将solr换成3.1就好了
用nutch1.2时,可以将索引映射到solr1.4.1,但不能映射到solr3.1
映射过去后在solr搜索界面查询,只看到标题,文件目录,没看到内容,而直接在nutch的搜索界面中搜索的话,是可以看到文件内容的。这个是因为nutch配置文件复制到solr中时,在schema.xml中content字段中的stored属性为false,把它改成true就可以在solr搜索时看到内容了
2.注意设置配置文件,不要爬到父目录以上
将配置文件nutch-default.xml中的file.crawl.parent属性改成false就可以了
3.注意url地址,一定以"/"结尾,刚开始一直找不到文件
其它设置见参考资料
参考资料:
1.http://wiki.apache.org/nutch/FAQ#How_do_I_index_my_local_file_system.3F
2.http://www.folge2.de/tp/search/1/crawling-the-local-filesystem-with-nutch
3.http://blog.csdn.net/whiteotiger/article/details/6336173
4.http://wiki.apache.org/nutch/RunningNutchAndSolr
- nutch搜索本地pdf文件
- Android 打开本地pdf文件
- UIWebView加载本地pdf、doc等文件
- SAP中PDF文件本地保存方法
- PDFview展示本地或网络PDF文件
- Nutch-1.3中没了自带的搜索war文件,Nutch爬取与Solr搜索结合
- solr6.5.1搜索PDF格式的文件
- nutch 提高搜索精度
- nutch-1.2部署搜索
- nutch分类搜索
- nutch 提高搜索精度
- 搜索本地的文件FindFirstFile ,FindNextFile
- 加载本地pdf文件,关于so文件的坑
- Android生成PDF文件、webview加载本地PDF或者网络PDF
- 使用nutch进行搜索代码
- nutch搜索结果为0。。。
- Nutch搜索的servlet实现
- Nutch全文搜索学习笔记
- java验证身份证
- JAVA [ 多线程 ]
- 1.java基础语法易忘点
- MapReduce技术的初步了解与学习
- 什么是数组名?----一 指针与数组的区别!(转载)
- nutch搜索本地pdf文件
- 2011-7-27 14:13:19
- Python创建二维数组
- javascript 跨域总结
- 程序员技术练级攻略
- mpc.pl和 mwc.pl 学习。
- 写在大学的最后一个暑假
- 【Android 笔记 五】 Android Sensor感应器介绍(一)重力感应加速度获取
- loki factory的使用