添加中文分词器后,查询的时候获得摘要错误
来源:互联网 发布:布料软件 编辑:程序博客网 时间:2024/04/30 09:22
主要是在plugin/summary-basic插件中的BasicSummarizer类出现了错误:
java.lang.StringIndexOutOfBoundsException: String index out of range: -1at java.lang.String.substring(String.java:1937)at org.apache.nutch.summary.basic.BasicSummarizer.getSummary(BasicSummarizer.java:188)at org.apache.nutch.searcher.FetchedSegments.getSummary(FetchedSegments.java:264)at org.apache.nutch.searcher.FetchedSegments$SummaryTask.call(FetchedSegments.java:63)at org.apache.nutch.searcher.FetchedSegments$SummaryTask.call(FetchedSegments.java:53)at java.util.concurrent.FutureTask$Sync.innerRun(FutureTask.java:303)at java.util.concurrent.FutureTask.run(FutureTask.java:138)at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886)at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908)at java.lang.Thread.run(Thread.java:662)
主要原因是:getSummary()方法截取摘要时,因为汉字分词的原因使得String.substring()方法参数出现问题,使得开始位置大于结束位置,所以出现数组越界。
解决方案:截取摘要前预先对tOffset和tStartOffset,tEendOffset进行处理,确保String.substring()参数正确。
try{ /** * 修改加上额外的判断条件,如果截取字符串的时候,开始大于结束则需要进行 * 处理,因为添加中文分词器后,截取的词有重叠。 */ int tOffset,tStartOffset,tEndOffset; tOffset=offset; tStartOffset=t.startOffset(); tEndOffset=t.endOffset(); if(tOffset>tStartOffset){ tStartOffset=tOffset; } if(tStartOffset>tEndOffset){ tEndOffset=tStartOffset; } excerpt.add(new Fragment(text.substring(tOffset, tStartOffset))); excerpt.add(new Highlight(text.substring(tStartOffset,tEndOffset))); }catch(Exception e){ System.out.println("BasicSummarizer Exception happened: String.substring() offset>t.startOffset");// System.out.println("offset="+offset+" || t.startOffset="+t.startOffset()+" ||t.endOffset="+t.endOffset()); }
linux下部署:将到plugin/summary-basic目录下,对修改后的BasicSummarizer进行使用ant jar进行重新编译,将编译后的BasicSummery.jar复制替换掉tomcat下nutch工程中的WEB-INF/classes/plugin/summary-basic文件夹下同名的文件。
- 添加中文分词器后,查询的时候获得摘要错误
- nutch添加中文分词器
- Solr中文字段的查询与字段分词后如何聚合查询的问题
- 为Elasticsearch添加中文分词,对比分词器效果
- 为 Elasticsearch 添加中文分词,对比分词器效果
- 为Elasticsearch添加中文分词,对比分词器效果
- 为Elasticsearch添加中文分词,对比分词器效果
- 为solr添加中文分词器
- 添加中文分词(mmseg4j)
- mysql 添加索引后 在查询的时候是mysql就自动从索引里面查询了。还是查询的时候有单 独的参数查询索引?
- mysql 添加索引后 在查询的时候是mysql就自动从索引里面查询了。还是查询的时候有单 独的参数查询索引?
- solr4.4.0 集成 carrot2 支持中文和添加自己的中文分词器的方法。
- Android 5.0 添加系统服务后,启动的时候报安全错误
- lucene的中文分词器
- lucene的中文分词器
- 中文分词器的总结
- lucene的中文分词器
- 中文分词器的总结
- (win7)QQ没有声音,网页没有声音,网页视频没有声音,其他一切正常的解决办法!
- 中篇小说《南国梦》之雪缘姑娘介绍
- [VS2010]提示内存不足(std::vector导致)
- 如何优化Apache,减少内存使用
- 【转】SQL Server系统存储过程和参数示例
- 添加中文分词器后,查询的时候获得摘要错误
- SQL Server 中的锁Range S-U,X-X 死锁以及事务
- C语言
- SIP相关的RFC文档索引
- J2EE学习笔记——Cookie操作(2周内免登陆)
- display属性值:
- 桶排序
- 24位位图存放格式说明
- Android将字体加粗