nutch +中文分词
来源:互联网 发布:微博淘宝优惠券骗局 编辑:程序博客网 时间:2024/04/27 14:13
总结已知方法的缺点
job fild 原因
查看hoodap.log
1 内存设置不足-Xms800m -Xmx800m
2 NutchDocumentAnalyzer.java文件添加:importorg.wltea.analyzer.lucene.IKAnalyzer;将Importorg.apache.lucene.analysis.tokenattributes.PositionIncrementAttribute;改为importorg.apache.lucene.analysis.tokenattributes.*;(如果不改编译时会报错“找不到符号”,原因是新定义的几种Attribute未添加引用,此处将所有Attribute引用即可解决问题。在NutchDocumentTokenizer.java中需要进行同样的操作。)
3 在private static AnalyzerANCHOR_ANALYZER;后面加上
privatestatic Analyzer MY_ANALYZER;
在ANCHOR_ANALYZER =new AnchorAnalyzer();后面加上
MY_ANALYZER= new IKAnalyzer();
重写TokenStreamtokenStream方法:
publicTokenStreamtokenStream(StringfieldName, Reader reader) {
Analyzeranalyzer;
analyzer = MY_ANALYZER;
TokenStream tokenStream= analyzer.tokenStream(fieldName, reader);
tokenStream.addAttribute(TypeAttribute.class);
tokenStream.addAttribute(FlagsAttribute.class);
tokenStream.addAttribute(PayloadAttribute.class);
tokenStream.addAttribute(PositionIncrementAttribute.class);
return tokenStream;
}
- nutch中文分词
- nutch +中文分词
- nutch-1.0中文分词
- 让Nutch支持中文分词
- 让Nutch支持中文分词
- nutch中文分词,改源码
- Nutch中文分词(庖丁解牛)
- nutch添加中文分词器
- Nutch 分词 中文分词 paoding 疱丁
- Nutch 中文分词 庖丁分词组件
- 给nutch .8加中文分词
- 为nutch 添加中文分词插件
- 为Nutch 1.0添加JE中文分词
- 为Nutch 1.0添加JE中文分词
- 为nutch 添加中文分词插件
- Nutch中如何实现中文分词功能
- 为Nutch 1.0添加JE中文分词
- Nutch中如何实现中文分词功能
- 归并排序求逆序对
- C++ STL IO流 与 Unicode (UTF-16 UTF-8) 的协同工作
- 我的代码service11.20
- linux segmentation fault记录
- PNG透明窗体全攻略(控件不透明)
- nutch +中文分词
- Hibernate——处理并发
- android 分享功能,实现分享的程序与进行分享信息的代码
- OC中self和super
- Codeforces Div.2 213 C Matrix (预处理+哈希)
- 隐藏音乐控件——最简单的最兼容
- struts.xml 文件配置
- Struts2权威指南总结8:struts2的输入校验
- ASP.net后台弹出消息对话框的方法!【转】