给Lucene加入性能更好的中文分词1 的一点改动
来源:互联网 发布:迪杰斯特拉算法 c语言 编辑:程序博客网 时间:2024/05/16 07:31
给Lucene加入性能更好的中文分词1(原创)
前一段时间看到了这http://blog.donews.com/windshow/archive/2005/09/23/564655.aspx文章,觉得写得非常的不错,但使用的时候发现了一个小问题,后来留了这样一帖
FileIO.readerToString(reader);
中的FileIo类是怎么写的阿?
shuangpingli@126.com
有知道的告诉我一声,非常感谢阿!
后来有几个朋友给我发邮件问我解决了没有,现在我把解决办法与大家分享,我是自己写了一个方法来转换了一下
代码如下
//used by conver Reader to String
public String readerToString(Reader reader)throws IOException{
BufferedReader br = new BufferedReader(reader);
String ttt = null;
String tttt = null;
while((ttt=br.readLine())!=null){
tttt += ttt;
}
return tttt;
}
/** Filters LowerCaseTokenizer with StopFilter. */
public TokenStream tokenStream(String fieldName, Reader reader){
try{
ICTCLAS splitWord = ICTCLAS.getInstance();
String inputString = this.readerToString(reader);//FileIO.readerToString(reader);
String resultString = splitWord.paragraphProcess(inputString);
System.out.println("spliteResult"+resultString);
return new StopFilter(new LowerCaseTokenizer(new StringReader(resultString)),stopWords);
}
catch (Exception e){
System.out.println("转换出错");
return null;
}
}
添加中文分词工程下载: 唉为什么不能上传文件呐!
- 给Lucene加入性能更好的中文分词1 的一点改动
- 给Lucene加入性能更好的中文分词
- Lucene加入庖丁分词器对中文的支持
- Lucene中文分析器的中文分词准确性和性能比较
- Lucene中文分析器的中文分词准确性和性能比较
- Lucene中文分析器的中文分词准确性和性能比较
- lucene的中文分词器
- Lucene 中文分词的理解
- Lucene中文分词的链接
- lucene的中文分词器
- lucene的中文分词器
- 中文分词的一点研究
- 为lucene加入简单中文分词
- [转]Lucene 中文分词的 highlight 显示
- [转]Lucene 中文分词的 highlight 显示
- 关于Lucene中文分词的highlight显示
- Lucene中文分词的highlight显示
- 用于Lucene的各中文分词比较
- Tomcat中文手册 (收藏)
- 《TCP/IP详解,卷2:实现》读书笔记-mbuf的结构
- java+mysql中保存图片及显示上传的图片struts+hibernate
- 你为什么还是这么傻!
- 关于jboss4.x的日志系统
- 给Lucene加入性能更好的中文分词1 的一点改动
- 40种网站设计常用技巧
- 使用JDBC和Hibernate来写入Blob型数据到Oracle中
- sql server 2000数据库语言精粹
- ctags:linux中的source insight(NB!)
- 英国评世界十大最烂发明 李宇春排第7
- Java对象持久化技术之Hibernate
- C#中对注册表的操作
- Struts+Spring+Hibernate实现上传下载