用Stanford Parse(智能语言处理)去实现分词器
来源:互联网 发布:软件构件具备属性 编辑:程序博客网 时间:2024/06/08 09:20
昨天研究学习了一下 Stanford Parse ,想利用 Stanford Parse 智能切词的效果结合到lucene 分词器中的想法;由于项目时间
仓促,部分研究没有完成。代码还存在bug,希望有这方面想法的小伙伴们,能完善。。
lucene版本:lucene4.10.3,引入jar包:stanford-parser-3.3.0-models.jar ,stanford-parser.jar
先构建分词器测试类,代码如下:
package main.test;import java.io.IOException;import java.io.StringReader;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.TokenStream;import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;public class AnalyzerTest {public static void analyzer(Analyzer analyzer,String text){try {System.out.println("分词器名称:"+analyzer.getClass());//获取tokenStream流TokenStream tokenStream=analyzer.tokenStream("", new StringReader(text));tokenStream.reset();while(tokenStream.incrementToken()){CharTermAttribute cta1=tokenStream.getAttribute(CharTermAttribute.class);OffsetAttribute ofa=tokenStream.getAttribute(OffsetAttribute.class); //位置增量的属性,存储词之间的距离 //PositionIncrementAttribute pia=tokenStream.getAttribute(PositionIncrementAttribute.class);//System.out.print(pia.getPositionIncrement()+":"); System.out.print("["+ofa.startOffset()+"-"+ofa.endOffset()+"]-->"+cta1.toString()+"\n"); }tokenStream.end();tokenStream.close();} catch (IOException e) {// TODO Auto-generated catch blocke.printStackTrace();}} public static void main(String[] args){ String chText = "清华大学生说正在研究生命起源"; Analyzer analyzer = new NlpHhcAnalyzer(); analyzer(analyzer,chText); }}
重新定义一个新的分词器,实现Analyzer类,重写其:TokenStreamComponents createComponents 方法。这里注意:lucene4.x版
本的TokenStreamComponents 以组件的形式包含的lucene3.x版本的 filter和 tokenizer。
package main.test;import java.io.Reader;import org.apache.lucene.analysis.Analyzer;public class NlpHhcAnalyzer extends Analyzer{@Overrideprotected TokenStreamComponents createComponents(String arg0, Reader reader) {return new TokenStreamComponents(new aaa(reader));}}
实现新的一个Tokenizer 类aaa: 这部分代码还有bug,没有时间去调试学习。。有时间的朋友可以试着完善一下。
package main.test;import java.io.IOException;import java.io.Reader;import java.util.Collection;import java.util.concurrent.ConcurrentHashMap;import org.apache.lucene.analysis.Tokenizer;import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;import org.apache.lucene.analysis.tokenattributes.OffsetAttribute;import org.apache.lucene.util.AttributeFactory;import edu.stanford.nlp.parser.lexparser.LexicalizedParser;import edu.stanford.nlp.trees.Tree;import edu.stanford.nlp.trees.TypedDependency;import edu.stanford.nlp.trees.international.pennchinese.ChineseGrammaticalStructure;public class aaa extends Tokenizer{//词元文本属性private CharTermAttribute termAtt;//词元位移属性private OffsetAttribute offsetAtt;//记录最后一个词元的结束位置//private int finalOffset;private String str;private LexicalizedParser lp;public aaa(Reader in) {super(in); StringBuilder sb=new StringBuilder(); try { for (int i = 0; i <100; i++) {sb.append((char) in.read()); } } catch (IOException e) { e.printStackTrace(); } str=sb.toString();String modelpath="edu/stanford/nlp/models/lexparser/xinhuaFactoredSegmenting.ser.gz"; lp = LexicalizedParser.loadModel(modelpath); offsetAtt = addAttribute(OffsetAttribute.class); termAtt = addAttribute(CharTermAttribute.class);}protected aaa(AttributeFactory factory, Reader input) {super(factory, input);// TODO Auto-generated constructor stub}@SuppressWarnings("unchecked")@Overridepublic boolean incrementToken() throws IOException {//清除所有的词元属性clearAttributes(); Tree t = lp.parse(str); ChineseGrammaticalStructure gs = new ChineseGrammaticalStructure(t); Collection<TypedDependency> tdl = gs.typedDependenciesCollapsed(); ConcurrentHashMap map=new ConcurrentHashMap(); for(int i=0;i<tdl.size();i++) { TypedDependency td = (TypedDependency)tdl.toArray()[i]; String term = td.dep().nodeString().trim(); //将Lexeme转成Attributes//设置词元文本termAtt.append(term);//设置词元长度termAtt.setLength(term.length());//设置词元位移if(i==0){map.put("beginPosition", i*term.length());}else{map.put("beginPosition", Integer.parseInt(map.get("beginPosition").toString())+term.length());}offsetAtt.setOffset(Integer.parseInt(map.get("beginPosition").toString()), Integer.parseInt(map.get("beginPosition").toString())+term.length());//记录分词的最后位置//finalOffset = nextLexeme.getEndPosition();//返会true告知还有下个词元return true; }//返会false告知词元输出完毕return false;}}
1 0
- 用Stanford Parse(智能语言处理)去实现分词器
- IK分词源码讲解(三)-分词歧义处理(智能分词)
- 智能语言-中科院分词系统ICTCLAS(NLPIR)
- Stanford 中文分词
- Stanford分词实战
- stanford python中文分词
- ASP实现网站智能分词搜索
- Go语言的分词器(sego)
- 使用Stanford CoreNLP的Python封装包处理中文(分词、词性标注、命名实体识别、句法树、依存句法分析)
- Stanford CoreNLP 进行中文分词
- 数组去重(c语言实现)
- Spark 大数据中文分词统计(二) Java语言实现分词统计
- Spark 大数据中文分词统计(三) Scala语言实现分词统计
- “庖丁解牛” 分词器实现
- 基于结巴分词的基础中文词语去歧实现
- java简单实现季节,性别分词处理
- 自然语言处理之分词算法的实现
- C 语言实现智能指针
- Jsp和Servlet分工之求a+b的和
- div 图片滚动 / 文字滚动
- Yii 多表关联relations
- 由阿里巴巴一道笔试题看Java静态代码块、静态函数、动态代码块、构造函数等的执行顺序
- iPhone开发 获取系统时间 星期 年 月 日 时 分 秒
- 用Stanford Parse(智能语言处理)去实现分词器
- 《深度探索C++对象模型》读书笔记3
- iOS中消息的传递机制
- 设计模式-策略模式(strategy pattern)
- 2/1+3/2+5/3+8/5+13/8+……(求前20项的和)
- struts2高低版本的配置问题
- 安装dede cms 遇到的问题及解决办法,(织梦官方你是放弃这个产品了吗?)
- 我想把我的c++的cpp文件用一个批处理命令就能生成一个源文件列表
- 研一的第一个项目经历