IKAnalyzer 中文分词的不同版本切词方式

来源:互联网 发布:c语言字符串的复制 编辑:程序博客网 时间:2024/06/05 08:58


最近公司在做一个题库的功能,需要用到 中文分词和公式分词的工具,最开始用 IKAnalyzer 2012F 版本 + lunece 6.5.1做了一版中文分词工具。具体如下:


一、IKAnalyzer 2012F + lunece 6.5.1 实现中文分词

public static List<String> analysisByIK(Analyzer analyzer,String field, String content){if(StringUtils.isNullOrEmpty(content)){return null;}TokenStream ts = null;try {ts = analyzer.tokenStream(field, new StringReader(content));CharTermAttribute term = ts.addAttribute(CharTermAttribute.class);ts.reset(); List<String> vocabularies = new ArrayList<>();while (ts.incrementToken()) {vocabularies.add(term.toString());}ts.end();return vocabularies;} catch (Exception e) {logger.error(e.getMessage(), e);} finally {if (ts != null) {try {ts.close();} catch (IOException e) {e.printStackTrace();}}}return null;}

调用方式:

String str = "已知三角形ABC中,角A等于角B加角C,那么三角形ABC是 A、锐角三角形 B、直角三角形 C、钝角三角形 D、不能确定";Analyzer analyzer = new IKAnalyzer(true);ikList  = analysisByIK(analyzer, "myfield", str);listAnalyzer.addAll(ikList);

输出结果listAnalyzerd:

[已知, 三角形, abc, 中, 角, a, 等于, 角, b, 加, 角, c, 那么, 三角形, abc, 是, a, 锐角三角形, b, 直角三角形, c, 钝角三角形, d, 不能, 确定]




但是由于公式切词是 原来公司大牛写的,在满足公式切词的条件下,中文切词的IKAnalyzer 2012F与其不兼容。于是尝试其他版本,最终决定用 IKAnalyzer 3.2.8 实现了兼容。


二、IKAnalyzer 3.2.8 + lunece 3.1.0 兼容版本

public static List<String> analysisByIK3Point2(Analyzer analyzer,String field, String content) throws Exception{if(StringUtils.isNullOrEmpty(content)){return null;}List<String> list = new ArrayList<>();Reader reader = new StringReader(content);        TokenStream stream = (TokenStream)analyzer.tokenStream(field, reader);        //添加工具类  注意:以下这些与之前lucene2.x版本不同的地方        TermAttribute termAtt  = (TermAttribute)stream.addAttribute(TermAttribute.class);        OffsetAttribute offAtt  = (OffsetAttribute)stream.addAttribute(OffsetAttribute.class);        // 循环打印出分词的结果,及分词出现的位置        while(stream.incrementToken()){        list.add(termAtt.term());//              System.out.println(termAtt.term());        }return list;}

调用方式:

String str = "已知三角形ABC中,角A等于角B加角C,那么三角形ABC是 A、锐角三角形 B、直角三角形 C、钝角三角形 D、不能确定";Analyzer analyzer = new IKAnalyzer(true);ikList  = analysisByIK3Point2(analyzer, "myfield", str);listAnalyzer.addAll(ikList);

输出结果:

[已知, 三角形, abc, 中, 角, a, 等于, 角, b, 加, 角, c, 那么, 三角形, abc, 是, a, 锐角三角形, b, 直角三角形, c, 钝角三角形, d, 不能, 确定]

即使用不同版本实现相同功能效果。 主要是 因为IKAnalyzer 2012F 依赖Analyzer的tokenStream是final方法,但是公式分词用到的tokenSteam方法是抽象方法。两者冲突了,所以考虑去做兼容。




原创粉丝点击