中文分词器扩充中文词库IKAnalyzer

来源:互联网 发布:客户地图制作软件 编辑:程序博客网 时间:2024/04/29 18:54

    public static void main(String[] args) throws IOException {
        String s = "中文分词工具包";
        Configuration cfg = DefualtConfig.getInstance();  //加载词库
        cfg.setUseSmart(true); //设置智能分词
        Dictionary.initial(cfg);

        Dictionary dictionary = Dictionary.getSingleton();
        // List<String> words = new ArrayList<String>();
        // words.add("基础班");
        // words.add("高级会计实务");
        // dictionary.addWords(words);  //自动添加自定义词

        System.out.println(cfg.getMainDictionary()); // 系统默认词库
        System.out.println(cfg.getQuantifierDicionary());

        Hit hit = dictionary.matchInMainDict("基础班".toCharArray());
        System.out.println(hit.isMatch());

        System.out.println(queryWords(s));

    }

    /**
     * IK 分词
     *
     * @param query
     * @return
     * @throws IOException
     */
    public static List<String> queryWords(String query) throws IOException {
        List<String> list = new ArrayList<String>();
        StringReader input = new StringReader(query.trim());

        IKSegmenter ikSeg = new IKSegmenter(input, true);// true 用智能分词 ,false细粒度
        for (Lexeme lexeme = ikSeg.next(); lexeme != null; lexeme = ikSeg.next()) {
            list.add(lexeme.getLexemeText());
        }

        return list;
    }
原创粉丝点击