je-analysis-1.4.0中文分词添加自己的词库

来源:互联网 发布:it专科学校 编辑:程序博客网 时间:2024/05/09 04:39

*        添加自己的词库:

主要是使用了je-analysis-1.4.0.jar包,里面有下面几个方面实现:

//     MMAnalyzer.addWord("迈克尔");  //添加分词短语

       BufferedReaderreader=new BufferedReader(new FileReader("F://environment.txt"));//添加分词库

比较:

分词内容:据路透社报道,迈克尔雷第印度尼西亚社会事务部一官员星期二(29)表示,"   

                     + "日惹市附近当地时间27日晨553分发生的里氏6.2级地震已经造成至少5427人死亡,"

                     + "20000余人受伤,近20万人无家可归。

1.        使用自带的词库结果:

|路透社 |报道 |迈克 |尔雷第 |印度尼西亚 |社会 |事务 | |官员 |星期二 | 29 | 表示 |日惹 ||附近 |当地时间 | 27 | | 5 | 53 |发生 |里氏 | 6.2 | 地震 |已经 |造成 |至少 | 5427 | 死亡 | 20000 |余人 |受伤 | | 20万人 | 无家可归 |

2.      增加自己的词库后结果:

|路透社 |报道 |迈克尔雷第|印度尼西亚 |社会 |事务部 |官员 |星期二 | 29 | 表示 |日惹市 |附近 |当地时间 | 27 | | 5 | 53 |发生 |里氏 | 6.2 | 地震 |已经 |造成 |至少 | 5427 | 死亡 | 20000 |余人 |受伤 | | 20万人 | 无家可归 |

 

注意:词库的名字为test.txt里面的词语有:迈克尔雷第 事务部 、日惹市

:

package test;

import java.io.*;

import search.Search;

import jeasy.analysis.MMAnalyzer;

class AddLib{

    public StringseparatedTerm(String text) throws IOException {

             MMAnalyzer analyzer=new MMAnalyzer();

////         MMAnalyzer.addWord("迈克尔");  //添加分词短语

             BufferedReader reader=new BufferedReader(new FileReader("F://test.txt"));//添加分词库

             MMAnalyzer.addDictionary(reader);

             String str=analyzer.segment(text, " | ");

             return str;

        }

    publicstaticvoid main(String[]args){    //测试

        try {

             String s=new AddLib().separatedTerm("据路透社报道,迈克尔雷第印度尼西亚社会事务部一官员星期二(29)表示," 

                     + "日惹市附近当地时间27日晨553分发生的里氏6.2级地震已经造成至少5427人死亡,"   

                     + "20000余人受伤,近20万人无家可归。");

             System.out.println(s);

        } catch (IOException e) {

             

             e.printStackTrace();

        }

    }

        

}