测试庖丁解牛分词工具

来源：互联网发布：最新淘宝店铺教程视频编辑：程序博客网时间：2024/05/22 06:32

因为笔者要在MapReduce中进行中文分词解析数据，所以测试了一下庖丁解牛中文分词器（paoding-analysis-2.0.4-beta）。现将使用过程小结：

下载地址：http://pan.baidu.com/s/1eQ88SZS

个人环境：linux+eclipse

使用分为如下几步：

1. 配置dic文件：

修改paoding-analysis.jar中的paoding-dic-home.properties文件，将“#paoding.dic.home=dic”的注释去掉，并配置成自己dic文件的本地存放路径。eg：/home/hadoop/work/paoding-analysis-2.0.4-beta/dic

2. 把Jar包导入到项目中：

将paoding-analysis.jar、commons-logging.jar、lucene-analyzers-2.2.0.jar和lucene-core-2.2.0.jar四个包导入到项目中，这时就可以在代码片段中使用庖丁解牛工具提供的中文分词技术，例如：

[java] view plain copy

Analyzer analyzer = new PaodingAnalyzer(); //定义一个解析器
String text = "庖丁系统是个完全基于lucene的中文分词系统，它就是重新建了一个analyzer，叫做PaodingAnalyzer，这个analyer的核心任务就是生成一个可以切词TokenStream。"; <span style="font-family:Arial, Helvetica, sans-serif;">//待分词的内容</span>
TokenStream tokenStream = analyzer.tokenStream(text, new StringReader(text)); //得到token序列的输出流
try {
Token t;
while ((t = tokenStream.next()) != null)
{
System.out.println(t); //输出每个token
}
} catch (IOException e) {
e.printStackTrace();
}

结果如下：

每一行的输出是一个token。

阅读全文

0 0