测试庖丁解牛分词工具
来源:互联网 发布:最新淘宝店铺教程视频 编辑:程序博客网 时间:2024/05/22 06:32
因为笔者要在MapReduce中进行中文分词解析数据,所以测试了一下庖丁解牛中文分词器(paoding-analysis-2.0.4-beta)。现将使用过程小结:
下载地址:http://pan.baidu.com/s/1eQ88SZS
个人环境:linux+eclipse
使用分为如下几步:
1. 配置dic文件:
修改paoding-analysis.jar中的paoding-dic-home.properties文件,将“#paoding.dic.home=dic”的注释去掉,并配置成自己dic文件的本地存放路径。eg:/home/hadoop/work/paoding-analysis-2.0.4-beta/dic
2. 把Jar包导入到项目中:
将paoding-analysis.jar、commons-logging.jar、lucene-analyzers-2.2.0.jar和lucene-core-2.2.0.jar四个包导入到项目中,这时就可以在代码片段中使用庖丁解牛工具提供的中文分词技术,例如:
- Analyzer analyzer = new PaodingAnalyzer(); //定义一个解析器
- String text = "庖丁系统是个完全基于lucene的中文分词系统,它就是重新建了一个analyzer,叫做PaodingAnalyzer,这个analyer的核心任务就是生成一个可以切词TokenStream。"; <span style="font-family:Arial, Helvetica, sans-serif;">//待分词的内容</span>
- TokenStream tokenStream = analyzer.tokenStream(text, new StringReader(text)); //得到token序列的输出流
- try {
- Token t;
- while ((t = tokenStream.next()) != null)
- {
- System.out.println(t); //输出每个token
- }
- } catch (IOException e) {
- e.printStackTrace();
- }
每一行的输出是一个token。
阅读全文
0 0
- 测试庖丁解牛分词工具
- 测试庖丁解牛分词工具
- 测试庖丁解牛分词工具
- 测试庖丁解牛分词工具
- 庖丁解牛分词工具使用教程
- 庖丁解牛分词工具使用教程
- 利用庖丁解牛工具进行中文分词
- 详解庖丁解牛中文分词器工具的使用
- Lucene中文分词“庖丁解牛”
- 庖丁解牛分词自定义词库
- “庖丁解牛” 分词器实现
- Lucene分词器之庖丁解牛
- Nutch中文分词(庖丁解牛)
- Lucene整合"庖丁解牛"中文分词 ----入门 2
- 庖丁解牛分词之自定义词库[自定义词典]
- 庖丁解牛 分词
- 庖丁解牛分词器---源码下载---错误问题解决
- Lucene3.0.0的分词测试工具
- github使用问题记录及解决办法
- Android adapter.notifyDataSetChanged失效的可能原因
- android 打造真正的下拉刷新上拉加载recyclerview(四):自动加载和其他封装
- 杭电acm1272 小希的迷宫
- 不同局域网内经Internet的P2P通信技术 tcp
- 测试庖丁解牛分词工具
- java.util.zip.ZipException: error in opening zip file
- Xshell 出现中文乱码,你需要这样做!
- 关于move_uploaded_file()出错的问题
- C语言局部变量与全局变量
- 第九天实训!!!
- 太乐地图下载器 V5.0.5 破解版
- 常见手势使用
- 86. Partition List