Lucene中文分词 庖丁解牛 2.0.0版本发布
来源:互联网 发布:税友软件下载 编辑:程序博客网 时间:2024/06/06 08:56
庖丁解牛 最新版本2.0.0 主要变更: 1)调整了package命名 改为net.paoding.analysis开头;调整了一些类的命名,主要是XAnalyzer改为 2)并调整了部分代码的相对位置:代码集中在三个包中: 3)同时,将字典改为英文命名,避免操作系统中文命名带来不必要影响 4)增加了配置文件;使knife可以在配置文件配置增减,同时字典的安装路径可以随意指定。 5)BUGFIX : highlight位置错误 下载地址:http://code.google.com/p/paoding/downloads/list ------------------------------------------------------------------- @设计优美-使用庖丁隐喻,容易理解代码设计 @效率极高-极高效率的字典查找算法;尽量避免无谓试探查找 @算法简练-简单易理解的算法,但效率却是非常高效的 @轻松支持最大/最小切词 @字典灵活- @源代码是开放的,遵守http://www.apache.org/licenses/LICENSE-2.0协议 @作者能力:Java基础知识、设计能力扎实、持续关注改进 ------------------------------------------------------------------- 1、准备 2)将字典文件安装(也就是拷贝)到某个目录下,比如/data/paoding/dic下 3)把配置文件paoding-analysis.properties放到自己的classpath下 4)打开paoding-analysis.properties,把paoding.dic.home属性设置为字 2、建立索引 Paoding应保存为一个系统单例为好,以重复利用,它是线程安全的. 2)使用Lucene标准API对文件建立索引。 3、检索查找 更具体的使用方式参见 ------------------------------------------------------------------ "中文分词" Javaeye 论坛: svn地址: 旧版本地址:
PaodingAnalyzer之类的。
net.paoding.analysis.dictionary 字典抽象--这是核心代码之一
net.paoding.analysis.knife "刀"抽象-分词算法-这是核心代码之二
net.paoding.analysis.analyzer 封装adapter到lucene接口
关键代码没有任何改变,特别是CJKKnife没有发现错误。
SVN地址:http://paoding.googlecode.com/svn/trunk/paoding-analysis/
选择"庖丁解牛"作为Lucene中文分词可能有以下理由:
字典文件个数不限;
名称不限,只要符合以dic作为扩展名的均视为字典
目录层级不限(所以可以任意加减字典目录以及目录下的字典)
字典格式简单:不需要特别排序,人工可编辑
"庖丁解牛" 使用指南
1)将二进制包paoding-analyis.jar放到自己的classpath下
典的安装目录,比如paoding.dic.home=/data/paoding/dic,特别的,如
果字典是安装在classpath下的dic目录下,则可以简单这样配置该属性:
paoding.dic.home=classpath:dic
1)将庖丁封装成符合Lucene要求的Analyzer规范,获取writer mode的lucene
分析器,writer mode意味要同时支持最大和最小切词。
Paoding paoding = PaodingMaker.make();
Analyzer writerAnalyzer = PaodingAnalyzer.writerMode(paoding);
IndexWriter writer = new IndexWriter(dirctory, writerAnalyzer);
...
1)使用Lucene标准API对文件进行检索,使用和建立索引时相同种的lucene分析器。
QueryParser parser = new QueryParser("content", writerAnalyzer );
...
examples/net.paoding.analysis.examples.gettingstarted中的示例代码
"庖丁解牛"google 论坛:
http://groups.google.com/group/paoding
http://analysis.group.javaeye.com/
http://paoding.googlecode.com/svn/trunk/paoding-analysis/
http://paoding.googlecode.com/svn/trunk/paoding-analysis-1/
不建议下载旧版本
- Lucene中文分词 庖丁解牛 2.0.0版本发布
- Lucene中文分词“庖丁解牛”
- Lucene整合"庖丁解牛"中文分词 ----入门 2
- Lucene整合"庖丁解牛"中文分词包
- Lucene之中文庖丁解牛(mmseg)分词器-yellowcong
- Lucene分词器之庖丁解牛
- 中文分词-lucene 第一个版本
- 中文分词-lucene 第二个版本
- Nutch中文分词(庖丁解牛)
- Lucene中文分词2.4.0
- 利用庖丁解牛工具进行中文分词
- Lucene中文分词
- Lucene中文分词
- Lucene 2.3 中文分词
- Lucene中文分词
- Lucene中文分词
- lucene-NGram中文分词
- lucene-JE中文分词
- EasyEclipse PHP自动提示扩展配置
- 骆驼命名法,帕斯卡命名法和匈牙利命名法
- A word for WinDbg
- Bourne Shell 编程入门(转)
- linux 0.11 内核学习 -- console.c,控制台
- Lucene中文分词 庖丁解牛 2.0.0版本发布
- 没有什么可以阻挡
- 黑盒测试、白盒测试和灰盒测试的基本概念
- A word for WinDbg (2)
- VS2008创建或加载Silverlight项目出错的解决办法
- oracle 物化视图 -循序渐进MView(三) 基于ROWID的MView
- 离职
- XML 的转移字符
- SilverLight