jcseg-1.9.0 发布 - 英文同义词追加+中英任意组合识别

来源:互联网 发布:python gnureadline 编辑:程序博客网 时间:2024/06/08 15:52

jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.

jcseg-1.9.0发布了, 具体更新如下:

1. 修复"小数+单位"组合无法识别的情况.更改ASegment#isDigit()方法.

2. 词库加载长度限制(长度大于max_length的过滤掉).

3. 更改中英混合词的识别(目前可以识别中英任何一种组合).
    英中: 例如: b超,
    英中英: a美1,
    英中英中: a哆啦a梦,
    中英: 卡拉ok, 
    中英中: 哆啦a梦, 
    中英中英: 中文a美a
3. 更改了单位组合, 现在可以组合更多非中文单位, 例如: ℃,℉

4. 对于未识别的字符, 给定一个开关选项(jcseg.keepunregword)来决定保留还是过滤.
    这个一直备受增益: jcseg对于不识别的符号直接过滤掉了, jcseg目前已经识别中英文中任何字符和标点包括一些特殊标点, 那么其他的不识别符号的保留在检索领域并不是一个好的选择, 这里加上了一个开关选项, 用户可以自己定义去留...

5. 英文同义词的追加 (增加了lex-en.lex词库)

同时开发帮助文档没变

jcseg详细介绍/下载: http://code.google.com/p/jcseg/

祝大家心情愉悦.