jcseg-1.9.0 发布 - 英文同义词追加+中英任意组合识别
来源:互联网 发布:python gnureadline 编辑:程序博客网 时间:2024/06/08 15:52
jcseg是使用java开发的一款开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.
jcseg-1.9.0发布了, 具体更新如下:
1. 修复"小数+单位"组合无法识别的情况.更改ASegment#isDigit()方法.
2. 词库加载长度限制(长度大于max_length的过滤掉).
3. 更改中英混合词的识别(目前可以识别中英任何一种组合).
英中: 例如: b超,
英中英: a美1,
英中英中: a哆啦a梦,
中英: 卡拉ok,
中英中: 哆啦a梦,
中英中英: 中文a美a
3. 更改了单位组合, 现在可以组合更多非中文单位, 例如: ℃,℉
4. 对于未识别的字符, 给定一个开关选项(jcseg.keepunregword)来决定保留还是过滤.
这个一直备受增益: jcseg对于不识别的符号直接过滤掉了, jcseg目前已经识别中英文中任何字符和标点包括一些特殊标点, 那么其他的不识别符号的保留在检索领域并不是一个好的选择, 这里加上了一个开关选项, 用户可以自己定义去留...
5. 英文同义词的追加 (增加了lex-en.lex词库)
同时开发帮助文档没变
jcseg详细介绍/下载: http://code.google.com/p/jcseg/
祝大家心情愉悦.
- jcseg-1.9.0 发布 - 英文同义词追加+中英任意组合识别
- friso-1.4.0 发布 - 英文同义词追加+中英任意组合识别+小数单位识别
- jcseg-1.9.2 发布 - Java开源轻量级中文分词器+里程碑版本
- jcseg-1.9.4 发布 - Java轻量级开源中文分词器-检测模式切分
- Jcseg-1.9.7 发布 - Restful API+文章自动摘要/关键字/短语/句子提取
- 求数组中任意个数的组合
- 英文paper常见同义词转换总结
- 如何得到指定数字中任意几个数字的组合
- 如何得到指定数字中任意几个数字的组合
- 从m个数中任意去n个数的组合
- SQLSERVER2005中同义词实例
- Oracle中使用同义词
- oracle中同义词
- oracle中同义词笔记
- 数组中任意n个数的全排列(DFS)以及任意n个数的组合
- JavaScript 获取字符个数(中/英文识别)的一些方法
- JS获取字符个数(中/英文识别)的一些方法
- 实现任意组合查询
- Android之Activity
- C#反射读取类定制特性信息
- centos6文本模式更新为图形模式
- GH的热键,只要用gh都要拜读一下吧
- Leetcode Roman to Integer
- jcseg-1.9.0 发布 - 英文同义词追加+中英任意组合识别
- Linux就是这个范儿之第一次亲密接触(1)
- Spring, Hibernate, Maven, and Struts2 integration tutorial
- WINCE5.0上USB设备的自动检测
- About IndexDB
- 基于双队列实现huffman树
- fromImageReader的用法
- 看看你会几个?9大最火的移动开发技能
- 创建一个包含iterator类的简单容器类