中文分词器 jcseg
来源:互联网 发布:淘宝分享不了怎么办 编辑:程序博客网 时间:2024/05/18 18:02
jcseg是使用Java开发的一个中文分词器,使用流行的mmseg算法实现。
1。目前最高版本:jcseg 1.7.0。 兼容最高版本的lucene。
2。mmseg四种过滤算法,分词准确率达到了97%以上。
3。支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类。如何给jcseg添加词库/新词。
4。词库整合了《现代汉语词典》和cc-cedict辞典中的词条,并且依据cc-cedict词典为词条标上了拼音,依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改jcseg.properties配置文档可以在分词的时候加入拼音和同义词到分词结果中。(1.7.0版后),jcseg新版词库
5。中文数字和中文分数识别,例如:"一百五十个人都来了,四十分之一的人。"中的"四五十"和"四十分之一"。并且jcseg会自动将其转换为阿拉伯数字加入到分词结果中。如:150, 1/40。(1.7.0版后)
6。支持中英混合词的识别。例如:B超, x射线。
7。更好的英文支持,电子邮件,网址,小数,分数,百分数的识别。(这个对购物网站来说很重要, 1.7.0版后)。
8。支持基本单字单位的识别,例如2012年。
9。智能圆角半角转换。
10。特殊字母识别:例如:Ⅰ,Ⅱ
11。特殊数字识别:例如:①,⑩
12。配对标点内容提取:例如:最好的Java书《java编程思想》,‘畅想杯黑客技术大赛’,被《,‘,“,『标点标记的内容。(1.6.8版开始支持)。
13。智能中文人名识别。中文人名识别正确率达94%以上。(可以维护lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex来提高准确率)。
14。词性标注正在完善中(缺少兼词词库,希望有的朋友可以给我发一份)。
jcseg佩带了一个jcseg.properties文件,只要有使用文本编辑器你就可以自主的编辑里面的选项,配置适合不同场合的分词应用。例如:最大匹配词数,是否开启中文人名识别,是否记载词条拼音,是否载入词条同义词等等。
详细了解:http://code.google.com/p/jcseg
下载jcseg:http://code.google.com/p/jcseg/downloads/list
- 中文分词器 jcseg
- Lucene中文分词Jcseg
- jcseg中文分词器去除不需要的分词
- Luence 4.4 Jcseg中文分词简单测试
- jcseg分词
- jcseg-1.9.2 发布 - Java开源轻量级中文分词器+里程碑版本
- jcseg-1.9.4 发布 - Java轻量级开源中文分词器-检测模式切分
- 搜索引擎:solr--搭建和分析中文分词器。下(jcseg和ICTCLAS)
- IKanalyzer、ansj_seg、jcseg三种中文分词器的实战较量
- IKanalyzer、ansj_seg、jcseg三种中文分词器的实战较量
- IKanalyzer、ansj_seg、jcseg三种中文分词器的实战较量
- Jcseg分词器的实现详解
- 一步一步跟我学习lucene(4)---lucene的中文分词器jcseg和IK Analyzer分词器及其使用说明
- word分词器、ansj分词器、IKanalyzer分词器、mmseg4j分词器、jcseg分词器对比
- word分词器、ansj分词器、IKanalyzer分词器、mmseg4j分词器、jcseg分词器对比
- Jcseg分词 介绍
- Luence 4.4 Jcseg分词器构建索引以及检索测试
- Solr4 + Jcseg(分词器) 安装配置--源自技术
- 6174问题
- 解决真实世界的单元测试问题
- Tab嵌套
- C++ 堆栈、堆和内存泄漏
- 程序员——初章
- 中文分词器 jcseg
- DirectShow学习笔记总结
- 中断处理例程的返回值
- log4j:WARN Please initialize the log4j system properly.
- 对 JavaScript 进行单元测试的工具
- LINUX中SAMBA详细安装
- 工作一年了
- Bigloo 3.9a 发布,Schema 语言编译器
- java调用外部程序 并指定工作路径