盘古分词工具学习笔记
来源:互联网 发布:mac看电视直播的软件 编辑:程序博客网 时间:2024/04/29 23:59
下载了盘古分词工具,学习工具使用的同时学习中文分词基础。
1. 一元分词/二元分词/多元分词/精确分词
一元分词是按字拆分的,比如一句话“梦想很丰满”,在盘古分词中使用一元分词拆分的结果是:梦/梦想/想/很/美/美满/满/。
二元分词按双字形式输出。比如一句话“梦想很丰满”,使用二元分词拆分的结果是:“梦想”,“想很”,“很丰”,“丰满“。
多元分词则是将一句话中可能的单词组合按照一定规则输出,允许输出的词有重叠。
“梦想很丰满”,在盘古分词中使用冗余度为1的多元分词拆分的结果是:梦想/很/美/美满/。
精确分词则是将一句话中最准确的单词组合输出,不允许输出的词有重叠。如以上例句使用精确分词的结果是:梦想/很/美满/
精确分词是一般意义上分词算法追求的目标。
多元分词对搜索引擎有重要意义,因为多元分词增加了冗余,所以和搜索引擎结合可以得到较多的匹配结果(相对精确分词而言)。
以下链接文字说明了盘古分词中的多元分词的原理:
http://www.cnblogs.com/eaglet/archive/2008/10/02/1303142.html
2. 中文人名识别
以下链接是盘古分词中中文人名识别算法原理(包含如何消除歧义):
http://www.cnblogs.com/eaglet/archive/2009/08/19/1549566.html
人名词典是ChsSingleName.txt, ChsDoubleName1.txt, ChsDoubleName2.txt,但没有看到姓氏的词典?
3. 中文未登词识别
4 盘古的词典管理工具
包含了词名,词性,词频信息。
5. 扩展思考
如果让盘古分词支持地名,商品名称,该如果进行?只要将这些名称加入词库就可以了吗?
后续需要查阅中文人名,地名,组织名识别的相关论文。
其他分词工具:基于Python的结巴分词
- 盘古分词工具学习笔记
- 盘古分词
- 盘古分词
- Lucene .Net + 盘古分词 学习资料
- 学习笔记17 用盘古分词器+window service+lucene.net 使用注意事项
- 盘古分词demo,盘古分词怎么用
- 盘古分词--功能简介
- 盘古分词--功能简介
- 盘古分词--功能简介
- 盘古分词简单应用
- 盘古分词 lucene.net
- 盘古分词词性
- 盘古分词词性
- 盘古分词-中文人名识别
- 盘古分词-中文人名识别
- Lucene.Net 与 盘古分词
- Lucene.net 盘古分词 站内搜索
- Lucene.Net+盘古分词器
- vc/mfc如何使程序不显示在任务栏
- wc 命令
- 【BUG】ImageView 设置透明度
- linux下jdk安装以及配置
- 西邮ThoughtCoding实验室2016纳新笔试题(Java部分,面向大一大二,带参考答案)
- 盘古分词工具学习笔记
- 预处理命令
- 深入一门语言去编程,不浮于表面
- GBK 编码不兼容问题
- Leangoo
- 作用域
- python中的OS模块
- 3NF(Third Normal Form)
- 3.3Linux内核的组成