中文分词技术概要
来源:互联网 发布:红米note3怎么内存优化 编辑:程序博客网 时间:2024/06/07 15:20
中文自动分词,就是让计算机系统在中文文本中的词与词之间自动加上空格或者其他边界标记。
1、中文分词的主要难点在于分词规范、歧义切分、未登录词识别。
其一,迄今未有公认的权威的分词规范。
其二,歧义切分较复杂,往往需要进行复杂的上下文语义分析,甚至韵律分析。
歧义识别,只要针对三种情况:交集歧义,目前研究较多;组合歧义,需要结合整个句子;真歧义,需要结合上下文其他句子。
其三,对于大规模真实文本来说,未登录词对于分词精度的影响远远超过了歧义切分。
2、了解几个概念:stopWord 停止词,filterWord 过滤词
3、分词算法,可以简单归结为三种类别:
其一,基于字符串匹配的算法
其二,基于理解的算法
其三,基于统计的算法
4、常用开源分词器
IKanalysis
Ansj
阅读全文
1 0
- 中文分词技术概要
- 中文分词技术
- 中文分词技术
- 中文分词技术(一)
- 中文分词技术总结
- 搜索引擎中文分词技术
- 中文分词技术
- 中文分词技术
- 中文分词技术总结
- 中文分词技术
- 中文分词技术
- 中文分词技术
- 中文分词技术初识
- 中文分词技术
- 中文分词技术
- 中文分词技术
- 中文分词技术
- 中文分词技术
- 数据结构——队列、循环队列、链式队列主要操作函数的实现
- ORACLE自动扩展表空间添加数据文件
- IntelliJ IDEA 2017 提示“Unmapped Spring configuration files found.Please configure Spring facet.”解决办法
- FPGA中对竞争冒险问题的研究(转)
- 使用python对登录密码爆破
- 中文分词技术概要
- Activity生命周期与启动模式笔记
- 2017服务外包创新创业大赛感想
- Android TextView的跑马灯效果以及TextView的部分属性
- 什么是面向对象思想
- 注释驱动的 Spring cache 缓存介绍
- 167. Two Sum II
- Maven相关名词、概念-解释总结
- 发布jar包到Maven中央仓库