中文分词原理及实践
来源:互联网 发布:oracle 数据块大小 编辑:程序博客网 时间:2024/06/05 20:25
原文
简要介绍中文分词的原理
中文分词原理
中文分词算法可以分成以下几种
- 基于词典的方法
- 基于统计的方法
- 基于规则的方法
基于词典的方法
正向最大匹配
1) 正向最大匹配算法首先从句首(文章首部)开始选取m个字符作为待匹配字段,m为词典中最长词条的字符个数。
2) 将待匹配字段与词典进行匹配,若匹配成功则说明待匹配字段可以当成是一个词
3) 若匹配失败,则将待匹配字段的最后一个字符去掉,再用新的待匹配字段与词典中的词相匹配
逆向最大匹配
1) 逆向最大匹配算法首先从句尾(文章尾部)开始选取m个字符作为待匹配字段,m为词典中最长词条的字符个数。
2) 将待匹配字段与词典进行匹配,若匹配成功则说明待匹配字段是一个词
3) 若匹配失败,则将待匹配字段的第一个字符去掉,再用新的待匹配字段与词典中的词相匹配
双向最大匹配法
双向最大匹配算法就是比较正向最大匹配算法和逆向最大匹配算法的结果,若结果一样,则直接输出,否则输出分词结果含有非字典词最少,或者单字最少的那个结果
paoding分词器是一种基于字符串匹配的分词器。
基于统计的分词
计算文档所有可能的切分方案,选择概率最大的。
令C=C1C2…Cm ,C为带切分的汉字串,W=W1W2…Wn. W是切分结果
根据贝叶斯公式,
估计P(W)可采用n-gram方法:
由于一些限制,通常n都取2或3。即任意一个词出现的概率只与它前面一个词(马尔科夫假设)或前面两个词有关。当n取2时,上述模型可简化为
条件概率为:
ICTCLAS以及ansj就是使用基于统计的方法
基于规则的分词
这个不太懂,以后懂了再说。
阅读全文
0 0
- 中文分词原理及实践
- 【NLP】中文分词:原理及分词算法
- 中文分词:原理及分词算法
- 中文分词原理
- 中文分词技术(中文分词原理)
- 中文分词技术(中文分词原理)
- 中文分词技术(中文分词原理)
- 中文分词技术(中文分词原理)
- 中文分词技术(中文分词原理)
- 中文分词技术(中文分词原理)
- 中文分词技术(中文分词原理)
- 中文分词技术(中文分词原理)
- 中文分词技术(中文分词原理)
- 中文分词技术(中文分词原理)
- 自然语言处理入门(4)——中文分词原理及分词工具介绍
- 中文分词原理和实现
- IK中文分词器原理
- 中文分词原理和实现
- Hadoop-2.6.0+Zookeeper-3.4.6+Spark-1.3.1+Hbase-1.1.0+Hive-1.2.0集群搭建
- Linux下查看文件内容的命令
- 论文阅读理解
- tcp/ip协议【temp】
- vue-cli的webpack模板项目配置文件分析
- 中文分词原理及实践
- @ResponseBody注解的使用
- 央行官员:比特币不是未来,法定数字货币才是正统
- 美团会成为又一个乐视吗?
- 移植QT5.6到嵌入式开发板(史上最详细的QT移植教程)
- 上传文件功能笔记
- 为什么Button,ImageButton有焦点,textview,imageview没有焦点
- 网络攻击技术开篇——SQL Injection
- xcode各班本下载地址