基于一阶 HMM 标注序列算法的分词算法解析
来源:互联网 发布:c语言结构体指针 编辑:程序博客网 时间:2024/05/01 22:33
之前看到的有关python写的一篇 基于 一阶HMM 序列标注算法的分词代码,主要是基于B M E S序列状态和维特比算法,对当前的句子进行序列标注,然后基于标注序列进行中文分词,这也是目前主流的分词算法,因此结合代码,进行HMM 分词算法的详细分析,加深序列标注算法的理解,为后面的CRF + LSTM算法进行中文分词打下基础
隐马尔科夫模型(HMM)
模型介绍
HMM模型是由一个“五元组”组成:
- StatusSet: 状态值集合
- ObservedSet: 观察值集合
- TransProbMatrix: 转移概率矩阵
- EmitProbMatrix: 发射概率矩阵
- InitStatus: 初始状态分布
将HMM应用在分词上,要解决的问题是:参数(ObservedSet, TransProbMatrix, EmitRobMatrix, InitStatus)已知的情况下,求解状态值序列。解决这个问题的最有名的方法是viterbi算法。
参数介绍
- StatusSet,状态值集合为(B, M, E, S): {B:begin, M:middle, E:end, S:single}。分别代表每个状态代表的是该字在词语中的位置,B代表该字是词语中的起始字,M代表是词语中的中间字,E代表是词语中的结束字,S则代表是单字成词。
- ObservedSet,观察值集合就是所有汉字,甚至包括标点符号所组成的集合。
- TransProbMatrix,状态转移概率矩阵的含义就是从状态X转移到状态Y的概率,是一个4×4的矩阵,即{B,E,M,S}×{B,E,M,S}。
- EmitProbMatrix,发射概率矩阵的每个元素都是一个条件概率,代表P(Observed[i]|Status[j])
- InitStatus,初始状态概率分布表示句子的第一个字属于{B,E,M,S}这四种状态的概率。
Viterbi算法
Viterbi算法的核心思想就是动态规划实现最短路径,按照Michael Collins教的,核心思想是:
Define a dynamic programming table π(k,u,v),
π(k,u,v) = maximum probability of a tag sequence ending in tags u,v at position k.
For any k ∈ {1…n}: π(k,u,v) = max ( π(k-1,w,u) × q(v|w,u) × e(xk|v) )
完整的Viterbi算法网上有很多资料可以查看,本文主要关注代码的实现。
实验
代码1:模型训练
生成三个文件:
- prob_start.py 为初始状态概率
- prob_trans.py 为状态转移概率
- prob_emit.py 为发射概率
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
- 49
- 50
- 51
- 52
- 53
- 54
- 55
- 56
- 57
- 58
- 59
- 60
- 61
- 62
- 63
- 64
- 65
- 66
- 67
- 68
- 69
- 70
- 71
- 72
- 73
- 74
- 75
- 76
- 77
- 78
- 79
- 80
- 81
- 82
- 83
- 84
- 85
- 86
- 87
- 88
- 89
- 90
- 91
- 92
- 93
- 94
- 95
- 96
- 97
- 98
- 99
- 100
- 101
- 102
- 103
- 104
- 105
- 106
- 107
- 108
- 109
- 110
- 111
- 112
- 113
- 114
- 115
- 116
- 117
- 118
- 119
- 120
- 121
- 122
- 123
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
- 49
- 50
- 51
- 52
- 53
- 54
- 55
- 56
- 57
- 58
- 59
- 60
- 61
- 62
- 63
- 64
- 65
- 66
- 67
- 68
- 69
- 70
- 71
- 72
- 73
- 74
- 75
- 76
- 77
- 78
- 79
- 80
- 81
- 82
- 83
- 84
- 85
- 86
- 87
- 88
- 89
- 90
- 91
- 92
- 93
- 94
- 95
- 96
- 97
- 98
- 99
- 100
- 101
- 102
- 103
- 104
- 105
- 106
- 107
- 108
- 109
- 110
- 111
- 112
- 113
- 114
- 115
- 116
- 117
- 118
- 119
- 120
- 121
- 122
- 123
代码2:测试分词效果
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
结果
1 0
- 基于一阶 HMM 标注序列算法的分词算法解析
- Hanlp中基于2阶HMM 序列标注算法进行分词的代码解析
- 基于一阶HMM的中文词性标注(Java实现)
- HMM算法-viterbi算法的实现及与分词、词性标注、命名实体识别的引用
- 中文分词的python实现-基于HMM算法
- 中文分词的python实现-基于HMM算法
- 一阶HMM词性标注
- 基于HMM的中文分词
- HMM与序列标注
- HMM序列标注资料
- 转载 基于HMM模型的词性标注
- HMM最大匹配分词算法(Python)
- 自制基于HMM的中文分词器
- 自制基于HMM的中文分词器
- 自制基于HMM的中文分词器
- 基于HMM的中文分词模型实现
- 序列标注,维特比算法,中文分词(含代码)
- HMM的viterbi算法
- logback配置详解
- FMDB详解
- 小伙的java之旅——泛型
- Linux TCP/IP 网络工具对比:net-tools 和 iproute2
- 在java web项目中将http 转变成https tomcat8.5
- 基于一阶 HMM 标注序列算法的分词算法解析
- html
- 互联网实习工作准备
- android实现通过浏览器点击链接打开本地应用(APP)并拿到浏览器传递的数据
- 微信公众平台开发教程第22篇-如何保证access_token长期有效
- :-1: error: cannot open C:\Users\???\AppData\Local\Temp\main.obj.5136.0.jom for write :QT的中文路不兼容问题
- gcc系强制链接静态库(同时有.so和.a)
- ConfigUtil.class.getResource
- 使用Dockerfile文件构建基于centOS系统的tomcat镜像