隐马学习二(从词性标注角度理解隐马尔可夫)
来源:互联网 发布:cydia软件源2017 编辑:程序博客网 时间:2024/05/20 23:55
将尝试从词性标注领域来理解隐马尔可夫模型。
基本概念
隐马尔可夫模型是一种统计模型,一种机器学习方法。
它主要研究这个类型问题:有一组我们可以观察到的序列符号,它背后还隐藏着了一组序列符号,我们如何求那组序列符号,及有多大的概率出现我们观察到的序列符号。
对应的是一个词诩标注的例子。一个句子经过分词后是一组词序列,这是我们可以观察到的,其实在词序列的背后还有一个词性序列。比如,一个词序列“李明热爱 工作 。“,隐含还有一个词性序列”名词 动词 名词 标点“。问题是:给一个词序列,怎么求词性序列呢?怎么求产生这个词序列的概率?。
五元组
隐马尔可夫模型可以标记为五元组u=(S,K,A,B,pi):S代表状态集合;K为输出符号集合;pi为初始状态概率,A为状态转移概率;B为符号发射概率。
对应于词性标注问题中:
1,S为所有的词性集合,如果有标注好的训练语料,则从中统计出所有出现的词性;
2,K为所有的词集合,如果有训练语料,则从中统计出所有出现的词;
3,pi为句子中第一个词的词性概率分成,如果有训练语料,则统计出句子中第一个词(不区分什么词)的词性概率分布;
4,A为一个词性后边另一个词性的概率分布,比如动词后边是名词的概率、动词后边是介词的概率、名词后边是形容词的概率等;
5,B为一个词性中单词的概率分布,比如名词一共出了1000次,而这里边”中国“出现了10次,则名词中”中国"出现的概率是1/100。
经典问题
隐马尔可夫三个经典问题:评估问题,解码问题,学习问题。
对应于词性分析中:
1,评估问题,如何从词性角度求一个词序列(句子)出现的概率;
2,解码问题,给定一个词序列,如何求其背后的词性序列;
3,学习问题,在隐马的元组都出现了各种概率,如果有标注好的训练语料,则可以统计计算出,但没有训练语料的情况,则如何计算出概率参数。
- 隐马学习二(从词性标注角度理解隐马尔可夫)
- 隐马尔可夫模型与词性标注(上)
- 隐马尔可夫模型与词性标注(下)
- NLTK学习之二:建构词性标注器
- 词性标注(1)
- 词性标注(POS tagging)
- 词性标注
- 词性标注
- 词性标注
- 词性标注
- 词性标注
- 从内存角度理解指针和数组(二)
- 实习点滴(3)--以“词性标注”为例理解CRF算法
- python词法分析(分词+词性标注)
- 清华大学thulac分词和词性标注代码理解
- 中文命名实体识别之学习笔记一(词性标注)
- 一阶HMM词性标注
- 词性标注类函数
- 树链剖分
- JS组件系列——表格组件神器:bootstrap table
- C# office在线预览
- Spring五种事务配置
- UML类图6种关系的总结
- 隐马学习二(从词性标注角度理解隐马尔可夫)
- 理解 Android 中的 Matrix
- curl使用笔记
- *二叉树的基本操作(递归实现)*
- 窗台板用什么石材好
- ping pgrep pkill
- [刷题]算法竞赛入门经典(第2版) 4-6/UVa508 - Morse Mismatches
- drools 6.4.0 和spring集成
- 数据持久化 plist,CoreData,Sqlite