隐马学习二(从词性标注角度理解隐马尔可夫)

来源:互联网 发布:cydia软件源2017 编辑:程序博客网 时间:2024/05/20 23:55

       将尝试从词性标注领域来理解隐马尔可夫模型。

基本概念

隐马尔可夫模型是一种统计模型,一种机器学习方法。

它主要研究这个类型问题:有一组我们可以观察到的序列符号,它背后还隐藏着了一组序列符号,我们如何求那组序列符号,及有多大的概率出现我们观察到的序列符号。

对应的是一个词诩标注的例子。一个句子经过分词后是一组词序列,这是我们可以观察到的,其实在词序列的背后还有一个词性序列。比如,一个词序列“李明热爱 工作 。“,隐含还有一个词性序列”名词 动词 名词 标点“。问题是:给一个词序列,怎么求词性序列呢?怎么求产生这个词序列的概率?。

         五元组

隐马尔可夫模型可以标记为五元组u=(S,K,A,B,pi):S代表状态集合;K为输出符号集合;pi为初始状态概率,A为状态转移概率;B为符号发射概率。

对应于词性标注问题中:

1,S为所有的词性集合,如果有标注好的训练语料,则从中统计出所有出现的词性;

2,K为所有的词集合,如果有训练语料,则从中统计出所有出现的词;

3,pi为句子中第一个词的词性概率分成,如果有训练语料,则统计出句子中第一个词(不区分什么词)的词性概率分布;

4,A为一个词性后边另一个词性的概率分布,比如动词后边是名词的概率、动词后边是介词的概率、名词后边是形容词的概率等;

5,B为一个词性中单词的概率分布,比如名词一共出了1000次,而这里边”中国“出现了10次,则名词中”中国"出现的概率是1/100。

经典问题

         隐马尔可夫三个经典问题:评估问题,解码问题,学习问题。

对应于词性分析中:

1,评估问题,如何从词性角度求一个词序列(句子)出现的概率;

2,解码问题,给定一个词序列,如何求其背后的词性序列;

3,学习问题,在隐马的元组都出现了各种概率,如果有标注好的训练语料,则可以统计计算出,但没有训练语料的情况,则如何计算出概率参数。

0 0