文章标题

来源:互联网 发布:软件服务器租用 编辑:程序博客网 时间:2024/06/10 17:06

简单中文输入法实验报告


一、设计思路

采用了一阶隐马尔可夫模型

输入的拼音序列—->观测状态O
汉字输出序列—->遗隐含状态S
短语中汉字的先后顺序—->隐含状态转移概率矩阵A
汉字的编码与拼音—->混淆矩阵B
短语的起始汉字—->初始状态概率矩阵π

通过训练得到模型(O,S,A,B,π),然后利用viterbi算法计算出给定的拼音序列下,各种汉字序列的输出

二、算法简述

1.初始化算法

for word,frequency in dict:     word

三、训练数据来源

来自github开源项目结巴分词的词库,其结构如下所示:
这里写图片描述
每一行由三个元素构成“词语,频数,类型”,其中类型属性本实验中用不到。

4.成果展示

0 0
原创粉丝点击