程序博客网 > 制作个性头像的软件

根据给出的语料库，训练n-gram模型。根据训练出的模型，判断测试集中每个句子是不是语法合法的句子

来源：互联网发布：制作个性头像的软件编辑：程序博客网时间：2024/05/01 14:55

2-Gram的训练：先是将下载好的汉语分词工具NLPIR导入eclipse中，注意在使用这个分词工具的时候必须将Data包更新为最新，不然会初始化失败。编写代码实现对文件的分词，由于这个分词工具只可以实现3M左右的文件分词，过大的文件会出现无法读取从而报错，所以需要我们把100M的文件进行切割读入。我的程序中是把文件切成101份文本，然后进行分词，用bufferwriter进行写入afterSeg.txt，注意把bufferwiters的参数值设置成true，这样才可以实现追加文本，不会导致覆盖。然后，HashMap<String ,int>派上用场了，用HashMap存储每一个词，存在于HashMap的词不在存入但出现次数加一,没有在HashMap中出现的把它添加进HashMap中，出现次数设置为1。同时进行前后两个词一起出现的概论统计，存在于HashMap的词不在存入但出现次数加一,没有在HashMap中出现的把它添加进HashMap中，出现次数设置为1。然后把HashMap的数据写入wordTime文件中。

测试：在上面一个程序得到的afterSeg.txt文件，我们用同样的方法（HashMap）读入。然后比较用户的输入的语句进行分词存入数组，然后计算各个语句的概率。具体方法如下图：

最后是跟选定阈值进行比较得出正确语序的句子。

1 0

制作个性头像的软件

制作个性头像的软件

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子油烟机那个品牌的好油烟机买哪个牌子好吸排油烟机图片及价格什么样的油烟机好用油烟机不转了什么原因油烟机那个牌子的好排油烟机品牌排行榜油烟机买什么牌子好方太抽油烟机哪种好什么品牌油烟机好用老板抽油烟机专卖店老板的油烟机怎么样森太油烟机排名第几老板吸油烟机哪款好油烟机什么牌子好用油烟机选什么牌子好买什么样的油烟机好抽油烟机方太好还是老板好什么牌子的烟机灶具好松下燃气灶吸油机什么品牌的烟机好什么品牌烟机好烟机那种好烟机哪种好小苏打和白醋清洗油烟机油焖笋做法油焖笋的做法窍门如何制作油焖笋奉化油焖笋油焖笋的家常做法怎么炒油焖笋油焖笋烧法正宗油焖笋的做法油焖冬笋的做法油闷笋油煎青椒油煎茄子饼煎馒头片怎么脆又不油油煎荷包蛋油煎饺子的做法