根据给出的语料库,训练n-gram模型。根据训练出的模型,判断测试集中每个句子是不是语法合法的句子
来源:互联网 发布:制作个性头像的软件 编辑:程序博客网 时间:2024/05/01 14:55
2-Gram的训练:先是将下载好的汉语分词工具NLPIR导入eclipse中,注意在使用这个分词工具的时候必须将Data包更新为最新,不然会初始化失败。编写代码实现对文件的分词,由于这个分词工具只可以实现3M左右的文件分词,过大的文件会出现无法读取从而报错,所以需要我们把100M的文件进行切割读入。我的程序中是把文件切成101份文本,然后进行分词,用bufferwriter进行写入afterSeg.txt,注意把bufferwiters的参数值设置成true,这样才可以实现追加文本,不会导致覆盖。然后,HashMap<String ,int>派上用场了,用HashMap存储每一个词,存在于HashMap的词不在存入但出现次数加一,没有在HashMap中出现的把它添加进HashMap中,出现次数设置为1。同时进行前后两个词一起出现的概论统计,存在于HashMap的词不在存入但出现次数加一,没有在HashMap中出现的把它添加进HashMap中,出现次数设置为1。然后把HashMap的数据写入wordTime文件中。
测试: 在上面一个程序得到的afterSeg.txt文件,我们用同样的方法(HashMap)读入。然后比较用户的输入的语句进行分词存入数组,然后计算各个语句的概率。具体方法如下图:
最后是跟选定阈值进行比较得出正确语序的句子。
1 0
- 根据给出的语料库,训练n-gram模型。根据训练出的模型,判断测试集中每个句子是不是语法合法的句子
- caffe根据训练出的模型提取特征
- 根据模型中的参数数量判断需要的训练数据的数量
- 2、语料库更新后模型的在线训练
- N-gram模型的优缺点
- 判断句子是不是魔法咒语的算法
- N元语言模型的训练方法
- N元语言模型的训练方法
- 用于训练的模型
- Caffe_03_用训练好的模型测试
- 对训练得到的模型进行测试
- ARPA的n-gram语言模型格式
- ARPA的n-gram语言模型格式
- 《N-gram模型》的补充修正
- 【自然语言处理入门】02:Kenlm语料库的制作与模型的训练
- tensorflow训练出的模型识别的demo
- 字符串训练--把句子的单词顺序倒置
- 根据给出的前几个数字,打印出n行方阵
- 响应式手机网站——视口约束&媒体查询
- java爬虫gecco监控来了,不再裸奔
- 【解决】Element type "typename" must be followed by either attribute specifications, ">" or "/>".
- iOS8 alertView
- docker数据管理2
- 根据给出的语料库,训练n-gram模型。根据训练出的模型,判断测试集中每个句子是不是语法合法的句子
- iOS 微信支付
- Eclipse build Android时不生成apk问题解决方法
- git 中获取短的 commit hash 值
- Spring MVC实现用户登录页面
- 为什么用Java——一个来自Python阵营的程序员告诉你
- lua内存释放的理解
- 如何让浏览器直接输出HTML代码而不解析
- ORA-01153: an incompatible media recovery is active(产生原因及解决方法)