【NLP】机器翻译常用评价标准 (BLEU & METEOR)
来源:互联网 发布:绘画人偶软件 编辑:程序博客网 时间:2024/05/16 18:18
在评价一个机器翻译系统时,译文的质量好坏无法通过文本形式的输出直观地体现,所以我们需要采用一些适当的量化标准对机器翻译的译文结果进行评价,而这些标准同样可适用于图像/视频描述等领域。
下面分别对两个常用的评价方法进行介绍:
BLEU
BLEU(Bilingual Evaluation understudy)是一种流行的机器翻译评价指标,用于分析候选译文和参考译文中n元组共同出现的程度,由IBM于2002年提出
对于一个待翻译句子,候选译文可以表示为
BLEU则按下式计算对应语句中语料库层面上的重合精度:
其中
容易看出
所以我们再引入一个惩罚因子BP(Brevity Penalty):
其中
本质上,BLEU是一个
其中,
BLEU在语料库层级上具有很好匹配的语句上表现很好,但随着n的增加,在句子层级上的匹配越来越差
因此,BLEU在个别语句上可能表现不佳
METEOR
METEOR标准于2004年由Lavir发现在评价指标中召回率的意义后提出
他们的研究表明,召回率基础上的标准相比于那些单纯基于精度的标准(如BLEU),其结果和人工判断的结果有较高相关性
METEOR测度基于单精度的加权调和平均数和单字召回率,其目的是解决一些BLEU标准中固有的缺陷
METEOR也包括其他指标没有发现一些其他功能,如同义词匹配等
计算METEOR需要预先给定一组校准(alignment)
则METEOR计算为对应最佳候选译文和参考译文之间的准确率和召回率的调和平均:
其中,
因此,METEOR的最终评价基于块(chunk)的分解匹配和表征分解匹配质量的一个调和平均,并包含一个惩罚系数
和BLEU不同,METEOR同时考虑了基于整个语料库上的准确率和召回率,而最终得出测度
0 0
- 【NLP】机器翻译常用评价标准 (BLEU & METEOR)
- 【NLP】机器翻译常用评价标准 (BLEU & METEOR)
- BLEU,ROUGE,METEOR,ROUGE-浅述自然语言处理机器翻译常用评价度量
- 机器翻译的评价标准BLEU(Evaluation criteria for machine translation)
- 机器翻译评价指标之BLEU
- BLEU : 一种机器翻译自动评价方法
- 一种机器翻译的评价准则——Bleu
- 机器学习(二十三)——Beam Search, NLP机器翻译常用评价度量, 模型驱动 vs 数据驱动
- 机器翻译自动评测方法BLEU值方法
- 机器翻译自动评估-BLEU算法详解
- BLEU算法——机器翻译自动评估
- 机器翻译(一):BLEU(bilingual evaluation understudy)
- 计算机视觉常用的评价标准
- NLP 和 搜索 、机器视觉 /机器翻译
- nlp-形式语言与自动机-ch10-统计机器翻译
- Precision & Recall计算机视觉中常用的评价标准
- NLP:词性标准
- meteor 常用包 整理
- 关于window.location的各属性
- 布局样式属性
- 人脸检测--libfacedetection
- android中的recyclerview的基础学习(二)
- 使用IPAddress.TryParse()方法校验IP地址时不得不知的“坑”
- 【NLP】机器翻译常用评价标准 (BLEU & METEOR)
- git命令行学习小结
- 频率域滤波基础之三(读数字图像处理学习halcon)
- jni
- VS 调试动态库
- Integer包装类常用方法
- java中“==”和equal区别
- 生成一个唯一的id
- 【消息队列MQ】ActiveMq的通信方式