RUBER: An Unsupervised Method for Automatic Evaluation of Open-Domain Dialog Systems

来源:互联网 发布:mac虚拟机共享文件 编辑:程序博客网 时间:2024/06/08 06:38

      • Introduction
      • Methodology
        • Referenced Metric
        • Unreferenced Metric
        • Hybrid Evaluation
      • Experiments

RUBER全称:Referenced metric and Unreferenced metric Blended Evaluation Routine.

Introduction

照例把BLEU, METEOR, ROUGE等方法批判一通,lowe的文章的那个方法(towards xxx )需要大量的人工标注,不flexible也不extensible。
RUBER:
* Embedding-based scorer, referenced metric。衡量生成的reply和groundtruth之间的相似性(similarity)。
* Neural network-based scorer,unreferenced metric。衡量生成的reply和它的query之间的相关性(relatedness)。采用负采样的方法来训练网络,不需要人工标注

Methodology

Referenced Metric

采用 vector pooling
w1,w2,...,wn表示word embedding,max pooling:

vmax[i]=max{w1[i],w2[i],...,wn[i]}

[·]表示向量的维度
另外还有 min pooling,将两个concatenate在一起,v=[vmax;vmin]vr^ 表示生成的回复的sentence vector,vr 表示groundtruth。
衡量rr^之间相似性的metric:

sR(r,r^)=cos(vr,vr^)

通过这种pooling的方法,可以较好的提取出uncommon words的信息,而且比vector extrema更具有鲁棒性。

Unreferenced Metric

衡量reply r^和query q的相关性。metric为sU(q,R^)
使用双向rnn,将两个方向的最后一个状态concatenate起来作为sentence embedding;
并且引入了一个quadratic feature qTMr,M是一个参数矩阵
使用MLP(多层感知机)得出sU metric。MLP的hidden layer使用tanh作为激活函数,但是最后一层用的是sigmoid,为了score能够有界。

为了训练这个网络,采用的是负采样的方法,因此可以避免人工标注数据。方法为:给定一个groundtruth query reply pair, 从训练数据中随机选择另一个reply r作为负样本。希望正样本的分值比负样本至少要大Δ,训练目标为最小化:

J=max{0,ΔsU(q,r)+sU(q,r)}

Hybrid Evaluation

先对metric的结果s进行正则化得到s˜,使其分布在(0, 1)之间。然后结合s˜Rs˜U,通过启发式,包括min, max, 几何平均,算数平均之类的。不同的策略得到的结果是相似的。

Experiments

数据是从豆瓣论坛上爬的中文,对两类对话系统进行了评估:基于特征的retrieval-and-reranking system,和seq2seq生成模型。

阅读全文
0 0
原创粉丝点击