RUBER: An Unsupervised Method for Automatic Evaluation of Open-Domain Dialog Systems

来源：互联网发布：mac虚拟机共享文件编辑：程序博客网时间：2024/06/08 06:38

- - Introduction
  - Methodology
    - Referenced Metric
    - Unreferenced Metric
    - Hybrid Evaluation
  - Experiments

RUBER全称：Referenced metric and Unreferenced metric Blended Evaluation Routine.

Introduction

照例把BLEU, METEOR, ROUGE等方法批判一通，lowe的文章的那个方法（towards xxx ）需要大量的人工标注，不flexible也不extensible。
RUBER：
* Embedding-based scorer, referenced metric。衡量生成的reply和groundtruth之间的相似性(similarity)。
* Neural network-based scorer，unreferenced metric。衡量生成的reply和它的query之间的相关性(relatedness)。采用负采样的方法来训练网络，不需要人工标注

Methodology

Referenced Metric

采用 vector pooling
w1,w2,...,wn表示word embedding，max pooling：

v m a x [i] = m a x {w 1 [i], w 2 [i], . . ., w n [i]}

[·]表示向量的维度
另外还有 min pooling，将两个concatenate在一起，v=[vmax;vmin]。vr^ 表示生成的回复的sentence vector，vr 表示groundtruth。
衡量r和r^之间相似性的metric：

s R (r, r^) = c o s (v r, v r^)

通过这种pooling的方法，可以较好的提取出uncommon words的信息，而且比vector extrema更具有鲁棒性。

Unreferenced Metric

衡量reply r^和query q的相关性。metric为sU(q,R^)
使用双向rnn，将两个方向的最后一个状态concatenate起来作为sentence embedding；
并且引入了一个quadratic feature qTMr，M是一个参数矩阵
使用MLP（多层感知机）得出sU metric。MLP的hidden layer使用tanh作为激活函数，但是最后一层用的是sigmoid，为了score能够有界。

为了训练这个网络，采用的是负采样的方法，因此可以避免人工标注数据。方法为：给定一个groundtruth query reply pair，从训练数据中随机选择另一个reply r−作为负样本。希望正样本的分值比负样本至少要大Δ，训练目标为最小化：

J = m a x {0, Δ - s U (q, r) + s U (q, r -)}

Hybrid Evaluation

先对metric的结果s′进行正则化得到s˜，使其分布在(0, 1)之间。然后结合s˜R和s˜U，通过启发式，包括min, max, 几何平均，算数平均之类的。不同的策略得到的结果是相似的。

Experiments

数据是从豆瓣论坛上爬的中文，对两类对话系统进行了评估：基于特征的retrieval-and-reranking system，和seq2seq生成模型。

阅读全文

0 0