[dialog system]阅读笔记

来源：互联网发布：网络技术培训机构编辑：程序博客网时间：2024/06/07 19:36

Ref

A Persona-Based Neural Conversation Model,Jiwei Li, Michel Galley, Chris Brockett, Georgios P. Spithourakis, Jianfeng Gao, Bill Dolan, 2016.

Introduction

多轮对话
在会话系统中加入对用户的建模，提高会话者一致性以及减少万能回复。
两种模型。SPEAKER MODEL，将speaker-level vector representation 集成到decode 端；Speaker-Addressee model，对对话的双发建模，并将representation 集成到 seq2seq的两端。
语料：Twitter上的开放域语料以及TV 字幕。

problem

在data-driven systems 中，由于数据集中存在大量的频繁出现的、无明确意义的responses, 因此基于最大似然生成的responses中包含了大量的诸如此类的万能回复，造成在对话过程中具有wildly inconsistent。
本文提出了一个 persona-based models 来试图解决对话者一致性问题。

model

文章建立了两种persona-based models: 一种是直接对应答者的个性进行建模；一种是对对话的双方进行建模，可以根据对话者的不同自动采用合适的应答。具体地，

speaker model
- 将每一个speaker表示为一个embedding vi, 该 embedding 蕴含了用户的具体信息（dialect, register, age, gender, personal information）
- 在标准的seq2seq 模型的target-side, 将 vi 与通常的representation 进行拼接，相当于注入了对话者的信息
- speaker embedding 和其他参数一样，在整个对话训练过程中进行学习。
- 在基于会话的语料上训练出的模型，具有相似应答的不同会话者，在embedding space 上更为靠近。
- 以下图为例，在训练数据集中，会话者 Rob 为经常提到 “England” 的人群中的一员，因此在回答”where do you live” 这样的问题时，Rob 更倾向于回答 “England” 而不是 “u.s.”，而在训练集中包含的会话者中， “u.s.” 要比 “England” 更为常见。
- 由于具有相似会话的会话者在embedding space 上更为靠近，比如会话者 i 和 j 在embedding space 上更为靠近， speaker i 在回复某个问题时，即使speaker i 从没有进行过相似问题的对话，而 speaker j 却进行过相似问题的对话，那么 speaker i 依然可以做出较为合适的回答。

speaker model

Speaker-Addressee model
- 对 speaker model 的扩展，将个性化作用到对话的双方上，同一个人可以根据会话者的不同做出不同的回复。
- 对会话的双方建立embedding Vi,j=tanh(W1⋅vi+W2⋅vj)
deocoding and reranking
- decoding using N-best list.
- 为了解决万能回复的问题，在上述建模的基础上，通过一个score function对 N-best list 进行打分，score function为 logp(R|M,v)+λlogp(M|R)+γ|R|,其中|R|为回复的长度，logp(M|R) 采用交换(message,response) 并用标准的 seq2seq 进行计算。

comment

终于看到有大神在dialog system中加入user model 了。
从具有相似emebdding的会话者去 generalize ，增加了response的多样性，good idea.
由于模型重点考虑的是对 user modeling, 反而对非user部分的建模过于简单，起码attention机制没有加入进去；
从 perplexity 和BLEU 这两个指标上衡量模型的好坏，值得斟酌。

阅读全文

0 0