[dialog system]阅读笔记

来源:互联网 发布:网络技术培训机构 编辑:程序博客网 时间:2024/06/07 19:36

Ref

  • A Persona-Based Neural Conversation Model,Jiwei Li, Michel Galley, Chris Brockett, Georgios P. Spithourakis, Jianfeng Gao, Bill Dolan, 2016.

Introduction

  • 多轮对话
  • 在会话系统中加入对用户的建模,提高会话者一致性以及减少万能回复。
  • 两种模型。SPEAKER MODEL,将speaker-level vector representation 集成到decode 端;Speaker-Addressee model,对对话的双发建模,并将representation 集成到 seq2seq的两端。
  • 语料:Twitter上的开放域语料以及TV 字幕。

problem

在data-driven systems 中,由于数据集中存在大量的频繁出现的、无明确意义的responses, 因此基于最大似然生成的responses中包含了大量的诸如此类的万能回复,造成在对话过程中具有wildly inconsistent。
本文提出了一个 persona-based models 来试图解决对话者一致性问题。

model

文章建立了两种persona-based models: 一种是直接对应答者的个性进行建模;一种是对对话的双方进行建模,可以根据对话者的不同自动采用合适的应答。具体地,

  • speaker model
    • 将每一个speaker表示为一个embedding vi, 该 embedding 蕴含了用户的具体信息(dialect, register, age, gender, personal information)
    • 在标准的seq2seq 模型的target-side, 将 vi 与通常的representation 进行拼接,相当于注入了对话者的信息
    • speaker embedding 和其他参数一样,在整个对话训练过程中进行学习。
    • 在基于会话的语料上训练出的模型,具有相似应答的不同会话者,在embedding space 上更为靠近。
    • 以下图为例,在训练数据集中,会话者 Rob 为经常提到 “England” 的人群中的一员,因此在回答”where do you live” 这样的问题时,Rob 更倾向于回答 “England” 而不是 “u.s.”, 而在训练集中包含的会话者中, “u.s.” 要比 “England” 更为常见。
    • 由于具有相似会话的会话者在embedding space 上更为靠近,比如会话者 i 和 j 在embedding space 上更为靠近, speaker i 在回复某个问题时,即使speaker i 从没有进行过相似问题的对话,而 speaker j 却进行过相似问题的对话,那么 speaker i 依然可以做出较为合适的回答。

speaker model

  • Speaker-Addressee model

    • 对 speaker model 的扩展,将个性化作用到对话的双方上,同一个人可以根据会话者的不同做出不同的回复。
    • 对会话的双方建立embedding Vi,j=tanh(W1vi+W2vj)
  • deocoding and reranking

    • decoding using N-best list.
    • 为了解决万能回复的问题,在上述建模的基础上,通过一个score function对 N-best list 进行打分,score function为 logp(R|M,v)+λlogp(M|R)+γ|R|,其中|R|为回复的长度,logp(M|R) 采用交换(message,response) 并用标准的 seq2seq 进行计算。

comment

  • 终于看到有大神在dialog system中加入user model 了。
  • 从具有相似emebdding的会话者去 generalize ,增加了response的多样性,good idea.
  • 由于模型重点考虑的是对 user modeling, 反而对非user部分的建模过于简单,起码attention机制没有加入进去;
  • 从 perplexity 和BLEU 这两个指标上衡量模型的好坏,值得斟酌。
原创粉丝点击