Dialog System Using Real-Time Crowdsourcing and Twitter Large-Scale Corpus

来源:互联网 发布:手机淘宝如何快速秒杀 编辑:程序博客网 时间:2024/06/07 02:37

聊天系统结构如下:

这里写图片描述
(1)从web爬取料聊天语料,制作聊天对话,即Utterance Pair Corpus.

(2)用户输入聊天语句,即user input,将user input与(1)中的聊天语句匹配,当匹配置信度大于某一阈值时,得到最佳的匹配作为回答,即response.

计算与输入最相似的句子作为回答,首先计算每个句子d的词wi的向量表示:

xi=tfi/ni

tfi为词wi在句子中出现的次数,ni表示该句子包含的词的总数.

句子d的所有词的向量组合得到句子d的向量表示.

对于两个句子d1,d2,计算其向量da,db,计算句子相似度如下:

similarity(da,db)=xTaxb

对于输入query,首先查找本地中所有response与其的相似度,得到相似度最大的response.

(3)如步骤(2)中没有得到匹配对,则采用Real-Time Crowdsourcing,即把当前的user input 输入到其他users,让其他users来回答,得到respose给当前的usr.

阅读全文
0 0
原创粉丝点击