史上最全!阿里智能人机交互的核心技术解析

来源:互联网 发布:跟知乎类似的网站 编辑:程序博客网 时间:2024/06/05 05:04

“连接“本身不是目的,它只是为“交互”建立了通道。在人机交互(Human-Computer Interaction)中,人通过输入设备给机器输入相关信号,这些信号包括语音、文本、图像、触控等中的一种模态或多种模态,机器通过输出或显示设备给人提供相关反馈信号。“连接”为“交互”双方架起了桥梁。

“交互”的演进方向是更加自然、高效、友好和智能。对人来说,采用自然语言与机器进行智能对话交互是最自然的交互方式之一,但这条路上充满了各种挑战。如何让机器理解人类复杂的自然语言?如何对用户的提问给出精准的答案而不是一堆候选?如何更加友好地与用户闲聊而不是答非所问?如何管理复杂的多轮对话状态和对话上下文?在阿里巴巴,我们从2014年初开始对智能对话交互进行探索和实践创新,研发成果逐步大规模应用在了智能客服(针对阿里巴巴生态内部企业的阿里小蜜、针对阿里零售平台上的千万商家的店小蜜,以及针对阿里之外企业及政府的云小蜜等)和各种设备(如YunOS手机、天猫魔盒、互联网汽车等)上。

本文将对阿里巴巴在智能对话交互技术上的实践和创新进行系统的介绍。首先简要介绍智能对话交互框架和主要任务;接下来详细介绍自然语言理解、智能问答、智能聊天和对话管理等核心技术;然后介绍阿里巴巴的智能对话交互产品;最后是总结和思考。强烈建议收藏细看!

本文作者:孙健,李永彬,陈海青,邱明辉

智能对话交互框架

典型的智能对话交互框架如图1所示。其中,语音识别模块和文本转语音模块为可选模块,比如在某些场景下用户用文本输入,系统也用文本回复。自然语言理解和对话管理是其中的核心模块,广义的自然语言理解模块包括对任务类、问答类和闲聊类用户输入的理解,但在深度学习兴起后,大量端到端(End-to-End)的方法涌现出来,问答和聊天的很多模型都是端到端训练和部署的,所以本文中的自然语言理解狭义的单指任务类用户输入的语义理解。在图2所示的智能对话交互核心功能模块中,自然语言理解和对话管理之外,智能问答用来完成问答类任务,智能聊天用来完成闲聊类任务。在对外输出层,我们提供了SaaS平台、PaaS平台和BotFramework三种方式,其中Bot Framework为用户提供了定制智能助理的平台。

ed1d2685835efe751cbdca96087bc681a3811958

图1 智能对话交互框架

 我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。

智能对话交互核心技术

智能对话交互中的核心功能模块如图2所示,本部分详细介绍智能对话交互中除输出层外的自然语言理解、智能问答、智能聊天和对话管理四个核心模块。

 f48537751b6a7ae96b6168b0f1df208084e41449

图2 智能对话交互中的核心功能模块

2.1自然语言理解

自然语言理解是人工智能的AI-Hard问题[1],也是目前智能对话交互的核心难题。机器要理解自然语言,主要面临如下的5个挑战。

(1)语言的多样性

(2)语言的多义性

(3)语言的表达错误

(4)语言的知识依赖

(5)语言的上下文表1 上下文示例

123c15bd1a29a5f8643dca61b7602ceefbcc6748

注:U指用户(user),A指智能体(agent)。下同。

整个自然语言理解围绕着如何解决以上难点问题展开。  

2.1.1自然语言理解语义表示

自然语言理解的语义表示主要有三种方式[2]。

(1)分布语义表示(Distributional semantics)

(2)框架语义表示(Frame semantics)

(3)模型论语义表示(Model-theoretic semantics)

原文链接

阅读全文
0 0
原创粉丝点击