百度小度的原理
来源:互联网 发布:淘宝皇冠买家 编辑:程序博客网 时间:2024/05/16 15:30
前几天在电视上看到百度小度参加综艺节目,它进行了一些与人的互动,感觉比较有趣。正好也在做这方面的系统,就对百度小度的实现原理进行一些猜测。由于目前主要做语义方面的工作,所以只对语义方面的实现进行猜测,对于语音识别不进行分析。
百度小度在节目上做的主要是两类事情,第一类是知识问答,例如诗词的上句,找到下一句;第二类是根据语音指令进行操作,例如计时、转向。第一类问题的解答需要使用较多的语义技术,这里将进行重点分析。而对于第二类问题,由于小度所做的事情相对较少,可能不一定使用了语义技术,这里就不进行分析,但这类问题也是可以使用语义技术处理的。
我们从小度回答的诗词类问题入手来进行分析。这里会结合百度公开的一些资料。百度小度回答的诗词问题,比较典型的有作者、下一句这两种。百度如何把知识进行组织和使用知识进行语义推理解答的过程。
在去年的第一届中文知识图谱会议上,百度的赵博士讲述的PPT中提到一个概念,称为AVP,当时我刚做了一年自然语言处理的相关工作,正在考虑如何将知识的组织规范化,看到这个概念(虽然PPT中将的很晦涩)正好与我总结的三角形的知识结构不谋而合,因此在后面的工作中也将AVP结构作为了知识的一种基本结构来用。如果不是恶劣的 工作环境,我会以另外一种名字来命名它巴。那么什么是AVP结构,这里举一个例子,相信大家都能明白。
在这个图中,红色的点代表P(Product),绿色的点代表A(Attribute),蓝色的点代表V(Value),紫色的点比较特别,它处于两组AVP结构中,在“静夜思—诗句—床前明月光”中,它的角色是V;而在“床前明月光—下一句—疑是地上霜”中,它的角色是P。从百度公开的PPT中,我觉得百度应该是采用这样的结构作为它组织知识结构(或者成为知识图谱)的一种基本结构,这种结构在回答知识问答型问题时,具有很好的适应性。
我们现在看一下如何回答作者的问题,这是最简单和直接的一类问题。如果问题是“静夜思的作者是谁”,这个问题可以直接从知识图谱中定位“静夜思”和“作者”,而后根据AVP结构给出对应的V是“李白”,得到了答案。
再看第二个问题,“窗前明月光的下一句是什么?”这句话中,可以识别出“窗前明月光”和“下一句”两个概念节点,而后根据AVP结构给出对应的V是“疑是地上霜”。但是在直播节目中,小度没有直接给出答案,它的回答过程相对比较复杂,究其原因,很可能是没有建立“下一句”这样的A节点,所以小度采用了另外一种图搜索策略,既发现从这个V节点出发,根据V-P关系,找到对应的P(静夜思),而后从该P节点出发,列举所有V节点的内容(以及对应的A节点),所以我们看到,百度小度会先说作者是谁,以及其他一些关联V节点的内容,包括顺序说出诗句,然后说出了下一句。
从这些分析,我们可以看出,AVP结构是百度知识图谱系统的基本结构,百度结合强大的抓取技术和人力,将各类知识组织到AVP结构的海量规模知识图谱中,完成知识图谱的构建和不断更新。
当然,这知识其中最简单的一部分,如何从不差别、不规范的文本中识别出一个个实体,这才是这个技术的关键。
- 百度小度的原理
- 百度的搜索原理
- 百度快照的原理
- 百度搜索的原理
- 百度作站群的小秘密
- 百度搜索引擎的工作原理
- 百度搜索引擎的工作原理
- 搜索引擎算法原理 百度算法的原理 [
- 百度 搜索原理 如何 应对百度 的封杀 和 降权
- 下载百度文库资料的小技巧
- 小圈和百度的150天
- 如何调用百度地图的小实例
- 小白做百度地图的图层
- 百度地图的级别---小尾巴
- 百度OCR文字识别的小例子
- 百度推送的一些小问题
- 百度定位上的小bug
- 百度和谷歌的小对比。。。
- unresolved external symbol _main
- linux apache局域网无法访问
- java比较文件相同MD5
- HIbernate createSQLQuery二级缓存报ArrayIndexOutOfBoundsException错
- Eclipse中部署web项目到Tomcat目录下方法
- 百度小度的原理
- 小轿车干扰器--多车连环相撞损失先由交强险赔付
- 上海文案策划招聘全面分析
- 跟我学JAVA(2)--基本控件的用法
- 第13周项目3-成绩处理函数版
- 多媒体信息即时通讯功能详解
- 学习《Mongodb权威指南》学习笔记 (一)
- 程序员的成长从开窍开始
- 曲线的平滑平滑处理