自然语言处理技术及互联网应用解析(节选)

来源:互联网 发布:windows如何查看cpu 编辑:程序博客网 时间:2024/06/01 09:49
百度的吴华博士从搜索引擎的用户需求出发,她说道目前用户的搜索需求已经不限定在关键词的搜索,而是一些有语义的内容搜索,提到了目前互联网应用中的趋势:前互联网应用中的趋势:

    基于知识网络的全面搜索需求,其中包括知识、语义搜索(精确的需求理解、直接答案满足)以及对话式搜索(智能交互)。
    主动推荐,不搜即得
    精准的个性化服务

面对这样的搜索需求时,给NLP带来了还大的挑战,主要表现在四个方面:

    需求识别,输入复杂、需求多样
    知识挖掘,来源自暗网,数据形式不单一,而且具有各种层次的知识
    用户引导方面,如何建议、扩展以及交互
    结果组织与展现方面,采用直接答案、聚类或是关系图都需要考虑  

    文本理解包括用户需求的蓝屏以及广义的理解,用户理解就是给用户建模知道他要做什么。基础的技术角度设计语法分析、句法分析、语义分析、ML模型,在应用中对应了知识图谱、Query分析、智能交互等。随后她从实际的案例来讲解这些方面的知识与关联:
    实体挖掘,例如用户在搜索“中国合伙人”时,将会从Query Log挖掘、URL pattern挖掘以及从title中挖掘
    Ontology建设,主要是上下位知识挖掘、三元组知识挖掘、相关实体挖掘以及语义标签挖掘
    语义计算
    
    随后她提到了Query理解的内容,Query理解的一个展现就在框计算时理解用户的意图给出精确的答案,主要涉及三个方面的内容:
    Query改写
    意图归一
    复杂Query理解
    
    当用户输入有误时,一般使用机器翻译模型来进行Query改写;对于一个Query的多种表达方式,使用Query Pair文本语义匹配计算,目前的准确率是90%,比基线高出绝对值高出10%;针对复杂的query,通过依存分析结果、查询逻辑表达式以及知识库推理进行处理。

    语用分析用户智能交互部分,吴华博士以语音助手为例进行了实例的分析,在对话管理中,需要通过置信度、信息重要性以及历史信息来处理来自ASR和SLU结果的不确定性,然后根据用户提供的新信息来确定下一步行为。在对话管理中主要设计对话控制和对话环境建模两个模块。对话控制策略是基于框架的控制策略,即框架定义完成指定任务需要的信息、根据已知的信息确定之后要问的问题。而更加复杂的对话管理方法是基于AI或者统计学的方法来实现。

    为什么IBM Research是许多NLP核心算法的开创者、Microsoft Research拥有豪华的NLP科研团队,反倒是Google能第一个把翻译做成大规模互联网产品?李志飞指出:
    团队基因:科学家+工程师
    整个谷歌大环境是实用至上
    大数据,中英系统用几千万对句子
    云架构:GFS、Map-reduce、BigTable
    由于现成的理论和模型,他认为一个10个人的开发团队+16个人的产品团队完全可以做一个谷歌翻译。
0 0