自然语言处理技术及互联网应用解析(节选)
来源:互联网 发布:windows如何查看cpu 编辑:程序博客网 时间:2024/06/01 09:49
百度的吴华博士从搜索引擎的用户需求出发,她说道目前用户的搜索需求已经不限定在关键词的搜索,而是一些有语义的内容搜索,提到了目前互联网应用中的趋势:前互联网应用中的趋势:
基于知识网络的全面搜索需求,其中包括知识、语义搜索(精确的需求理解、直接答案满足)以及对话式搜索(智能交互)。
主动推荐,不搜即得
精准的个性化服务
面对这样的搜索需求时,给NLP带来了还大的挑战,主要表现在四个方面:
需求识别,输入复杂、需求多样
知识挖掘,来源自暗网,数据形式不单一,而且具有各种层次的知识
用户引导方面,如何建议、扩展以及交互
结果组织与展现方面,采用直接答案、聚类或是关系图都需要考虑
文本理解包括用户需求的蓝屏以及广义的理解,用户理解就是给用户建模知道他要做什么。基础的技术角度设计语法分析、句法分析、语义分析、ML模型,在应用中对应了知识图谱、Query分析、智能交互等。随后她从实际的案例来讲解这些方面的知识与关联:
实体挖掘,例如用户在搜索“中国合伙人”时,将会从Query Log挖掘、URL pattern挖掘以及从title中挖掘
Ontology建设,主要是上下位知识挖掘、三元组知识挖掘、相关实体挖掘以及语义标签挖掘
语义计算
随后她提到了Query理解的内容,Query理解的一个展现就在框计算时理解用户的意图给出精确的答案,主要涉及三个方面的内容:
Query改写
意图归一
复杂Query理解
当用户输入有误时,一般使用机器翻译模型来进行Query改写;对于一个Query的多种表达方式,使用Query Pair文本语义匹配计算,目前的准确率是90%,比基线高出绝对值高出10%;针对复杂的query,通过依存分析结果、查询逻辑表达式以及知识库推理进行处理。
语用分析用户智能交互部分,吴华博士以语音助手为例进行了实例的分析,在对话管理中,需要通过置信度、信息重要性以及历史信息来处理来自ASR和SLU结果的不确定性,然后根据用户提供的新信息来确定下一步行为。在对话管理中主要设计对话控制和对话环境建模两个模块。对话控制策略是基于框架的控制策略,即框架定义完成指定任务需要的信息、根据已知的信息确定之后要问的问题。而更加复杂的对话管理方法是基于AI或者统计学的方法来实现。
为什么IBM Research是许多NLP核心算法的开创者、Microsoft Research拥有豪华的NLP科研团队,反倒是Google能第一个把翻译做成大规模互联网产品?李志飞指出:
团队基因:科学家+工程师
整个谷歌大环境是实用至上
大数据,中英系统用几千万对句子
云架构:GFS、Map-reduce、BigTable
由于现成的理论和模型,他认为一个10个人的开发团队+16个人的产品团队完全可以做一个谷歌翻译。
基于知识网络的全面搜索需求,其中包括知识、语义搜索(精确的需求理解、直接答案满足)以及对话式搜索(智能交互)。
主动推荐,不搜即得
精准的个性化服务
面对这样的搜索需求时,给NLP带来了还大的挑战,主要表现在四个方面:
需求识别,输入复杂、需求多样
知识挖掘,来源自暗网,数据形式不单一,而且具有各种层次的知识
用户引导方面,如何建议、扩展以及交互
结果组织与展现方面,采用直接答案、聚类或是关系图都需要考虑
文本理解包括用户需求的蓝屏以及广义的理解,用户理解就是给用户建模知道他要做什么。基础的技术角度设计语法分析、句法分析、语义分析、ML模型,在应用中对应了知识图谱、Query分析、智能交互等。随后她从实际的案例来讲解这些方面的知识与关联:
实体挖掘,例如用户在搜索“中国合伙人”时,将会从Query Log挖掘、URL pattern挖掘以及从title中挖掘
Ontology建设,主要是上下位知识挖掘、三元组知识挖掘、相关实体挖掘以及语义标签挖掘
语义计算
随后她提到了Query理解的内容,Query理解的一个展现就在框计算时理解用户的意图给出精确的答案,主要涉及三个方面的内容:
Query改写
意图归一
复杂Query理解
当用户输入有误时,一般使用机器翻译模型来进行Query改写;对于一个Query的多种表达方式,使用Query Pair文本语义匹配计算,目前的准确率是90%,比基线高出绝对值高出10%;针对复杂的query,通过依存分析结果、查询逻辑表达式以及知识库推理进行处理。
语用分析用户智能交互部分,吴华博士以语音助手为例进行了实例的分析,在对话管理中,需要通过置信度、信息重要性以及历史信息来处理来自ASR和SLU结果的不确定性,然后根据用户提供的新信息来确定下一步行为。在对话管理中主要设计对话控制和对话环境建模两个模块。对话控制策略是基于框架的控制策略,即框架定义完成指定任务需要的信息、根据已知的信息确定之后要问的问题。而更加复杂的对话管理方法是基于AI或者统计学的方法来实现。
为什么IBM Research是许多NLP核心算法的开创者、Microsoft Research拥有豪华的NLP科研团队,反倒是Google能第一个把翻译做成大规模互联网产品?李志飞指出:
团队基因:科学家+工程师
整个谷歌大环境是实用至上
大数据,中英系统用几千万对句子
云架构:GFS、Map-reduce、BigTable
由于现成的理论和模型,他认为一个10个人的开发团队+16个人的产品团队完全可以做一个谷歌翻译。
0 0
- 自然语言处理技术及互联网应用解析(节选)
- 百度技术沙龙-自然语言处理技术及应用笔记整理
- 自然语言处理技术(NLP)在推荐系统中的应用
- 自然语言处理技术(NLP)在推荐系统中的应用
- 自然语言处理技术(NLP)在推荐系统中的应用
- 自然语言处理(NLP)的基本原理及应用
- TensorFlow技术解析与实战 11 自然语言处理
- 自然语言处理的主流技术(NLP)
- 自然语言处理基础技术
- 自然语言处理技术
- 《自然语言处理技术在中文全文检索中的应用》笔记
- 自然语言处理技术产品化
- 自然语言处理-NLP应用分类
- 自然语言处理基础(4)--数据平滑技术
- Natural 自然语言处理(NLP)「全解析」
- 机器学习、深度学习、计算机视觉、自然语言处理及应用案例——干货分享(持续更新......)
- 机器学习、深度学习、计算机视觉、自然语言处理及应用案例——干货分享(持续更新……)
- 互联网应用开发必备技能 缓存技术全解析
- 欢迎使用CSDN-markdown编辑器
- 将一个普通文件夹导入至eclipse
- File类实例给定一个相对路径字符串那当前目录是从哪里来
- 打印skb内容的一小段代码
- 模拟题 c/c++ 换酒喝问题
- 自然语言处理技术及互联网应用解析(节选)
- 触发器的更新本表(由循环触发引起的思考)
- 第四章 Controller接口控制器详解(3)——跟着开涛学SpringMVC
- JS清空数组的三种方式
- Google背后的开源力量
- linux 命令之top
- 社会化三方分享集成详细介绍(友盟)
- 第6章 Python连接器的参数
- leetcode n-queens