自然语言处理与文本检索
来源:互联网 发布:2016淘宝店赚钱吗 编辑:程序博客网 时间:2024/05/16 04:38
今天开始把翟成祥教授的文本检索课程做一下笔记。
说明:文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译,是我对课程的理解。
nlp的主要内容
1 词语处理(lexical analysis = part-of-speech tagging):分词与词性标注
2 句法分析(syntactic analysis):句法树、依存关系分析
3 语义分析(semantic analysis):
Dog(d1).
Boy(b1).
Playground(p1).
Chasing(d1,b1,p1).
应用:实体识别、关系识别、情感分析。
4 推论(Inference)
Scared(b1)
5 语用分析(pragmatic analysis = speech act)
语言分析的最高级形式
nlp的难度
原因1:nlp是用于人类交流的,不是用于机器交流。
原因2:人类交流是会产生歧义的(ambiguity),人类交流是有一个常识库(common sense)的。
词级别的歧义。“设计”这个词可以是一个动词,也可以是一个名词。这在词性标注的时候就会产生歧义。例句:这座大楼的设计(名词)很先进。这座大楼是他设计(动词)的。“意思”这个词在汉语中会有多层含义。例句1:这篇文章的中心意思是我们过马路要遵守交通规则。例句2:这不过是我的一点小意思,您收下吧。这两个句子中“意思”就有不同的含义。
句法级别的歧义。例如“natural language processing”可以理解为“自然语言的处理”,也可以理解为“自然的语言处理”。再举例:“A man saw a boy with a telescope”是一个男人拿着望远镜看到了一个男孩,还是一个男人看到了一个拿着望远镜的男孩。举个中文例子“关心学校的老师”是说 一个老师关心学校呢 还是说 有别人关心某个学校的老师。(中文例子来源于中国华文教育网)
指代歧义(anaphora resolution):指代不明。“John persuaded Bill to buy a TV for himself”.himself 是指Johb还是Bill。
假想问题(Presupposition):例如“He has quit smoking”。说明他曾经抽过烟。
以上问题,都说明要想正确理解自然语言,需要维护一个庞大的常识库,以及分辨出上下文关系。
nlp目前能做到的
这些资料是几年前的。这些数字是基于某一数据集得来的,不用太在意这些数值。词性标注:97%;句法分析:90%;语义分析:某些领域;推理:能做的事情不多;语用分析:特定的例子。
nlp用于文本搜索
文本搜索引擎需要健壮、高效。
信息获取的两种方式
push:推荐系统
pull:搜索系统
这两种系统都会介绍,首先会介绍搜索系统(在下一篇)。
- 自然语言处理与文本检索
- 数据挖掘、检索、自然语言处理
- python与自然语言处理(五):中文文本词云
- 文本挖掘和自然语言处理
- 自然语言处理之:文本分类
- 文本分析--NLTK自然语言处理
- 统计自然语言处理--文本分类
- 如何检索自然语言处理领域相关论文
- MapReduce与自然语言处理
- python与自然语言处理
- Python自然语言处理--处理原始文本
- Python自然语言处理 3 处理原始文本
- 文本索引与检索
- 自然语言处理(1)——文本分词
- 自然语言处理之:文本分析算法
- 五、自然语言处理中的文本分类
- python自然语言处理02--搜索文本
- python自然语言处理-----计算文本相似度
- Qter 遇见的大牛!
- HDU
- java程序员进阶之路需要的学习过程
- 递归与动态规划---最小编辑代价
- Xcode导入GData库来解析XML
- 自然语言处理与文本检索
- ubuntu 安装文件
- android基础-view的属性(XML通用属性和方法)和布局管理器(常用布局)
- HDU 6119 小小粉丝度度熊 (尺取法)
- colorAccent,colorPrimary,colorPrimaryDark
- 存储资讯
- 码农的苦逼生活
- HDU 1443 Joseph
- 航信概要设计-6