自然语言处理与文本检索

来源：互联网发布：2016淘宝店赚钱吗编辑：程序博客网时间：2024/05/16 04:38

今天开始把翟成祥教授的文本检索课程做一下笔记。
说明：文章内容来源于课程视频和课程ppt。我只学习了课程没有做习题。文章不是翻译，是我对课程的理解。

nlp的主要内容

　1 词语处理(lexical analysis = part-of-speech tagging)：分词与词性标注
　2 句法分析(syntactic analysis):句法树、依存关系分析
　3 语义分析(semantic analysis)：
　　Dog(d1).
　　Boy(b1).
　　Playground(p1).
　　Chasing(d1,b1,p1).
　　应用：实体识别、关系识别、情感分析。

　4 推论(Inference)
　　Scared(b1)
　
　5 语用分析(pragmatic analysis = speech act)
　　语言分析的最高级形式
　　

nlp的难度

　原因1：nlp是用于人类交流的，不是用于机器交流。
　原因2：人类交流是会产生歧义的(ambiguity)，人类交流是有一个常识库(common sense)的。
　词级别的歧义。“设计”这个词可以是一个动词，也可以是一个名词。这在词性标注的时候就会产生歧义。例句：这座大楼的设计(名词)很先进。这座大楼是他设计(动词)的。“意思”这个词在汉语中会有多层含义。例句1：这篇文章的中心意思是我们过马路要遵守交通规则。例句2：这不过是我的一点小意思，您收下吧。这两个句子中“意思”就有不同的含义。
　句法级别的歧义。例如“natural language processing”可以理解为“自然语言的处理”，也可以理解为“自然的语言处理”。再举例：“A man saw a boy with a telescope”是一个男人拿着望远镜看到了一个男孩，还是一个男人看到了一个拿着望远镜的男孩。举个中文例子“关心学校的老师”是说一个老师关心学校呢还是说有别人关心某个学校的老师。（中文例子来源于中国华文教育网）
　指代歧义(anaphora resolution)：指代不明。“John persuaded Bill to buy a TV for himself”.himself 是指Johb还是Bill。
　假想问题（Presupposition）：例如“He has quit smoking”。说明他曾经抽过烟。
　以上问题，都说明要想正确理解自然语言，需要维护一个庞大的常识库，以及分辨出上下文关系。

nlp目前能做到的

　这些资料是几年前的。这些数字是基于某一数据集得来的，不用太在意这些数值。词性标注：97%；句法分析：90%；语义分析：某些领域；推理：能做的事情不多；语用分析：特定的例子。

nlp用于文本搜索

　文本搜索引擎需要健壮、高效。

信息获取的两种方式

　push：推荐系统
　pull：搜索系统
　这两种系统都会介绍，首先会介绍搜索系统（在下一篇）。
　
　
　

阅读全文

0 1