《统计自然语言处理基础》笔记（3）词汇获取之简介

来源：互联网发布：滑坡灾害数据编辑：程序博客网时间：2024/05/18 03:10

1.词汇获取的目的是补充词典（这里指用于机器学习的词典）的不足之处，由于词汇含义不断在新增和变化，词典无法全面及时地覆盖所有含义和用法，因此词汇获取对基于统计的自然语言处理非重要。

之前介绍的固定搭配识别也是词汇获取的一种，除此之外词汇获取相关问题还包括动词子范畴框架、附着歧义，选择倾向和语义相似性等（本书主要讲了这4种）。

2. 词汇系统的评价标准。最常用的两个指标是精确率和召回率。

精确率 = 返回的目标答案数/返回的所有答案数

召回率 = 返回的目标答案数/所有的目标答案数

最典型的例子就是网页搜索，比如网上共有100个网页包含你想要的信息，搜索返回了70个网页（有可能来自这100个网页之外），而这其中又有10个网页不包含你想要的信息，那么

精确率 = 60/70，召回率 = 60/100

这两个指标应该是衡量信息处理和检索系统性能的通用标准，不知道为什么专门放在第8章介绍。

0 0

《统计自然语言处理基础》笔记（3）词汇获取 之 简介