《统计自然语言处理基础》笔记(3)词汇获取 之 简介

来源:互联网 发布:滑坡灾害数据 编辑:程序博客网 时间:2024/05/18 03:10

1.词汇获取的目的是补充词典(这里指用于机器学习的词典)的不足之处,由于词汇含义不断在新增和变化,词典无法全面及时地覆盖所有含义和用法,因此词汇获取对基于统计的自然语言处理非重要。

之前介绍的固定搭配识别也是词汇获取的一种,除此之外词汇获取相关问题还包括动词子范畴框架、附着歧义,选择倾向和语义相似性等(本书主要讲了这4种)。

 

2. 词汇系统的评价标准。最常用的两个指标是 精确率 和 召回率。

         精确率 = 返回的目标答案数/返回的所有答案数

         召回率 = 返回的目标答案数/所有的目标答案数

最典型的例子就是网页搜索,比如网上共有100个网页包含你想要的信息,搜索返回了70个网页(有可能来自这100个网页之外),而这其中又有10个网页不包含你想要的信息,那么

                                    精确率 = 60/70,召回率 = 60/100

这两个指标应该是衡量信息处理和检索系统性能的通用标准,不知道为什么专门放在第8章介绍。

0 0
原创粉丝点击