《统计自然语言处理基础》笔记(3)词汇获取 之 简介
来源:互联网 发布:滑坡灾害数据 编辑:程序博客网 时间:2024/05/18 03:10
1.词汇获取的目的是补充词典(这里指用于机器学习的词典)的不足之处,由于词汇含义不断在新增和变化,词典无法全面及时地覆盖所有含义和用法,因此词汇获取对基于统计的自然语言处理非重要。
之前介绍的固定搭配识别也是词汇获取的一种,除此之外词汇获取相关问题还包括动词子范畴框架、附着歧义,选择倾向和语义相似性等(本书主要讲了这4种)。
2. 词汇系统的评价标准。最常用的两个指标是 精确率 和 召回率。
精确率 = 返回的目标答案数/返回的所有答案数
召回率 = 返回的目标答案数/所有的目标答案数
最典型的例子就是网页搜索,比如网上共有100个网页包含你想要的信息,搜索返回了70个网页(有可能来自这100个网页之外),而这其中又有10个网页不包含你想要的信息,那么
精确率 = 60/70,召回率 = 60/100
这两个指标应该是衡量信息处理和检索系统性能的通用标准,不知道为什么专门放在第8章介绍。
0 0
- 《统计自然语言处理基础》笔记(3)词汇获取 之 简介
- 统计自然语言处理(词汇获取)
- 统计自然语言处理基础学习笔记(5)——词汇获取
- 读《统计自然语言处理》——词汇获取
- 统计自然语言处理基础-笔记-数学基础
- 统计自然语言处理简介
- 统计自然语言处理简介
- 《统计自然语言处理基础》笔记(4)词性标注 之 作用和影响性能的主要因素
- (笔记)统计自然语言处理基础 第1章 绪论
- 统计自然语言处理基础学习笔记(1)
- 统计自然语言处理基础-笔记-绪论
- 统计自然语言处理基础学习笔记(1)
- 统计自然语言处理 之 数学基础
- 统计自然语言处理 之 数学基础
- 统计自然语言处理基础学习笔记(3)——统计推理
- 《统计自然语言处理》笔记(1)
- 《统计自然语言处理》笔记(2)
- 统计自然语言处理---信息论基础
- Insertion Sort List
- LR函数
- 网游服务器技术-语言选择
- 设计模式-策略模式
- 别再耍流氓了: 请别再用strcpy, 而用strncpy
- 《统计自然语言处理基础》笔记(3)词汇获取 之 简介
- 二叉树的序列化与反序列化的一些思考
- jQuery中选择器小问题
- MIT python 公开课
- 博弈论
- android DOM解析XML
- 线段 矩形 矩形与矩形 相交
- 整站HTML编写目标
- 【开发平台】VM10装Mac 10.9