第1章:Introduction
来源:互联网 发布:手机淘宝拍图片搜索 编辑:程序博客网 时间:2024/05/20 15:37
1.3:Model Selection:
(1):把数据集按一定比例分为训练集(training set),验证集(validation set)和测试集(test set),我们利用训练集来训练各种模型,然后把训练后的各种模型应用于验证集,选择一个有最好表现的模型,最后我们用测试集来最终评价这个已经被选择出来的模型的表现;
(2):考虑到上述方法的缺点,我们可以采用交叉验证(cross-validation)的方法,也就是把可得到数据的(s-1)/s部分作为训练集,整个可得到的数据作为验证集。因此对一个特定的模型,我们有s个训练run,并且把s次对应的表现求平均作为这个特定模型最终的表现。并且当数据很稀缺的话,可以把(N-1)/N部分的可得到数据作为训练集(N是可得到数据的个数)。
第一种:选择一个标准,这种标准能够规避掉过度拟合的影响,同时又能作为评价模型表现的标准; 第二种:选择一种决定模型参数的方法,这种方法不会导致过度拟合的问题
(3):第一种解决方法导致了Akaike信息标准(Akaike information criterion):
(4):第二种解决方法就是用完全贝叶斯方法去训练模型,我们知道贝叶斯方法不会导致过度拟合的问题。
1.5:Decision Theory
一:当我们在解决模式识别问题时,我们可以把问题求解分成推断(inference)和决定(decision)这两个阶段。
(1):推断阶段:我们应该要从训练集中得到联合概率分布
(2):决定阶段:基于一些准则,利用推断阶段得到的联合概率分布或者是后验概率分布,做出最优的决定。
二:分类问题所对应的决定论:
1:分类问题中决定论依据的准则:
(1):如果我们想极小化分类错误率,那么我们应该选择类别k使得
(2):如果我们想极小化损失函数(loss function, cost function),那么我们应该选择类别j使得
(3):当我们发现最大的
2:解决分类问题三种方法:
(1):generative models
(2):discriminative models:
(3):discriminant function:
三:递归问题所对应的决定论:
1:递归问题中的loss function:
2:决定论所采取的准则:
3:解决递归问题的三种方法:
(1):在推断阶段,利用训练集决定联合密度
(2):在推断阶段,直接得出条件密度
(3):利用训练集直接求出递归函数
这三种方法的相对优缺点与分类问题三种方法的类似。
1.6 information theory
1:信息
2:离散变量的熵(entropy):
3:连续性变量的微分熵:
并且我们可以发现
4:相对熵(relative entropy)
5:mutual information
$$\quad$对互信息的另外一个理解是当观察到x(或y)后,y(或x)的uncertainty的减少量。
- 第1章:Introduction
- 第1章:Introduction
- 第1章 Introduction
- 第01章 导言(Introduction)
- 《Essential Linux Device Drivers》 第1章 Introduction
- Introduction to Algorithms 算法导论 第1章 基础知识 学习笔记及习题解答
- 《Mining Text Data》阅读笔记---第1章 An Introduction to Text Mining
- [译]OOSE第6章:Architecture 体系结构 6.1 Introduction
- [译]OOSE第7章:Analysis 分析 7.1 Introduction
- [译]OOSE第8章:Construction 软件构建 8.1 Introduction
- 第15章 Introduction to Auto Layout翻译
- FOURIER ANALYSIS AN INTRODUCTION STEIN 第5章习题答案
- 1 Introduction
- 1 introduction
- 1、introduction
- (1)Introduction
- 1-Introduction
- 1-INTRODUCTION
- [概念]像素,分辨率
- 西电考研——朝着你的方向,出发
- C#继承1
- AssetsLibrary框架简单介绍
- 欢迎使用CSDN-markdown编辑器
- 第1章:Introduction
- apache Setting on ubuntu
- 使用video.js文件报错:Failed to load resource: net::ERR_FILE_NOT_FOUND的解决办法
- 固定比例01环的均匀分布问题
- 利用Broadcast实现强制下线
- 基于canvas的图片轮播(h5)
- Python实现N阶台阶的走法问题
- CSDN第一篇:处女座
- Word Search