(笔记)初步了解监督学习
来源:互联网 发布:asp.net入门编程实例 编辑:程序博客网 时间:2024/05/18 03:17
今天开始初步的涉猎统计学习方法,以该系列博客作为自己学习的成果吧
简介
统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的学科。由这段话我们可以看出,统计学习建立在数据的基础上,我们获取数据,对数据进行一定的探究,提取数据的特征,抽象出数据的模型,来发现数据之间的关系,从而能够对我们想要探究的问题进行预测。
统计学习关于数据的基本假设是同类数据具有一定的统计规律性,也只有如此我们才能够对其运用概率统计方法进行分析利用。
统计学习的方法
我们主要对监督学习(supervised learning) 进行探究。对于监督学习,简单的说,就是给定一定的用于学习的数据,即训练数据(training data)。在此,我们假设数据是独立同分布的,且需要学习的模型属于某个函数的集合,称该集合为假设空间(hypothesis space)。在一个的评价准则(evaluation criterion)下,对于已知的训练数据和未知的测试数据(test data),可以从假设空间中选取一个合适的模型,使得数据能够拥有一个最优的预测。
因此,对于监督学习,我们需要做的工作如同把大象塞进冰箱里一样简单。
- 找到模型的假设空间
- 模型选择的准则
- 模型学习的算法
以上三点归纳为模型(model), 策略(strategy), 算法(algorithm)。
监督学习基本概念
监督学习的任务是学习一个模型,使得模型对于任意输入的数据都能有一个相对较好的预测,即输出。
输入空间,特征空间和输出空间
输入空间(input space)与输出空间(output space)顾名思义,非常好理解。就是输入与输出的所有可能取值的集合。输入输出空间可以是有限元素的集合,也可以是整个欧氏空间。可以在同一空间内也可以发在不同的空间。通常情况下,输入空间远大于输出空间。
对于每一个具体的输入,我们称其为实例(instance),通常由特征向量(feature vector)来表示,自然而然,所有的特征向量存在的空间我们称为特征空间(feature space)。
这里很容易和输入空间弄混,个人的理解是,特征空间是一个更为抽象的概念, 对于一个模型而言,它接受的输出存在着一定的特征,这些特征所存在的空间,我们称为特征空间,而输入空间是这些特征的具体化,实例化。
在监督学习的过程中,将输入和输出看作是输入(特征)空间上与输出空间上随机变量的取值。习惯上将输入空间即为
这里的
对于监督学习,我们从训练数据集合中学习模型,训练数据由输入与输出对组成,通常表示为:
测试数据也用同样的方法来表示。我们又时也将输入输出对称为样本或样本点
针对于输入
- 回归问题:输入和输出变量均为连续变量的预测问题
- 分类问题:输出变量为有限个离散变量的预测问题
- 标注问题:输入和输出变量均为变量序列的预测问题
联合概率分布
监督学习假设输入变量和输出变量遵循联合概率分布
假设空间
监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。简单的表述就是,我们去寻找这样一个好的模型,这个模型由输入空间到输出空间的映射组成,使得对于每个输入都有一个好的输出产生,这样的一个映射的集合我们称为假设空间(hypothesis space)。
问题形式化
监督学习分为学习和预测两个过程。
首先需要给定一个训练数据集
其中
在学习过程中,学习系统利用给定的数据集
在预测过程中,对于给定的测试样本集的输入
对于任意一个已知的样本点,一个输入
学习系统正是通过不断的学习和训练,来获得一个能够相对完美解释输入与输出随机变量。
- (笔记)初步了解监督学习
- 机器学习笔记 (一) 监督学习、无监督学习
- Hadoop学习笔记之初步了解HDFS
- AngularJs学习笔记__1、初步了解AngularJS
- 【Java学习笔记】初步了解反射
- scala学习笔记一------初步了解scala
- Android学习笔记-Application初步了解总结
- kotlin学习笔记-1-初步了解
- 数据挖掘——学习笔记(机器学习--监督,非监督,半监督学习)
- 数据挖掘——学习笔记(机器学习--监督,非监督,半监督学习)
- 非监督学习(Udacity学习笔记)
- 监督学习-基本概念笔记
- 监督学习初步---线性分类器
- VBS学习日记(一) 初步了解
- Ajax学习---1(初步了解)
- 学习HTTP---初步了解(一)
- 深度学习初步了解
- Nginx学习初步了解
- bit.ly思路
- Java常见容器总结
- 生产者消费者模式
- Android O新特性
- 并查集入门学习
- (笔记)初步了解监督学习
- Apache从HTTP到HTTPS的实现
- ant脚本使用multidex解决65536问题
- 多线程之生产者与消费者问题
- LSTM初探
- 一张图让你搞懂JavaScript的继承与原型链
- 后缀自动机模板
- ROS包编译错误一例“ return m.__getMD5Sum().c_str();”
- Brackets sequence UVA