机器学习(1)从基本术语开始

来源:互联网 发布:淘宝围巾店推荐知乎 编辑:程序博客网 时间:2024/06/07 17:45

哦~从这章开始,要写一个系列有关机器学习的套路。

从原理开始吧,机器学习的代码到处都能找到呢。

选教程的话,推荐周志华的《机器学习》,视频教程看吴恩达教授的机器学习公开课就可以了。


数据集(data set),样本(sample)或特征向量(feature vector),特征(feature)或者属性(attribute),属性值(attribute value),维数(dimensionality),标记(label)


 数据集为训练和测试用的数据,比如人脸识别中,数据集就是一张张人脸,样本就是数据集中的一个数据,在人脸数据中,样本就为一张人脸图片,一个数据集中每个样本都有固定的特征数量,比如判断一台电脑是不是“好”电脑,可以分CPU,GPU,内存,显存四个特征,属性值或者特征值就是特征的数值,比如内存多大,显存多大,GPU是不是英伟达的,维数就是特征的数量,比如电脑那个样本中,就是4个维数。单给出数据,程序时没办法做出分类,所以还要给数据配上标记,(X1,y1),X为样本,y为标记,标记表明该样本是“好”或者“不好”,这样程序就能从数据中分辨出样本属于什么。

监督学习,无监督学习,分类和回归,聚类(clustering)


过度拟合和欠拟合:

一个数据集分两个部分,一个为训练集,一个为测试集,训练集用来做出模型,测试集用来校验模型的精确率。

把一个数据集分成两部分有三种方法:

留出法(hold-out),交叉验证,自助法:

留出法:假设有1000个样本,把700个样本作为训练集,300个样本作为测试集,假如测试的时候有90个样本是分类的错的,那么该模型的精确度为;1-(90/300) * 100% = 70%

交叉验证:

假如我有1000个样本,以100个样本为一组,那么就有10组,从每一组抽出10个样本作为测试,那么每一组剩下的90个样本作为训练,最后10组得出的测试结果再平均。

自助法:

自助法适合小数据,假如数据集有1000个样本,每一次从数据集抽出一个样本,抽出后放回,下一次抽取依然有可能会抽到相同的样本,也有可能是有一些样本永远不会被抽到。其中上图的m为样本个数。


这次装逼先到这里

依旧惯例附上我的公众号:

原创粉丝点击