机器学习归纳总结

来源:互联网 发布:网站域名申请流程 编辑:程序博客网 时间:2024/05/31 19:15

机器学习归纳总结

模型评估与选择

  • 经验误差与过拟合

    错误率 = a个样本分类错误/m个样本

    精度 = 1 - 错误率

    误差:学习器实际预测输出与样本的真是输出之间的差异。

    训练误差:即经验误差。学习器在训练集上的误差。

    泛化误差:学习器在新样本上的误差。

    过拟合:学习器把训练样本学的”太好”,把不太一般的特性学到了,泛化能力下降,对新样本的判别能力差。必然存在,无法彻底避免,只能够减小过拟合风险。

    欠拟合:对训练样本的一半性质尚未学好。

  • 评估方法

    用一个测试集来测试学习其对新样本的判别能力,然后以测试集上的测试误差作为泛化误差的近似。

    在只有一个包含m个样例的数据集D,从中产生训练集S和测试集T。

  • 性能度量

    性能度量:衡量模型泛化能力的评价标准。

    给定样例集D={(x1,y1),(x2,y2),……,(xm,ym)},yi是对xi的真实标记,要评估学习器f的性能,就要把学习器预测结果f(x)与真实标记y进行比较。

    均方误差:

      img

    数据分布D和概率密度函数p(.),均方误差:

      img

  • 比较检验

    默认以错误率为性能度量,用ε表示。

  • 偏差与方差

    偏差-方差分解:解释学习算法泛化性能的一种重要工具。

线性模型

  • 基本形式

    f(x)=wTx+b

  • 线性回归

  • 对数几率回归

  • 线性判别分析

    若将W视为一个投影矩阵,则多分类LDA将样本投影到N-1维空间,N-1通常远小于数据原有的属性数,于是,可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常常被视为一种经典的监督降维技术。

  • 多分类学习

    现实中常遇到多分类学习任务,有些二分类学习方法可以直接推广到多分类,但在更多情形下,我们是基于一些基本策略,利用二分类学习器来解决多分类问题。
    最经典的拆分策略:“一对一 OvO” “一对多 OvR” “多对多 MvM”
    ECOC(纠错输出码) 是一种最常用的MvM技术。它是将编码的思想引入类别拆分,并尽可能在解码过程中具有容错性。

神经网络学习

  • RBF神经网络

  • BP神经网络

  • SOM神经网络

  • 自组织神经网络

  • Hopfield神经网络

  • SVM

    SVM 的主要思想是建立一个超平面作为决策曲面,使得正例和反例之间的隔离边缘被最大化

聚类

  • 聚类指事先并不知道任何样本的类别标号,希望通过某种算法来把一组未知类别的样本划分成若干类别,聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起,这在机器学习中被称作 unsupervised learning (无监督学习)
  • 通常,人们根据样本间的某种距离或者相似性来定义聚类,即把相似的(或距离近的)样本聚为同一类,而把不相似的(或距离远的)样本归在其他类。
  • 聚类的目标:组内的对象相互之间时相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性越大,组间差别越大,聚类就越好。

降维与度量学习

降维在一起图像识别过程也经常被采用的一种分类算法,例如二维数据经过投影变为一维数据,从而更好的表征数据的特征,再进行识别。在前面章节中提到过LDA(线性判别分析)也可以当做一种简单降维处理。在周老师的这章中主要讲述PCA主成分分析算法对高维数据进行降维。降维是一种解决维数灾难的重要途径。

​ 在机器学习中,对高维数据进行降维的主要目的是希望找到一个合适的低维空间,在此空间中进行学习能比原始空间性能更好。事实上,每个空间对应了在样本属性上定义的一个距离度量,而寻找合适的空间,实质上就是在寻找一个合适的距离度量。因此我们可以尝试直接学习出一个合适的距离度量。也就是度量学习。

阅读全文
0 0
原创粉丝点击