机器学习笔记(一)

来源:互联网 发布:淘宝店铺账小号 编辑:程序博客网 时间:2024/05/22 12:18

统计学习三要素:模型、策略和算法。

模型分类有几种,监督非监督,参数非参数等。监督学习又分为生成方法和判别方法。生成模型有:朴素贝叶斯和隐马尔科夫。判别模型有:K近邻,感知机,决策树,逻辑回归,EM,SVM,Boost,CRF.

参数与非参数

  1. 参数模型
    参数个数固定,与训练数据无关。
  2. 非参数模型
    参数个数依赖于训练数据的个数,会变(不是没有参数)。
    举例:最近邻方法。每个点与数据之间的距离均为参数,与数据有关。

评价标准


控制理论中,讲求反馈。其实,这也是自然界中的重要的规律。人生好比海上的波浪,时起时落。社会上很多现象也这样,物极必反。当我们要做出一些改进,决策的时候需要一些反馈,从而不断的调整我们的决策。模型中有很多改进,需要一些反馈。可能是正反馈,也可能是负反馈。像梯度下降是一种负反馈,蚁群算法信息素的更新是一种正反馈。反馈一般是监督学习才有的,明显只有知道结果的好坏才能给出应变,即代价函数(cost function)。下面说一下下面模型的评价标准。

1. 线性回归
2. 逻辑回归
3. 决策树(ID3,C45)
4. 神经网络
5. SVM
6. 贝叶斯分类器
7. Bagging与随机森林
8. 聚类

1.线性回归

公式如下:

y(x,w)=w0+w1x1+...+wdxd

或者写成向量相乘:y(x,w)=wTx(x 是一个向量)

最小化平方和误差函数:

E(w)=12nn=1{y(xi,w)yi}2

扩展:

y(x,w)=wTx中的xϕj(x)=xj
基函数是x的幂指数形式,则为多项式拟合。

顺便说一句:用多项式拟合数据,最小化平方和误差函数可以看成高斯噪声模型假设下的最大似然解。

还有其他基函数如高斯基函数(RBF):ϕj(x)=exp{(xμj)2s2}
RBF核函数将原始空间映射到无穷维特征空间(自行百度)。

还有sigmoid基函数。在SVM中也常用这些核函数,此外还有拉普拉斯核等。

正则化

常用L1,L2正则化。

min E(w)=12nn=1{y(xi,w)yi}2

上面又称为 经验风险最小化。加上正则项之后(防止过拟合),又称为结构风险最小化。

min E(w)=12nn=1{y(xi,w)yi}2+λJ(W)

L1与L2区别:
两者都是限制w的大小。L2会限制w的大小,减少过拟合,但得不到稀疏效果,使w均趋于0。L1会产生一个稀疏的模型,使一些w变为0。
L1:Lasso回归

J(W)=w|w|

L2:Ridge回归

J(W)=ww2

稍微提一下,关于L1,L2的贝叶斯解释。
其实正则项就是对w的先验分布。而这些措施都是一些先验知识。
Lasso回归——>laplace先验分布+最大后验估计(MAP)。
Ridge回归——>Gaussian分布+MAP。
参考:正则项解释

2.逻辑回归

hw(x)=g1(wTx+b)

使用sigmoid 函数, z=wTx+b

hw(x)=11+exp(z)

hw(x)看做后验概率。

p(y=1|x,w)=hw(x)
p(y=0|x,w)=1hw(x)

这样似然函数可以写成p(y|x,w)=hw(x)y(1hw(x))1y

极大似然函数L(w)=p(Y|x,w)=ni=1p(y(i)|x(i),w)

=nn=1hw(x(i))y(i)(1hw(x(i)))1y(i)

然后取似然函数的负对数(又称交叉熵误差函数)取最小值,即可。

E(w)=lnL(w)=nn=1y(i)ln(hw(x(i)))+(1y(i))ln(1hw(x(i)))

3.决策树

ID3算法:
应用信息增益准则选择特征。

C4.5应用信息增益比来选择特征,是ID3的改进。
信息增益准则
信息增益表示:得知特征X信息使Y类信息不确定性减少的程度。
信息增益比
信息增益比:信息增益与训练数据集关于特征A的熵的比。相当于多除以一个关于特征的熵。以减小偏向于选择取值较多的特征。

决策树的剪枝:防止过拟合,简化模型。

CART算法(分类与回归树)
对于分类树用基尼指数(Gini index)最小化准则,选择特征.
回归树用最小化平方误差。

基尼指数,假设样本k个类别,第K类概率为pk
Ginip=1Kk=1p2k

==

参考文献:

  1. PRML
  2. 机器学习——周志华
  3. 统计学习方法——李航
  4. 机器学习视频——张志华
    本人小菜,笔记记录,欢迎讨论。
0 0
原创粉丝点击