《机器学习》——读书笔记2

来源:互联网 发布:手机模拟器连发软件 编辑:程序博客网 时间:2024/06/05 16:32

事实证明,寒假在家也并不能高效工作,年前准备过年,年后没事了,想动手却冻手,幸好姥姥家里暖和,过年姥姥又伤风感冒,姥姥今年74,姥爷今年81,今天本来到邢台的,但是放心不下又回来了,愿姥姥姥爷健康长寿,别无他求。

第 3 章 线性模型

3.1 基本形式

给定由d个属性描述的实例x=(x1;x2;...;xd),线性模型试图学得一个通过属性的线性组合来进行预测的函数,即f(x)=w1x1+w2x2+...+wdxd+b用向量形式写成f(x)=wTx+b.
由于w直观表达了个属性在预测中的重要性,因此线性模型有很好的可解释性。

3.2 线性回归

给定数据集D={(x1,y1),(x2,y2),...,(xm,ym)},其中xi=(xi1;xi2;...;xid),yiR. “线性回归”试图学得一个线性模型以尽可能准确地预测实值输出标记。
对离散属性,若属性值间存在“序”关,可通过连续化将其转化为连续值;若属性值间不存在序关系,假定有k个属性值,则通常转化为k维向量。

先考虑最简单的情形:输入属性的数目只有一个
线性回归试图学得

f(xi)=wxi+b,使f(xi)yi
利用均方误差最小化确定w,b
(w,b)=argmin(w,b)i=1m(f(xi)yi)2=argmin(w,b)i=1m(yiwxib)2

基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。
求解w和b使E(w,b)=mi=1(yiwxib)2最小化的过程,称为线性回归模型的最小二乘“参数估计”。将E(w,b)分别对w和b求导,得
E(w,b)w=2(wi=1mx2ii=1m(yib)xi),E(w,b)b=2(mbi=1m(yiwxi)),
令上式得零得到w和b最优解的闭式解
w=mi=1yi(xix¯)mi=1x2i1m(mi=1xi)2,b=1mi=1m(yiwxi),

更一般的情形,样本由d个属性描述
此时我们试图学得
f(xi)=wTxi+b,使f(xi)yi
这称为“多元线性回归”
把数据集D表示为大小为m×(d+1)大小的矩阵X
X=x11x21xm1x12x22xm2x1dx2dxmd111=xT1xT2xTm111

再把标记也写成向量形式y=(y1;y2;;ym),则类似均方误差,有
w^=argminw^(yXw^)T(yXw^)

Ew^=(yXw^)T(yXw^),对w^求导得到
Ew^w^=2XT(Xw^y)

XTX满秩矩阵时,令上式为零可得
w^=(XTX)1XTy
x^i=(xi;1),则最终学得的多元线性回归模型为
f(x^i)=x^Ti(XTX)1XTy

然而,现实任务中XTX往往不是满秩矩阵,此时可解出多个w^。选择哪一个解作为输出,将由悬系算法的归纳偏好决定,常见的做法是引入正则化项。

线性模型的变形
线性模型的预测值逼近真是标记y时,就得到线性回归模型。
线性回归模型简写为

y=wTx+b

令模型预测值逼近y的衍生物,例如:lny=wTx+b——”对数线性回归”,实质上在求取输入空间到输出空间的非线性函数映射。

广义线性模型
考虑单调可微函数g(.),令y=g1(wTx+b)

3.3 对数几率回归

上一节讨论使用线性模型进行回归学习,对于分类任务,只需找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。
对于二分类任务,可通过“单位阶跃函数”把线性回归模型产生的预测值z=wTx+b对应到输出标记y{0,1}

y=0,0.5,1,z<0;z=0;z>0;

但是单位阶跃函数不连续,不可直接作为“广义线性模型”中的g(.),可用对数几率函数
y=11+ez
替代之。

对数几率函数是一种“Sigmoid函数”,它将z值转化为一个接近0或1的y值,并且其输出值在z=0附近变化很陡。
将对数几率函数代入

y=11+e(wTx+b).(1)lny1y=wTx+b

若将y视为样本x作为正例的可能性,则1-y时期反例可能性,故“对数几率”为:
lny1y

小结:(1)式是在用线性回归模型的预测结果去逼近真实标记的对数几率,因此,其对应的模型称为“对数几率回归”,是一种分类学习方法。
优点:
- 直接对分类可能性进行建模,无需实现假设数据分布,这样就避免了假设分布不准确所带来的问题。
- 不仅预测出“类别”,还可得到近似概率预测。
- 对率函数是任意阶可导的凸函数,现有的许多数值优化算法都可直接用于求取最优解。

确定(1)中的w和b(这里不太懂)
若将式(1)中的y视为类后验概率估计p(y=1|x),则

lnp(y=1|x)p(y=1|x)=wTx+bp(y=1|x)=ewTx+b1+ewTx+bp(y=1|x)=11+ewTx+b

于是,通过“极大似然法”估计w和b。对率回归模型最大化“对数似然”
l(w,b)=i=1mlnp(yi|xi;w,b)(2)
即令每个样本属于其真实标记的概率越大越好。
为便于讨论,令β=(w,b),x^=(x;1),wTx+b可简写为βTx^.再令p1(x^;β)=p(y=1|x^;β),p0(x^;β)=p(y=0|x^;β)=1p1(x^;β),则(2)式中的似然项可重写为
p(yi|xi;w,b)=yip1(x^i;β)+(1yi)p0(x^i;β)

最小化(2)式等价于最小化
l(β)=i=1m(yiβTx^i+ln(1+eβTx^i))

3.4 线性判别分析

Linear Discriminant Analysis,LDA 一种经典的线性学习方法,用于二分类问题。亦乘“Fisher”判别分析。
LDA思想:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。

假设条件:给定数据集D={(xi,yi)}mi=1,yi{0,1},令XiμiΣi分别表示第i{0,1}类示例的集合、均值向量、协方差矩阵。
思想实现:欲使同类样例的投影点尽可能接近,可以让同类样例投影点的协方差尽可能小,即wTΣ0w+wTΣ1w尽可能小;而欲使异类样例的投影点尽可能远离,可以让类中心之间的距离尽可能大,即||wTμ0wTμ1||22尽可能大。即最大化下式

J=wTμ0wTμ1||22wTΣ0w+wTΣ1w(3)
定义“类内散度矩阵”
Sw=Σ0+Σ1=xX0(xμ0)(xμ0)T+xX1(xμ1)(xμ1)T

以及“类间散度矩阵”
Sb=(μ0μ1)(μ0μ1)T

则式(3)可重写为
J=wTSbwwTSww

这就是LDA欲最大化的目标,即SbSw的“广义瑞利商”

0 0
原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 上火了牙疼怎么办怎样快速止疼 身体不吸收营养胖不起来怎么办 突然牙疼怎么办教你立刻止疼 蛀牙疼怎么办教你立刻止疼 做了牙套的牙疼怎么办 牙疼怎么办教你立刻止疼 七个月宝宝便秘拉不出来怎么办 喝酒脸上起了很多小红疙瘩怎么办 我的脸又痒又红怎么办 脸又红又痒又烫怎么办 满脸痘痘怎么办全部都是红的 身上起大片扁疙瘩很痒怎么办 我急用钱借钱又借不到怎么办 小孩蛀牙牙疼怎么办教你立刻止疼 牙齿里面长了个小牙齿怎么办 2岁宝宝又吐又拉怎么办 u盘坏了怎么办没反应了 怀孕了不知道孩子是谁的怎么办 怀孕八个月耻骨疼的厉害怎么办 没感情了这段婚姻该怎么办 1岁半宝宝o型腿怎么办 4s店没按时交车怎么办 几天几夜睡不着觉没有睡意怎么办 辣的吃多了胃疼怎么办 喉咙痛怎么办有最好即简单好得快 减肥过后皮肤留下的肥胖纹怎么办 用了完美玛丽艳脸上长痘痘怎么办 腰疼怎么办8方法解决腰疼 红米3x开不了机怎么办 苹果手机忘记了锁屏密码怎么办 小米5的4g网速慢怎么办 红米4a卡机了怎么办 信而富逾期3个月怎么办 苹果6锁屏密码忘了怎么办 孕8个月咳嗽有痰怎么办 微信红包输了6万怎么办 红米3s开不了机怎么办 核载5人载了6人怎么办 我欠支付宝2万6怎么办 我47岁这个月经不来怎么办 两个月不来月经了也没怀孕怎么办