机器学习线性模型学习笔记

来源:互联网 发布:比比多味豆淘宝 编辑:程序博客网 时间:2024/06/05 10:16

参考:周志华机器学习第三章

1. 基本形式

给定由d个属性描述的示例x=(x1;x2;...;xd),其中xi是x在第i个属性上的取值,线性模型试图学得一个通过属性的线性组合来进行预测函数,即
f(x)=w1x1+w2x2+...+wdxd+b
一般用向量形式写成
f(x)=wtx+b其中w=(w1;w2;...;wd).w和b学得之后,模型就得以确定。
线性模型的特点:

  1. 形式简单
  2. 易于建模,非线性模型可在线性模型基础上引入层次结构或高维映射而得
  3. 具有很好的可解释性

2. 线性回归

基本形式

给定数据集D=(x1,y1),(x2,y2),...,(xm,ym),其中xi=(xi1;xi2;xi3;...;xid),线性回归试图学得一个线性模型以尽可能准确地预测实值输出标记。最简单的情形是输入属性的数目只有一个时,此时D={(xi,yi)}mi=1,xiR. 周志华老师教材中使用的数据集如下:

编号 色泽 根蒂 敲声 纹理 脐部 触感 密度 含糖率 好瓜 1 青绿 蜷缩 浊响 清晰 凹陷 硬滑 0.697 0.46 是 2 乌黑 蜷缩 沉闷 清晰 凹陷 硬滑 0.774 0.376 是 3 乌黑 蜷缩 浊响 清晰 凹陷 硬滑 0.634 0.264 是 4 青绿 蜷缩 沉闷 清晰 凹陷 硬滑 0.608 0.318 是 5 浅白 蜷缩 浊响 清晰 凹陷 硬滑 0.556 0.215 是 6 青绿 稍蜷 浊响 清晰 稍凹 软粘 0.403 0.237 是 7 乌黑 稍蜷 浊响 稍糊 稍凹 软粘 0.481 0.149 是 8 乌黑 稍蜷 浊响 清晰 稍凹 硬滑 0.437 0.211 是 9 乌黑 稍蜷 沉闷 稍糊 稍凹 硬滑 0.666 0.091 否 10 青绿 硬挺 清脆 清晰 平坦 软粘 0.243 0.267 否 11 浅白 硬挺 清脆 模糊 平坦 硬滑 0.245 0.057 否 12 浅白 蜷缩 浊响 模糊 平坦 软粘 0.343 0.099 否 13 青绿 稍蜷 浊响 稍糊 凹陷 硬滑 0.639 0.161 否 14 浅白 稍蜷 沉闷 稍糊 凹陷 硬滑 0.657 0.198 否 15 乌黑 稍蜷 浊响 清晰 稍凹 软粘 0.36 0.37 否 16 浅白 蜷缩 浊响 模糊 平坦 硬滑 0.593 0.042 否 17 青绿 蜷缩 沉闷 稍糊 稍凹 硬滑 0.719 0.103 否

注意到xi的取值范围是实数,因此需要将“青绿”、“平坦”等属性值转化为实值。对于离散属性,若属性值间存在“序”关系,则通过连续化将其转化为连续值,如身高的高、低可转化为{1.0,0.0};若属性值间不存在序关系,则通常将k个属性值转化为k维向量,如将属性“瓜类”的取值“西瓜、南瓜、黄瓜”转化为(0,0,1),(0,1,0),(1,0,0)。
线性回归试图学得f(xi)=wxi+b,使得f(xi)yi
确定w和b的关键在于如何衡量f(x)与y之间的差距。这就要用到性能度量。

度量

回归任务最常使用的性能度量是均方误差。
(w,b)=argmin(w,b)mi=1(f(xi)yi)2=argmin(w,b)mi=1(yiwxib)2

均方误差也叫作平方损失(square loss),对应了常见的欧氏距离,基于均方误差最小化进行求解的方法称为“最小二乘法(least square method)。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。

参数估计

求解w和b使E(w,b)=mi=1(yiwxib)2最小化的过程,称为线性回归模型的最小二乘参数估计。将E(w,b)分别对w和b求导并使其为零可得到w和b最优解的闭式解。
w=mi=1yi(xix¯)mi=1x2i1mmi=1xi2
b=1mmi=1(yiwxi) 其中x¯为x的均值

0 0
原创粉丝点击