《机器学习》阅读心得---三、线性模型

来源：互联网发布：小米最美女程序员离职编辑：程序博客网时间：2024/05/16 01:20

三、线性模型

给定一个由d个属性描述的示例x=(x1;x2;...;xd)，其中xi是x在第i个属性上的取值，线性模型试图学习到一个通过属性的线性组合来进行预测的函数，即

f (x) = ω 1 x 1 + ω 2 x 2 + . . . + ω d x d + b

用向量形式可写为

f (x) = ω T x + b

3.1 线性回归

假定属性只有一个，那么线性回归的任务是学得

f (x i) = ω x i + b

为了确定

ω和b，我们的目标是使得均方误差最小化。均方误差对应了常用的“欧氏距离”,在几何上，这种方式就是找到一条直线，使得所有样本到这条直线的欧氏距离之和最小。在公式上，即求解

ω和

b使得

E(ω,b)=∑mi=1(yi−ωxi−b)2取最小值。
更为一般的，考虑回归到y的函数

g(y)，那么线性回顾模型可以推广为广义线性模型，即

g (y) = ω T x + b

变换可得

y = g - 1 (ω T x + b)

其中函数g(·)称为联系函数。

3.2 对数几率回归

当需要对分类任务进行线性回归时，我们可以从广义线性模型出发，找到一个可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。
针对二分类任务，考虑采用近似单调阶跃函数的对数几率函数

y = 1 1 + e - z

将上式代入广义线性模型(z为上式的y)，经变换可以得到

ln y 1 - y = ω T x + b

将

y视为样本x作为正例的可能性，则1-y是其反例可能性。两者比值称为“几率”,反映了x作为正例的相对可能性。因此上式是用线性回归模型的预测结果去逼近真实标记的对数几率，这个模型被称为对数几率回归。

3.3 线性判别分析

线性判别分析（Linear Disriminant Analysis，LDA）是一种经典的线性学习方法，在二分类问题上因为最早由Fisher提出，又称为“Fisher判别分析”。
LDA的思想是：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近，异类样例的投影点尽可能远离；对新样本进行判别时，根据投影点的位置进行判别。

3.4 多分类学习

可利用二分类学习器解决多分类问题。多分类学习的基本思路是“拆解法”，将多分类任务拆分为若干个二分类任务求解。
最经典的拆分策略有三种：“一对一”(One vs. One，简称OvO)、“一对其余”（One vs. Rest,简称OvR）,”多对多”（Many vs. Many,简称MvM）。
给定数据集D={(x1,y1),(x2,y2),...,(xm,ym)},yi∈{C1,C2,....,CN}。OvO将这 N个类别两两配对，产生N(N−1)/2个二分类任务，并得到同样数量的分类器。在测试时，新样本将会提交给所有的分类器，最终结果可通过投票产生。
OvR则是每次将一个类的样例作为正例，而用其他类的所有样例作为反例来训练N个分类器。在测试时若仅有一个分类器预测为正类，则对应的分类标记作为最终分类结果。若有多个分类器预测为正类，则计算各分类器的预测置信度，选择置信度最大的标记作为分类结果。
MvM是每次将若干个类作为正类，若干个其他类作为反类。显然，MvM的正、反类构造必须有特殊的设计，不能随意选取。

3.5 类别不平衡问题

类别不平衡是指分类任务中不同类别的训练样例数量差别很大的情况。当出现类别不平衡时，将会对传统的分类任务出现困扰。
从线性分类器的角度来理解，当使用y=ωTx+b对新样本进行分类时，实际上是用y值与阈值进行比较。y值实际上表示了正例的可能性，几率y1−y则表示了正例可能性与反例可能性之比值，分类器判断为正例的规则为

y 1 - y > 1

在训练集中，令

m+表示正例数目，

m−表示反例数目，则观测几率是

m+m−。假定训练集是真实样本总体的无偏估计，因此观测几率就代表了真实几率。所以，只要分类器的预测几率高于训练集的观测几率应判断为正例，即

y 1 - y > m + m -

进行处理后有

y 1 1 - y 1 = y 1 - y \times m - m + > 1

这种方法称为“再缩放”，是类别不平衡学习中的一个基本策略。
但是在实际工作中，“训练集是真实样本总体的无偏采样”这个假设往往并不成立。现在技术大概有三种做法：“欠采样”: 去除一些反例使得正、反例数目接近，再进行学习；“过采样”：增加一些正例使得正反例数目接近，再进行学习；“阈值移动”：基于原始数据集进行学习，在进行预测时，采用“再缩放”方式。

阅读全文

0 0