《机器学习》阅读心得---三、线性模型
来源:互联网 发布:小米最美女程序员离职 编辑:程序博客网 时间:2024/05/16 01:20
三、线性模型
给定一个由d个属性描述的示例
用向量形式可写为
3.1 线性回归
假定属性只有一个,那么线性回归的任务是学得
为了确定
更为一般的,考虑回归到y的函数
变换可得
其中函数g(·)称为联系函数。
3.2 对数几率回归
当需要对分类任务进行线性回归时,我们可以从广义线性模型出发,找到一个可微函数将分类任务的真实标记
针对二分类任务,考虑采用近似单调阶跃函数的对数几率函数
将上式代入广义线性模型(z为上式的y),经变换可以得到
将
3.3 线性判别分析
线性判别分析(Linear Disriminant Analysis,LDA)是一种经典的线性学习方法,在二分类问题上因为最早由Fisher提出,又称为“Fisher判别分析”。
LDA的思想是:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例的投影点尽可能远离;对新样本进行判别时,根据投影点的位置进行判别。
3.4 多分类学习
可利用二分类学习器解决多分类问题。多分类学习的基本思路是“拆解法”,将多分类任务拆分为若干个二分类任务求解。
最经典的拆分策略有三种:“一对一”(One vs. One,简称OvO)、“一对其余”(One vs. Rest,简称OvR),”多对多”(Many vs. Many,简称MvM)。
给定数据集
OvR则是每次将一个类的样例作为正例,而用其他类的所有样例作为反例来训练N个分类器。在测试时若仅有一个分类器预测为正类,则对应的分类标记作为最终分类结果。若有多个分类器预测为正类,则计算各分类器的预测置信度,选择置信度最大的标记作为分类结果。
MvM是每次将若干个类作为正类,若干个其他类作为反类。显然,MvM的正、反类构造必须有特殊的设计,不能随意选取。
3.5 类别不平衡问题
类别不平衡是指分类任务中不同类别的训练样例数量差别很大的情况。当出现类别不平衡时,将会对传统的分类任务出现困扰。
从线性分类器的角度来理解,当使用
在训练集中,令
进行处理后有
这种方法称为“再缩放”,是类别不平衡学习中的一个基本策略。
但是在实际工作中,“训练集是真实样本总体的无偏采样”这个假设往往并不成立。现在技术大概有三种做法:“欠采样”: 去除一些反例使得正、反例数目接近,再进行学习;“过采样”:增加一些正例使得正反例数目接近,再进行学习;“阈值移动”:基于原始数据集进行学习,在进行预测时,采用“再缩放”方式。
- 《机器学习》阅读心得---三、线性模型
- 机器学习(三)线性模型
- 机器学习笔记(三)线性模型
- 《机器学习》阅读心得--二、模型评估与选择
- 机器学习----线性模型
- 机器学习(周志华)读书笔记-(三)线性模型
- 机器学习-广义线性模型
- 机器学习笔记-线性模型
- 机器学习算法-线性模型
- 机器学习之线性模型
- 【机器学习】线性模型总结
- 机器学习之线性模型
- 《机器学习》阅读心得--一、绪论
- 机器学习线性模型学习笔记
- 机器学习-学习笔记 线性模型
- 监督学习之广义线性模型——Andrew Ng机器学习笔记(三)
- 台大林轩田《机器学习基石》学习笔记:线性模型三(Multiclass Prediction)
- 台大林轩田《机器学习基石》学习笔记7:线性模型三(Multiclass Prediction)
- MySQL外键
- Spark api介绍一
- PAT+乙1008. 数组元素循环右移问题
- <统计学习方法>1 概论
- CentOS下安装JDK的三种方法
- 《机器学习》阅读心得---三、线性模型
- ftp传文件遇到不能传中文的解决方法
- HDU 5875 Function (单调栈+暴力)
- redis
- docker managed volume
- Linux-sed 命令初识
- xgboost理解
- scp和sftp不能用的解决方法
- SpringIOC的使用思路(入门)