《机器学习》——读书笔记2
来源:互联网 发布:手机模拟器连发软件 编辑:程序博客网 时间:2024/06/05 16:32
事实证明,寒假在家也并不能高效工作,年前准备过年,年后没事了,想动手却冻手,幸好姥姥家里暖和,过年姥姥又伤风感冒,姥姥今年74,姥爷今年81,今天本来到邢台的,但是放心不下又回来了,愿姥姥姥爷健康长寿,别无他求。
第 3 章 线性模型
3.1 基本形式
给定由d个属性描述的实例
由于
3.2 线性回归
给定数据集
对离散属性,若属性值间存在“序”关,可通过连续化将其转化为连续值;若属性值间不存在序关系,假定有k个属性值,则通常转化为k维向量。
先考虑最简单的情形:输入属性的数目只有一个
线性回归试图学得
基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。
求解w和b使
更一般的情形,样本由d个属性描述
此时我们试图学得
把数据集D表示为大小为
再把标记也写成向量形式
令
当
然而,现实任务中
线性模型的变形
线性模型的预测值逼近真是标记y时,就得到线性回归模型。
线性回归模型简写为
令模型预测值逼近y的衍生物,例如:
广义线性模型
考虑单调可微函数g(.),令
3.3 对数几率回归
上一节讨论使用线性模型进行回归学习,对于分类任务,只需找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。
对于二分类任务,可通过“单位阶跃函数”把线性回归模型产生的预测值
但是单位阶跃函数不连续,不可直接作为“广义线性模型”中的
对数几率函数是一种“Sigmoid函数”,它将z值转化为一个接近0或1的y值,并且其输出值在z=0附近变化很陡。
将对数几率函数代入
若将y视为样本
小结:(1)式是在用线性回归模型的预测结果去逼近真实标记的对数几率,因此,其对应的模型称为“对数几率回归”,是一种分类学习方法。
优点:
- 直接对分类可能性进行建模,无需实现假设数据分布,这样就避免了假设分布不准确所带来的问题。
- 不仅预测出“类别”,还可得到近似概率预测。
- 对率函数是任意阶可导的凸函数,现有的许多数值优化算法都可直接用于求取最优解。
确定(1)中的w和b(这里不太懂)
若将式(1)中的y视为类后验概率估计p(y=1|x),则
于是,通过“极大似然法”估计w和b。对率回归模型最大化“对数似然”
为便于讨论,令
最小化(2)式等价于最小化
3.4 线性判别分析
Linear Discriminant Analysis,LDA 一种经典的线性学习方法,用于二分类问题。亦乘“Fisher”判别分析。
LDA思想:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。
假设条件:给定数据集
思想实现:欲使同类样例的投影点尽可能接近,可以让同类样例投影点的协方差尽可能小,即
以及“类间散度矩阵”
则式(3)可重写为
这就是LDA欲最大化的目标,即
- 《机器学习》——读书笔记2
- 《机器学习》读书笔记2
- [Mitchell 机器学习读书笔记]——机器学习基本概念
- 《机器学习》——读书笔记1
- 《机器学习实战》——读书笔记1
- 《机器学习实战》——读书笔记1
- 《机器学习》读书笔记 2 前言
- [Mitchell 机器学习读书笔记]——决策树学习
- [Mitchell 机器学习读书笔记]——人工神经网络
- 机器学习实战第三章——决策树,读书笔记
- 机器学习实战——K-近邻算法(读书笔记)
- 机器学习实战——决策树(读书笔记)
- Python《机器学习实战》读书笔记(三)——决策树
- 【读书笔记】机器学习实战-kNN(2)
- 【读书笔记】机器学习实战-决策树(2)
- 周志华《机器学习》读书笔记(2)
- 《机器学习实战》读书笔记
- 《机器学习实战》读书笔记
- OWASP 安全编码规范
- LSTM
- redis源码学习之压缩列表
- 数据结构(二)java解决约瑟夫环的两种方法
- 浏览器滚动条滚动到固定位置效果
- 《机器学习》——读书笔记2
- 令人振奋的Class(上)
- 保存服务器的运行状态
- linux debian下安装中国农历
- 最短路径(Floyd、Dijstra、BellmanFord)
- 知乎标签详情页爬虫
- [HDU 1698]Just a Hook(线段树)
- server研发 交流思考
- Android上传图片文件工具类