《统计学习方法》笔记01：总结概括

来源：互联网发布：设计软件培训编辑：程序博客网时间：2024/06/06 20:54

概述

记笔记应该从学习初始开始。但自己喜欢在纸上抄录笔记，主要是写写画画，标注，想法等可随意添加，比较方便。但纸质笔记终不如电子笔记记录长远。今天把《统计学习方法》未看的最后一节《支持向量机》学习完毕。全书基本过了一遍，开始些博客笔记。

当初开始看条件随机场的时候，先看的是周志华老师的《机器学习》即著名的西瓜书，概率图模型只有一章，到单独讲CRF就只有一节。于是开始看李航老师的《统计学习方法》第10、11章。

总的感受：这本书非常注重数学基础，概率论、线性代数等作者随手拈来，讲的比较深，推导过程很仔细。而西瓜书似乎更科普性一些。这本书讲了10种主要模型，在广度上不及西瓜书。

10种方法概括

1.感知机

（1）感知机，判别模型。根据输入实例的特征向量x，对其进行二类分类：

f (x) = s i g n (w \cdot x + b)

（2）感知机模型，对应于特征空间中的分离超平面

w \cdot x + b = 0

（3）感知机的学习策略是极小化损失函数：

m i n L (w, b) = - \sum i = 0 n y i (w \cdot x i + b)

损失函数对应于：误分类点到分离超平面的距离之和。

（4）感知机的学习算法：基于随机梯度下降法的对损失函数的最优化方法。算法开始任意选取一个超平面(w0,b0)，然后用梯度下降法不断极小化目标函数。极小化过程中，不是一次使所有误分类点的梯度下降，而是一次随机选取一个误分类点使梯度下降。

（5）学习算法有原始形式和对偶形式。

a.原始形式：简单。每次对(w,b)更新。
b.对偶形式：每次更新α，然后解析解计算(w,b)。实际上是SVM的一种简单情况。

（6）当训练集线性可分时，感知机学习算法收敛，必能找到一个超平面正确分类。感知机算法在训练集上的误分类次数有上限。线性可分时，存在无穷多个解，因为初值不同或迭代顺序不同而有所不同。

（7）总体上感觉，感知机是SVM的一个特殊简单案例。

2.k邻近法/k-NN

（1）基本且简单的分类与回归方法。基本做法是：对给定的训练点和输入点，首先确定训练点中距离待预测点最邻近的k个实例点，然后利用k个训练点的类的多数，来预测输入点的类。

（2）k邻近模型对应于基于训练点对特征空间的一个划分（类比乌龟背，一块一块的）。当训练点，距离度量，k，分类决策确定后，结果唯一确定。

（3）k邻近法的三要素：距离度量，k，分类决策规则。常用距离度量为欧氏距离L2及更一般的Lp距离。k值较小时，对邻近点非常敏感，若为噪声则预测出错，意味着模型更复杂，容易发生过拟合；k值较大时，模型更简单。k值的选择反映了对近似误差和估计误差之间的权衡。通常可交叉验证来选择最优k值。分类决策规则常用多数表决法，对应于经验风险最小化。

（4）k邻近法实现时需要考虑：如何快速搜索k个最邻近点。kd-tree是一种便于对k维空间中的数据快速检索的数据结构。kd-tree是二叉树，表示对k维空间的一个划分，每个结点对应于k维空间划分中的一个超矩形区域。

3.朴素贝叶斯法

待续…

阅读全文

0 0