Andrew Ng机器学习课程总结

来源：互联网发布：赢时胜java笔试题编辑：程序博客网时间：2024/05/22 03:27

Andrew Ng机器学习课程总结

Andrew Ng的机器学习课程讲授的详尽而又易于理解，适合初学者。相关资源见斯坦福公开课与Ng的主页，英文不好的同学推荐网易公开课。Ng的课件关于理论介绍的很好，这里只做摘要，具体参见其课件。

主要知识点：线性回归梯度下降最小二乘似然估计 logistic回归感知器

1）回归：对连续变量的预测。

2）线性回归（Linear Regression）：假设输出与输入满足线性关系。

3）代价函数（cost function）：误差平方形式（LMS最小均方误差）

4）LMS求解：梯度下降法（gradient descent）

5）批梯度下降（batch gradient descent）：采用所有的训练样本计算梯度

6）随机梯度下降（stochastic gradient descent）：如果训练样本数过大，每次迭代选一个样本求近似梯度

7）正规方程（normal equations）：不通过梯度下降求解参数(权重)，通过矩阵的形式求解θ

概率解释：为什么选择误差二次项形式，而不是绝对值、4次方？假设误差符合高斯分布，且独立同分布，则通过最大似然估计得到的结果即为最小均方差形式。似然可以认为是一种概率（参数对应似然的概念，数据对应概率的概念）。

8）局部加权线性回归：假设数据整体上并不符合线性分布，可以进行局部的线性逼近，类似分段线性。具体来说就是对训练样本赋予权重，离得远的样本权重近似为0。

9）Logistic回归：回归一般是连续变量的预测，而分类往往是离散的。对于分类问题，线性回归并不适合。Logsitic函数或者sigmoid函数可以将输出限制为0~1（钟形结构）。参数通过梯度上升求解。

10）感知器（perceptron learning algorithm）：限制输出为离散的0与1。

机器学习问题方法总结

大类

名称

关键词

有监督分类

决策树

信息增益

分类回归树

Gini指数，Χ²统计量，剪枝

朴素贝叶斯

非参数估计，贝叶斯估计

线性判别分析

Fishre判别，特征向量求解

K最邻近

相似度度量：欧氏距离、街区距离、编辑距离、向量夹角、Pearson相关系数

逻辑斯谛回归（二值分类）

参数估计（极大似然估计）、S型函数

径向基函数网络

非参数估计、正则化理论、S型函数

对偶传播网络

无导师的竞争学习、有导师的Widrow-Hoff学习

学习向量量化网络

一个输出层细胞跟几个竞争层细胞相连

误差反向传播网络

S型函数、梯度下降法

支持向量机（二值分类）

二次规化，Lagrange乘数法，对偶问题，最优化，序列最小优化，核技巧

单层感知器

只具有线性可分的能力

双隐藏层感知器

足以解决任何复杂的分类问题

无监督分类

KMeans

质心

CHAMELONE

图划分，相对互连度，相对紧密度

BIRCH

B树，CF三元组

DBScan

核心点，密度可达

EM算法(高斯混合模型)

参数估计（极大似然估计）

谱聚类

图划分，奇异值求解。全局收敛

自组织映射网络

无导师的竞争学习

回归分析

一般线性回归

参数估计，最小二乘法，一般不用于分类而用于预测

逻辑斯谛回归（二值分类）

参数估计（极大似然估计），S型函数

关联规则挖掘

FP-Tree

频繁1项集，FP-Tree，条件模式基，后缀模式

降维

主成分分析

协方差矩阵，奇异值分解