非监督学习（Udacity学习笔记）

来源：互联网发布：软件著作权zhongzhiip 编辑：程序博客网时间：2024/05/29 16:50

Udacity机器学习纳米工程师学位课程学习笔记

part1. 聚类部分：

Udacity聚类部分重点介绍的是K-means聚类

K-means聚类分为两个步骤：

1.assign

根据样本点离聚类中心点的远近将样本点进行分类

（思考：如果是多分类问题，要怎样进行分类）

2.optimization

根据分类后的情况计算出每个类别的中心点位置，前一次的中心向本次的中心移动

K-means的局限：

同一个训练集训练出的模型总会预测出同样的结果吗？答：不同

因为K-means算法初始中心的分配是随机的，类似遗传算法，会陷入局部最优解

part2. 更多聚类：

一、单锁链聚类（single linkage clusting，简称SLC），又叫最短距离法。

SLC算法步骤：

SLC优点：

1.不像K-means，它得到的结果是确定的，不是随机优化的。

2.算法的运行时间很短（n^3）

二、EM算法（EM算法形成的是软聚类）

（可以看看这篇文章http://www.tuicool.com/articles/VBzQFba）

三、聚类的属性

1、丰富性——指输出的结果可以是多样的，聚类的类别可以是1、2、3……等等。

2、比例缩放不变性——比例其实与单位相关，聚类一般都是通过计算距离实现的，你改变距离的单位，聚类的结果应不发生变化。

3、一致性——这个不太好解释，同一类别中样本点的距离缩小与不同类别样本群的距离变大不影响分类的结果。

聚类属性的测验：

不可能定理：聚类算法无法同时满足上述的三种属性

part3. 特征缩放

特征缩放公式：( X - min(X))/(max(X) - min(X))

测验：

答：SVM和K-means。

part4.特征选择

进行选择的原因：

1.某些特征不重要，存在干扰，冗余。

2.为了防止维数灾难。

特征选择的两种方法：过滤和封装

其中过滤无法接受反馈信息，速度较快

封装可以接受反馈信息，能够确定最佳的特征子集，但是算法运行的速度较慢

关于特征选择可以参考：http://blog.csdn.net/iezengli/article/details/32686803

关于PCA以后补充。

未完待续。。。

0 0