Coursera机器学习 Week9 笔记

来源：互联网发布：淘宝香港代购好的店铺编辑：程序博客网时间：2024/06/01 08:27

编程作业放到了github上：coursera_machine_learning

1. Anomaly Detection (异常检测)

当一堆数据集中出现少个别几个异常数据时，需要检测出这几个异常数据。

1.1 异常检测算法概述

用一个分布P(x)来表示数据x是正常数据的概率，如果P(x)<ϵ则x是异常数据，反之。

而异常检测算法要做的，就是从现有的训练集中训练出这个分布P(x)。

异常检测是一个“无监督学习”模型。

1.2 单元高斯分布

异常检测中我们使用“高斯分布”。因此只要通过训练集计算出“高斯分布”中的参数μ和σ2即可。

对于其中一条数据x(i)={x(i)1,x(i)2,...,x(i)n}，认为其各特征之间是独立同分布的，则：

P (x (i)) = p (x (i) 1) p (x (i) 2) . . . p (x (i) n)

于是对于特征xj而言，只要其满足“高斯分布”，就可以计算：

μ j = 1 m \sum i = 1 m x (i) j

σ 2 j = 1 m \sum i = 1 m (x (i) j - μ j) 2

p (x (i) j) = 1 2 π ‾ ‾ ‾ \sqrt σ e x p (- ( x ( i ) j - μ j ) 2 2 σ 2 j)

至此，通过计算得到了x的分布，于是当新来一个xtest，只要计算P(xtest)<ϵ是否成立，如果是，则xtest是一个异常值。ϵ的选择在下一节中讲到。

但是目前为止，必须保证features是满足“高斯分布”的。至于如何选择这样子的特征以及当特征不满足高斯分布时怎么处理。

1.3 模型评估

一个模型需要有一个评估标准来判断这个模型的好坏。虽说异常检测是一个无监督模型，但是在评估的时候，我们还是需要知道一些正确答案labels才能进行评估的。所谓无监督模型是指在训练的时候输入的数据没有标签，但是在测试评估的时候是要有参照的。假设有如下数据：> 10000条好数据；20条异常数据分成如下数据集：> 训练集：6000条好数据 > [作用：计算出正常数据的高斯分布P(x)]> > 验证集：2000条好数据(y=1)；10条异常数据(y=0) >[作用：选择参数

ϵ及特征]> > 测试集：2000条好数据(y=1)；10条异常数据(y=0) > [作用：评估模型的好坏]评估过程如下：> 步骤1: 先用训练集学习出好数据的高斯分布模型P(x)> > 步骤2: 在验证集上进行预测，令：>

y = {1 i f p (x) < ϵ 0 i f p (x) ⩾ ϵ

> 步骤3: 验证机上模型评估以便调整参数> 1.常用的方法是计算正确率，但这种方式显然不适合用在这里，因为这个数据集是“倾斜的(skewed dataset)”，好数据 >> 异常数据，如果全部预测成好的，其正确率也不低]> 2.对于skewed dataset，采用以下方法均可：> - 真阳性、假阳性、假阴性、真阴性> - Precision/Recall> - F1 score> > 步骤4: 阈值

ϵ的选择（包括特征的选择）> [多试几个

ϵ，然后评估模型，选择F1 score值较高的]> 步骤5: 最后，在测试集上运用上述评估方式，得出模型最终的performance 总结一下，训练集学习模型，验证集选择参数

ϵ和特征，测试集评估模型。

1.4 特征选择

首先需要保证选择的数据是满足高斯分布的。判断的依旧就是将这个特征进行可视化，如果这个特征不是高斯分布，那么就需要通过各种变换将其转换成高斯分布。

比如说，下面这个特征的分布是一个“长尾分布”，则可以通过“取对数logx”、“开平方x‾‾√”等方式将其转变成一个“高斯分布”。

其次，通过一个“误差分析”来选择特征。

先用算法跑出一个模型来，然后预测错误的数据 – 应为异常被判断成了正常所对应的特征。该数据所对应的特征的概率是否符合一般情况，如果p(x(i)j)在异常时应该很高，而这里却很低，那么考虑这个特征的正确性，有可能需要更换特征，或者生成一个新的特征。

在异常检测中，一般选择那些在异常和正常数据间变化特别大的特征。

1.5 异常检测 Vs 监督学习

可以看到异常检测其实也是将数据集分成两类数据 – 正常数据和异常数据，那么为什么不采用监督学习呢？

第一种情况：当数据集中两类数据分布极其不均匀时，如异常数据只有“几十个”而正常数据远远多于异常数据时，应当采用“异常检测”。
[因为从这么少的异常数据中，是无法学习到符合异常数据的特征的，所以应该用异常检测去学习正常数据的特征（即所服从的高斯分布）]

第二种情况：当异常数据的种类太多，而给出的数据集中没有完全包括时，应采用“异常检测”。
[因为监督学习只能学习到现有种类的特征，无法对未知种类进行学习。所以应使用异常检测算法学习现有正常数据的特征，然后才能对异常数据进行区分。或者说无监督学习可以学到数据本身所具有的特性，而监督学习学到的只是数据对于当前任务的特性。]

监督学习的一个重要前提是各类数据的量要均匀。

1.6 多元高斯分布

之前的单元高斯分布中，要求各特征之间没有关联，独立同分布，也就是说，单元高斯分布只能学习各特征的分布，没法学习到特征之间的关联性。如果想要引入特征之间的关联性，需要自己手动构造新的特征来表示其他特征之间的关联。

而多元高斯分布可以直接通过一个“协方差矩阵”来检测到各特征之间的关联性。

多元高斯分布的计算公式如下：

P (x (i)) = 1 2 π | Σ | ‾ ‾ ‾ ‾ ‾ ‾ \sqrt e x p [- 1 2 (x (i) - μ) T Σ - 1 (x (i) - μ)]

μ = 1 m \sum i = 1 m x (i)

Σ = 1 m \sum i = 1 m (x (i) - μ) (x (i) - μ) T

与“单元高斯分布”相比：

“多元高斯分布”能够学习到特征之间的关联性
但是当特征数量特别大的时候，“单元高斯分布”的计算速度要比“多元高斯分布”快。因为Σ−1的计算量很大。
另外，“多元高斯分布”需要保证Σ可逆，否则无法计算。保证可逆的一个条件就是m>n，最好保证m⩾10n。这里的n是指互相之间非线性相关的特征的数量。
综合来说，还是“单元高斯分布”的使用更佳普遍。
在一种情况下，“多元高斯分布”和“单元高斯分布”可以等同，即当各特征之间没有相关性，数学表现就是：

Σ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ σ 21 0 . . . 00 0 σ 22 00 0000 . . . . . . . . . . . . 00 σ 2 n - 1 0 000 σ 2 n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

2. Recommender System (推荐系统)

2.1 预测用户的评分

数据：

- user1 user2 user3 user4 movie1 5 5 0 0 movie2 ? 4 0 ? movie3 5 ? ? 0 movie4 0 0 5 4 movie5 0 0 5 ?

令电影数据表示为为x(1),x(2),...,x(5)，假设特征为“是否为爱情片”和“是否为动作片”，另外一维是偏置bias，即维度为(3,1)；

令用户的偏好数据表示为θ(1),θ(2),...,θ(4)，维度同上；

假设用户j给电影i的评分为：y(i,j)^=(θ(j))Tx(i)

所以模型中的参数为x(1),x(2),...,x(5)和θ(1),θ(2),...,θ(4)。

算法过程如下：

步骤一：随机初始化x(1),x(2),...,x(5)和θ(1),θ(2),...,θ(4)为small values

步骤二：根据cost function，使用梯度下降不断迭代调整参数：

J (x (1), x (2), . . ., x (5); θ (1), θ (2), . . ., θ (4)) = 1 2 \sum r (i, j) = 1 ((θ (j)) T x (i) - y (i, j)) 2 + λ 2 \sum i = 1 5 (x (i)) 2 + λ 2 \sum j = 1 4 (θ (j)) 2

min x (1), x (2), . . ., x (5); θ (1), θ (2), . . ., θ (4) J (x (1), x (2), . . ., x (5); θ (1), θ (2), . . ., θ (4))

最后就学习到了所有的x(1),x(2),...,x(5)和θ(1),θ(2),...,θ(4)

想知道未知的用户j给电影i的评分直接计算(θ(j))Tx(i)即可。

在实际操作中，会把这个过程向量化，令：

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ - - (x (1)) T - - - - (x (2)) T - - . . . - - (x (5)) T - - ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

Θ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ - - (θ (1)) T - - - - (θ (2)) T - - . . . - - (θ (4)) T - - ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

因为

Y ̂ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ (θ (1)) T x (1) (θ (1)) T x (2) . . . (θ (1)) T x (5) (θ (2)) T x (1) (θ (2)) T x (2) (θ (2)) T x (5) . . . . . . . . . (θ (4)) T x (1) (θ (4)) T x (2) (θ (4)) T x (5) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

所以

Y ̂ = X \cdot Θ T

Ŷ =X⋅ΘT的过程又被称为“低秩矩阵分解”过程。

2.2 寻找相关电影

经过上面的任务，已经得到了x(1),x(2),...,x(5)；

判断电影i和电影j是否类似，只要计算一下它们的向量之间的距离就行了。

找到最相关电影的数学表达如下：

min I, j ∥ ∥ x (i) - x (j) ∥ ∥ 2

2.3 给新用户推荐电影

数据：

- user1 user2 user3 user4 user5 movie1 5 5 0 0 ? movie2 ? 4 0 ? ? movie3 5 ? ? 0 ? movie4 0 0 5 4 ? movie5 0 0 5 ? ?

可见新用户对于所有电影的评分都是未知的，所以无法根据评分高低来推荐电影给他。一个最简单的处理方式就是把，该电影下其他用户评分的平均值赋给新用户，然后再通过minJ(θ;x)，求出θ(5)，最后新用户对电影的评分就是(θ(5))Tx(i)。

赋值之后的数据：

- user1 user2 user3 user4 user5 movie1 5 5 0 0 104=2.5 movie2 ? 4 0 ? 52=2.5 movie3 5 ? ? 0 42=2 movie4 0 0 5 4 94=2.25 movie5 0 0 5 ? 54=1.25

来看一下，如果不给赋平均值，直接计算的话会有什么情况发生。因为：

J (x (1), x (2), . . ., x (5); θ (1), θ (2), . . ., θ (4)) = 1 2 \sum r (i, j) = 1 ((θ (j)) T x (i) - y (i, j)) 2 + λ 2 \sum i = 1 5 (x (i)) 2 + λ 2 \sum j = 1 5 (θ (j)) 2

所以当(θ(5))Tx(i)=?的时候，影响最终\theta^{(5)}取值的只有λ2∑5j=1(θ(j))2这一项，为了整体最小，所以在迭代过程中，θ(5)的取值会趋向于0，这样一来，啥电影都没法推荐了，不够友好。

2.4 推荐算法类型

主要分成：

“product-based” ：知道产品的特征向量，通过学习用户的偏好向量来求未知评分；
“user-based”：知道用户的偏好向量，通过学习产品的特征向量来求未知评分；
协同过滤算法：以上两个向量都不知道的时候，先随机初始化两个向量，然后先固定θ(1),θ(2),...,θ(4)，然后最小化J(x(1),x(2),...,x(5))=12∑5i=1∑r(i,j)=1((θ(j))Tx(i)−y(i,j))2+λ2∑5i=1(x(i))2；再固定x(1),x(2),...,x(5)，最小化J(θ(1),θ(2),...,θ(4))=12∑4j=1∑r(i,j)=1((θ(j))Tx(i)−y(i,j))2+λ2∑5j=1(θ(j))2；就这样循环交替着更新，直至收敛。
上面介绍的，相当于“同步”协同过滤算法。

阅读全文

0 0