异常检测(斯坦福machine learning week 9)

来源：互联网发布：fastdfs nginx 缩略图编辑：程序博客网时间：2024/05/16 01:39

在接下来的一系列课程中，我将向大家介绍异常检测(Anomaly detection)问题。这是机器学习算法的一个常见应用。这种算法的一个有趣之处在于它虽然主要用于非监督学习问题，但从某些角度看，它又类似于一些监督学习问题。

1 定义

异常检测问题更正式一些的定义如下：

假设我们有m个正常的样本数据｛x(1)，x(2)，…，x(m)｝，我们需要一个算法来告诉我们一个新的样本数据xtest是否异常。

我们要采取的方法是：给定无标签的训练集，对数据集x建立一个概率分布模型p(x)。当我们建立了x的概率模型之后，我们就会说，对于新的飞机引擎xtest，如果概率p低于阈值ε：

p (x t e s t) < ε

那么就将其标记为异常。

因此当我们看到一个新的引擎在我们根据训练数据得到的p(xtest)kai模型中概率非常低时，我们就将其标记为异常；反之如果p(xtest)大于给定的阈值ε，我们就认为它是正常的。

2 高斯分布中，μ和σ的关系

我们举例来说明一下高斯分布中μ和σ这两个参数之间的关系：

μ=0,σ=1 μ=0，σ=0.5 μ=0，σ=2 μ=3，σ=0.5 图片描述

具体来说，高斯分布中的参数估计公式如下：

μ = 1 m \sum i = 1 m x (i)

σ 2 = 1 m \sum i = 1 m (x (i) - μ) 2

还有一点，如果你在学习统计学时，可能会见到这个式子：σ2=1m−1∑mi=1(x(i)−μ)2，但在机器学习领域，大家习惯使用σ2=1m∑mi=1(x(i)−μ)2，其实在实际情况中，具体使用1m还是1m−1其实区别很小，只要你有一个稍大的数据集。这两个版本的公式在理论特性和数学特性上稍有不同，但在实际应用中，他们的区别甚小，几乎可以忽略不计。

3 异常检测的具体算法

假如说我们有一个无标签的训练集，其中共有m个训练样本，并且这里的训练集里的每一个样本都是n维的特征，因此你的训练集应该是m个n维的特征构成的样本矩阵：

｛ x (1), \dots, x (m) ｝ x \in R n

对于我们的异常检测算法，我们要从数据中建立一个p(x)概率模型。由于x是一个向量，因此：

p (x) = p (x 1) p (x 2) p (x 3) \dots p (x n)

我们假定特征x_1服从高斯正态分布:

x 1 \sim N (μ 1, σ 21)

根据上节学到的知识，你可以得出对应的μ_1和σ_1:

μ 1 = 1 m \sum i = 1 m x (i) 1

σ 21 = 1 m \sum i = 1 m (x (i) 1 - μ 1) 2

这样p(x_1)就可以写成这样一个高斯分布:

p (x 1) = p (x 1; μ 1, σ 21)

同样地，我假设x_2也服从高斯分布，可以得出：

p (x 2) = p (x 2; μ 2, σ 22)

与此类似x_3服从另外一个高斯分布:

p (x 3) = p (x 3; μ 3, σ 23)

直到x_n:

p (x n) = p (x n; μ n, σ 2 n)

因此可以得出:

p (x) = p (x 1; μ 1, σ 21) p (x 2; μ 2, σ 22) p (x 3; μ 3, σ 23) \dots p (x n; μ n, σ 2 n) = Π n j = 1 p (x j; μ j, σ 2 j)

其中Π（读作pai，是π的大写形式）类似∑符号，只不过这里将连加换成了连乘。顺便要说的是，估计p(x)的分布问题，通常被称为密度估计问题。

4 异常检测算法步骤总结

让我们来总结一下异常检测算法的具体步骤：

1.从样本中选择一些能体现出异常行为的特征x_i。
我们可以尝试找出一些特征，比如在你的系统里，那些能看出用户异常行为或者欺诈行为的特征。
2.分别计算出每个特征的参数μ1,…,μn,σ21,…,σ2n。
$μ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ μ 1 μ 2 ┋ μ n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = 1 m \sum i = 1 m x (i)$
$σ 2 = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ σ 21 σ 22 ┋ σ 2 n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ = 1 m \sum i = 1 m (x (i) - μ) 2$
其中：