[机器学习笔记]Note13--异常检测
来源:互联网 发布:mysql怎么删除库 编辑:程序博客网 时间:2024/06/06 16:35
继续是机器学习课程的笔记,本节课内容是异常检测,它是一个非监督学习算法,用于发现可能不应该属于一个已定义的组中的数据。
密度估计
首先是给出一个例子,如下图所示,是一个测试飞机引擎的例子,给定数据集{
在上图中,在蓝色圈内的数据属于该组数据的可能性较高,而越是偏远的数据,其属于该组数据的可能性就越低。
这种方法称为密度估计,表达如下:
异常检测主要用来识别欺骗。
例如,在线采集而来的有关用户的数据,一个特征向量中可能会包含如:用户多久登陆一次,访问过的页面,在论坛发布的帖子数量,甚至是打字速度等。尝试根据这些特征构建一个模型,可以用这个模型来识别那些不符合该模式的用户。
再一个例子是检测一个数据中心,特征可能包含:内存使用情况,被访问的磁盘数量,CPU的负载,网络的通信量等。根据这些特征可以构建一个模型,用来判断某些计算机是否有可能出错了。
高斯分布
接下来回顾下高斯分布的基本知识。
通常如果我们认为变量x符合高斯分布,即
下图是
我们可以利用已有的数据来预测总体中的
注意,机器学习中对于方程,我们通常只除以m而非统计学中的(m-1)。
异常检测算法
这里将使用高斯分布来开发异常检测算法。
对于给定数据集{
一旦获得了
然后设置一个阈值
下图是一个有两个特征的训练集,以及特征的分布情况:
下面的三维图表示的是密度估计函数,z轴为根据两个特征的值所估计的
我们选择一个
评价一个异常检测系统
接下来是介绍如何评价一个异常检测系统。
异常检测算法是一个非监督学习算法,意味着我们无法根据结果变量y的值来告诉我们数据是否真的是异常的。我们需要另一种方法来帮助检验算法是否有效。
当我们开发一个异常检测系统时,我们从带标记(异常或者正常)的数据着手,从其中选择一部分正常数据用于构建训练集,然后用剩下的正常数据和异常数据混合的数据构成交叉验证集和测试集。
例如,我们有10000台正常引擎的数据,20台异常引擎的数据。我们可以这样分配数据:
- 6000台正常引擎的数据作为训练集
- 2000台正常引擎和10台异常引擎的数据作为交叉验证集
- 2000台正常引擎和10台异常引擎的数据作为测试集
具体的评价方法如下:
- 根据测试集数据,我们估计特征的平均值和方差并构建
p(x) 函数 - 对交叉验证集,尝试使用不同的
ϵ 值作为阈值,并预测数据是否异常,根据F1值或者查准率与查全率的比例来选择ϵ - 选出
ϵ 后,针对测试集进行预测,计算异常检验系统的F1值或者查准率与查全率之比。
异常检测与监督学习之比
上一小节在评估异常检测算法的时候,是使用带有标记的数据,这与监督学习有些相似,两者的对比如下所示。
选择特征
对于异常检测算法,使用的特征是至关重要的,下面将介绍如何选择特征。
异常检测假设特征符合高斯分布,如果数据的分布不是高斯分布,异常检测算法也能够工作,但最好还是将数据转换成高斯分布。例如使用对数函数
对于如何选择特征,可以借助误差分析。我们希望的是对于正常数据可以得到大的
但一个常见的问题是一些异常的数据也会有较高的
这种情况下误差分析能够帮助我们,我们可以分析那些被算法错误预测为正常的数据,观察能否找出一些问题。我们可能能从问题中发现我们需要增加一些新的特征,增加这些特征后获得的新算法能够帮助我们更好地进行异常检测。
我们通常可以通过将一些相关的特征进行组合,来获得一些新的更好的特征(异常数据的该特征值异常地大或小)。
例如在检测数据中心的计算机状况的例子中,我们可以用CPU负载与网络通信量的比例作为一个新的特征,如果该值异常地大便有可能意味着该服务器是陷入了一些问题中。
多元高斯分布
假设有两个相关的特征,而且这两个特征的值域范围比较宽,这种情况下,一般的高斯分布模型可能不能很好地识别异常数据。其原因在于,一般的高斯分布模型尝试的是去同时抓住两个特征的偏差,因此创造出一个比较大的判定边界。
下图是两个相关特征,红色的线(根据
在一般的高斯分布模型中,计算
通过分别计算每个特征对应的几率,然后将其累乘起来,在多元高斯分布模型中,我们将构建特征的协方差矩阵,用所有的特征一起计算
首先计算所有特征的平均值:
其次,计算协方差矩阵:
注意,其中
最后计算多元高斯分布的
其中:
|∑| 是定矩阵,在Octave中用det(sigma)计算∑−1 是逆矩阵
下面看看协方差矩阵是如何影响模型的:
上图是5个不同的模型,从左往右依次分析:
- 是一个一般的高斯分布模型
- 通过协方差矩阵,令特征1有较小的偏差,同时保持特征2的偏差
- 通过协方差矩阵,令特征2有较大的偏差,同时保持特征1的偏差
- 通过协方差矩阵,在不改变两个特征的原有偏差的基础上,增加两者之间的正相关性
- 通过协方差矩阵,在不改变两个特征的原有偏差的基础上,增加两者之间的负相关性
多元高斯分布模型与原高斯分布模型的关系:
可以证明的是,原本的高斯分布模型是多元高斯分布模型的一个子集,即像上图中的第1,2,3个例子,3个例子所示,如果协方差矩阵只在对角线的单位上有非零的值时,即为原本的高斯分布模型了。
原高斯分布模型与多元高斯模型比较如下:
原高斯分布模型被广泛使用着,如果特征之间在某种程度上存在相互关联的情况,我们可以通过构造新特征的方法来捕捉这些相关性。
如果训练集不是太大,并且没有太多的特征,我们可以使用多元高斯分布模型。
小结
本节内容,主要是介绍异常检测算法,其实现的具体细节以及应用的一些场景。
- [机器学习笔记]Note13--异常检测
- 机器学习入门笔记(十)----异常检测
- 斯坦福机器学习公开课笔记(十二)--异常检测
- Andrew Ng机器学习笔记week9 异常检测、推荐系统
- 机器学习之异常检测
- 机器学习算法~异常检测
- Stanford机器学习---第十一讲.异常检测
- 机器学习复习——异常检测
- 机器学习(十八)异常检测
- 斯坦福机器学习——异常检测
- 基于机器学习的web异常检测
- 基于机器学习的web异常检测
- 基于机器学习的web异常检测
- 机器学习-->检测异常样本方法总结
- 用机器学习检测异常点击流
- 基于机器学习的web异常检测
- Andrew机器学习课程笔记(4)—— 异常检测
- 斯坦福机器学习视频笔记 Week9 异常检测和高斯混合模型 Anomaly Detection
- codreforces C. Replace To Make Regular Bracket Sequence(栈)
- EventBus使用详解(一)——初步使用EventBus
- RequestDispatcher的forward方法
- Create android source branch (创建安装源码分支)
- 入行IT类的第一篇...初学Java感想
- [机器学习笔记]Note13--异常检测
- curl模拟post请求
- 数据结构之线段树
- 正则表达简单入门知识
- 欢迎使用CSDN-markdown编辑器
- 使用JNI进行Java与C/C++语言混合编程(1)--在Java中调用C/C++本地库
- YUV与RGB格式转换
- 轮子
- EventBus使用详解(二)——EventBus使用进阶