Machine Learning(Andrew)Week9(上)

来源：互联网发布：淘宝主视频制作软件编辑：程序博客网时间：2024/05/22 12:53

异常检测Anomaly detection

Problem motivation

“异常”就是类似于信息系统中，计算机病毒的感染或者侵入、盗用信用卡、生产线或者机器设备的故障等问题。虽然发生频率不是很高，但是一旦发生就会造成服务停止之类的重大损失，所以在异常发生之前或早期阶段就检测到至关重要。目前为止，重大事故发生较少，所以根据过去的数据进行预测也是很困难的。相反，既然很难定义异常，那么考虑一下它的反面“正常”是什么。系统正常运转时，产生的数据是有代表意义的，那么掌握正常数据的特征，利用监视系统，一旦发现数据脱离了正常的状态，就发出警告。这样一来，无须知道出现的是什么异常，只要有可能是异常的时候，立即提示警告，系统管理员就可以继续进行调查。（《Software Design（中文版）——机器学习的广泛应用及未来》文/鹿岛久嗣东京大学译/雷军）。

异常检测是machine learning的一个重要应用。异常检测 (Anomaly detection) 的假设是入侵者活动异常于正常主体的活动（百度百科）。

如下图所示：

是指要对飞机发动机进行监测，选取了两个特征：x1产生的热量和x2震动强度。图中红色的x都是已获取的正常的数据。现在有一个新的飞机发动机xtest送过来，要检测其是否正常。可以直观看出，把xtest根据其x1和x2特征绘制在图上，如果落在红色点所在区域内，就说明xtestt是正常的；如果落在离红色点分布的区域较远的地方，就说明它是异常的。

也可以用密度来检测。如下图，蓝色三个圈点的密度由里到外减小，可以设一个阈值ε，算xtset所在区域的密度。如果密度小于ε，则说明密度太小，就是异常值。

异常检测其他应用

（1）诈骗检测：把用户的行为作为特征x；建立概率模型p(x)；如果用户所做的行为概率低于阈值ε，即p(x)<ε，则该用户有可能非法用户

（2）检测数据中心：特征可能又内存使用情况，被访问的磁盘数量，CPU负载，网络流量等；建立模型，判断计算机是否异常。

高斯分布

介绍下什么是高斯分布

忘记的去翻翻概率统计。用样本估计总体参数时：

均值：

样本方差。注意：为了计算方便，方差不是除以(m-1)，而是m。

由高斯分布曲线可以看出，横坐标是数据值；纵坐标是概率，也可以说是某个数据值所占的比例。均值表征数据中心，方差表示数据覆盖的范围。根据图中蓝色的概率公式，这样就可以求出新数据的概率，也就是数据集中和该数据值相等的点的占比。如果概率很小，就说明数据集中和该数据值相等的点很少，该点离中心点很远，则它所落在区域的数据点分布密度也很小。