Stanford 机器学习 Anomaly Detection

来源:互联网 发布:拼图软件 编辑:程序博客网 时间:2024/05/22 01:37

Anomaly Dectection

这里写图片描述
检测异常点,通过判断该点出现的概率,如果概率较小,就判断为异常点,否则为正常点。
这里写图片描述
高斯分布,均值和方差这两个参数的估计,在实际情况下,分子为m或者m-1差别不大。
这里写图片描述
如何分配训练集和测试集。
这里写图片描述
对于算法的评估,如果anomalous点较少时,应该如何评估。
这里写图片描述
Anomaly Dection和Supervised learning的区别:
异常检测:
1. 异常点较少
2. 正常点特别多
3. 异常出现的情况多种多样
4. 有可能出现训练集中没有预料到的异常
监督学习:
1. 正样例和负样例都比较多
2. 算法能从训练集中正确学习到如何判断一个样本是正样本还是负样本
这里写图片描述
当发现数据分布和高斯分布有差别时怎么处理,一种求log,一种是求xc
这里写图片描述
当异常点在正常点的判断范围时,可以考虑是否可以寻找添加一个特征,使得异常点能够正常检测到。
这里写图片描述
多元高斯分布和u,和协方差矩阵之间的关系。当非对角线元素为负时,二者是负相关,当对角线元素为正时,二者正相关。
这里写图片描述
多元高斯分布,包括均值和协方差矩阵的求法。
这里写图片描述
这里写图片描述
使用原始模型的情况:
1. 发现获取向量间的关系
2. 计算需求少,适用于当特征特别多的情况
使用多元高斯分布:
1. 自动的发现特征之间的关系
2. 计算消耗大,n不能特别多
3. m一般是n的十倍以上,即训练集的数量远远大于特征的数目。如果两个特征时线性关系的话,会导致协方差矩阵不可逆。

0 0
原创粉丝点击