AI学习过程(3)-异常检测

来源:互联网 发布:有线通 知乎 编辑:程序博客网 时间:2024/05/21 22:41
  1. 异常检测使用的是聚类算法,设定一个比例Epseno,当新点的概率p(x)<Epseno,则该点是异常点,其中p()为假设,也即函数方程。
  2. 在基于高斯函数的检验算法中,专家撰写一个式子并提出该式子的各部分应该符合独立假设,但是该专家说无论符不符合独立假设,该公式在实践中的使用效果都不错。这说明,即使在对待实践应用的问题,即使是重要分体(如引擎质量检测),即使是专家,也会在一定误差允许范围内容设定很多偷懒的算法
  3. 异常检测的验证方法与信息检索的算法验证方法极其相似。虽然异常检测使用的是非标注的数据,但是在算法评估的时候,我们使用标注的数据对算法进行检验。通过设定异常数据y=1,正常数据y=0,我们通过Precision和Recall以及F1来检测算法的效率,同时也根据这一项来检验是否应该加入新的属性。
  4. 由上面可知,异常检测问题其实也可以用比如逻辑回归的方法来做,但是为什么不用呢?其根本原因是正样本(异常点)太少
  5. 当数据分布不是高斯分布的时候,通常采取一个转换操作将数据转换为高斯分布。【如果直接使用高斯分布的话,虽然没那么精确,但是也是可接受的】。

  6. 多元正态分布可以调节调节分布的结构,如:两个属性的相关性、两个属性的均值和方差等。




  7. 如何进行数据的分析当属性的数量很大的情况下?一个可行的情况是先进行PCA,把数据将为2-3维,然后逐层的分解看属性之间的关系。数据相关性矩阵也为该目标提供相应的信息,但是或许不太直观
0 0
原创粉丝点击