质量估计及其应用(Mass Estimation and Its Applications)

来源:互联网 发布:js字符串include 编辑:程序博客网 时间:2024/06/15 10:52

质量估计及其应用(Mass Estimation and Its Applications)

吐槽

   今天研究下这篇文章,这个文章和前面的IForest有着非常紧密的关系。先占个坑,中午2点前将这文章更完。然并卵,现在已经是第二天的上午了。。拖延症又犯了

数据质量(data mass)

   什么是数据质量呢?数据质量是指一个区域内数据点的数目。假设数据集X是分布在d维空间中的一团数据云,则数据x越接近于数据云的中心,则数据质量mass(x)越大,若数据x处于数据云的边缘,则其数据质量会远小于云中心的数据的质量。因此,数据质量实际上是一种数据靠近数据中心或者边缘程度的度量。这和数据密度有点类似,但是其无论是在效果和效率上都比数据密度表现得要号。其在离群点(异常值)检测,信息检索等领域应用前景广阔。
   相比数据密度,数据质量有以下三方面的优势:
   1.数据质量计算量小,只是统计一个区域内数据的数量,而不像数据密度一样计算点和点之间的距离。
   2.数据质量能够给出一个数据云中,每个数据点一个排序,这个排序能够反映数据点是靠近数据云中心还是边缘。

数据质量估计

这里只考虑一维数据的质量估计。

Level-1质量估计

假设一个数据序列x1<x2<...<xn1<xn. 在每两个数据点之间选择一个分界点将两个数据点分开。比如sisisi+1分开,同时就会产生两个带有质量的非空区域mLi,以及mRi.接下来定义mi(x)=

阅读全文
0 0
原创粉丝点击