质量估计及其应用（Mass Estimation and Its Applications）

来源：互联网发布：js字符串include 编辑：程序博客网时间：2024/06/15 10:52

质量估计及其应用（Mass Estimation and Its Applications）

吐槽

　　　今天研究下这篇文章，这个文章和前面的IForest有着非常紧密的关系。先占个坑，中午２点前将这文章更完。然并卵，现在已经是第二天的上午了。。拖延症又犯了

数据质量（data mass）

　　　什么是数据质量呢？数据质量是指一个区域内数据点的数目。假设数据集X是分布在d维空间中的一团数据云，则数据x越接近于数据云的中心，则数据质量mass(x)越大，若数据x处于数据云的边缘，则其数据质量会远小于云中心的数据的质量。因此，数据质量实际上是一种数据靠近数据中心或者边缘程度的度量。这和数据密度有点类似，但是其无论是在效果和效率上都比数据密度表现得要号。其在离群点（异常值）检测，信息检索等领域应用前景广阔。
　　　相比数据密度，数据质量有以下三方面的优势：
　　　1.数据质量计算量小，只是统计一个区域内数据的数量，而不像数据密度一样计算点和点之间的距离。
　　　2.数据质量能够给出一个数据云中，每个数据点一个排序，这个排序能够反映数据点是靠近数据云中心还是边缘。

数据质量估计

这里只考虑一维数据的质量估计。

Level-1质量估计

假设一个数据序列x1<x2<...<xn−1<xn. 在每两个数据点之间选择一个分界点将两个数据点分开。比如si 将si和si+1分开,同时就会产生两个带有质量的非空区域mLi,以及mRi.接下来定义mi(x)=

阅读全文

0 0