数据预处理2

来源:互联网 发布:话剧 知乎 编辑:程序博客网 时间:2024/05/17 06:22

相关性的度量:

对象之间的相关性是对象属性之间线性的度量

x,y是两向量

标准差,协方差,皮尔森是评价相似性,相异性的指标


邻近度计算:

当属性有不同的值域,变换成相同的值域,用欧式距离

某些属性是相关,可用mahalanobis距离,表示i,j的协方差


数据预处理

比如做预测,把无关的属性去掉,用有用的属性进行预测。

一个数据集是由若干个数据对象描述,每个对象又由若干属性描述。

针对各种属性,可以做很多计算,就像上一篇所说的。

数据集的类型:结构化数据(数据矩阵,文档数据-文档已经通过预处理从半结构化变成结构化,数据库数据仓库里面存在的事物数据集。。);基于图形的表示;带时空观念的(社交媒体,有时间,所以就是有序的数据集)


结构化数据:

维度:属性的个数。svn对于7,8千维,再升维,这样在高维可能变成线性,这样就可以线性处理。如果某些工具不可以升维,就会发生维度灾难,也就是说属性太多。

稀疏:如果用欧式距离,会很相似,但实际上不相似,所以用简单系数匹配。

分辨率:当维度不同,会得到不同的数据挖掘结果


数据矩阵:就好比说nlp中建立数据字典,一篇文章中有很多词,就可以用一些余弦等进行相似分析,但是这种分析是不行的,它确实向量化,但是分类不行,因为很多词之间是相关的,而不是不相关的。。所以后面有了LDA


事物数据:数据仓库里面的,比如购物篮分析


图形化数据:网页之间的关联关系,变成图模型。超图模型(简单图:一条边只能关联两个点,超图:一条边可以关联很多点)因为经常有一个作者有多篇文章,一篇文章很多作者,那么图中的边是作者,点是文章。这样在文档中,揭示数据的关联关系更好。。随机游走(pagerank)(计算一个网页的重要程度)。

有序数据:增加了时间和空间的特性。。


针对不同数据类型进行数据预处理:’

数据质量很重要,数据清洗就是:

去噪

数据缺失,怎么填充

不一致

集成(不同数据库集成到数据仓库)

规范化

降维,数据规约


数据库中的数据清理集成变换,sqlserver把这三个做了一个工具包。


去噪技术:

分箱:

去噪,离散化都可以用。通过考察数据紧邻来光滑有序数据集,只考虑紧邻,所以局部有效

方法有等宽和等频

等宽:分成大小相等的n个区间,均匀网格

区间宽度是(max-min)/n

等频:n个区间,不是距离等宽,是含有相同数量的近似值,这个是根据密度来的。


聚类:检测和去除离群点孤立点,简单的kmeans就好。在大数据量处理中,分箱是不合理的,我们对数据一无所知,通过聚类,可以很好去噪。


回归:拟合数据,神经网络就是基于回归的。

计算机和人工检查相结合


如何处理缺失值:

全局常量:不太好

属性均值:通常用

先聚类好,同一类元组的均值:这样更好

使用最可能的值:基于更高级数据挖掘,如贝叶斯去推理,回归,决策树。。


重复数据:对于冗余数据直接删

检测冗余数据:相关性分析

相关性分析/协方差分析

n个元组或数据对象,a,b之间的相关性用皮尔森,得出的r看结果

开方检测:值越大,越相关,文本挖掘的时候,如果把所有单词提出来构成数据字典,评价单词的相关性,文档的相关性,这两种方法把没用的单词去掉。














0 0
原创粉丝点击