数据预处理2

来源：互联网发布：话剧知乎编辑：程序博客网时间：2024/05/17 06:22

相关性的度量：

对象之间的相关性是对象属性之间线性的度量

x，y是两向量

标准差，协方差，皮尔森是评价相似性，相异性的指标

邻近度计算：

当属性有不同的值域，变换成相同的值域，用欧式距离

某些属性是相关，可用mahalanobis距离，表示i,j的协方差

数据预处理

比如做预测，把无关的属性去掉，用有用的属性进行预测。

一个数据集是由若干个数据对象描述，每个对象又由若干属性描述。

针对各种属性，可以做很多计算，就像上一篇所说的。

数据集的类型：结构化数据（数据矩阵，文档数据-文档已经通过预处理从半结构化变成结构化，数据库数据仓库里面存在的事物数据集。。）；基于图形的表示；带时空观念的（社交媒体，有时间，所以就是有序的数据集）

结构化数据：

维度：属性的个数。svn对于7,8千维，再升维，这样在高维可能变成线性，这样就可以线性处理。如果某些工具不可以升维，就会发生维度灾难，也就是说属性太多。

稀疏：如果用欧式距离，会很相似，但实际上不相似，所以用简单系数匹配。

分辨率：当维度不同，会得到不同的数据挖掘结果

数据矩阵：就好比说nlp中建立数据字典，一篇文章中有很多词，就可以用一些余弦等进行相似分析，但是这种分析是不行的，它确实向量化，但是分类不行，因为很多词之间是相关的，而不是不相关的。。所以后面有了LDA

事物数据：数据仓库里面的，比如购物篮分析

图形化数据：网页之间的关联关系，变成图模型。超图模型（简单图：一条边只能关联两个点，超图：一条边可以关联很多点）因为经常有一个作者有多篇文章，一篇文章很多作者，那么图中的边是作者，点是文章。这样在文档中，揭示数据的关联关系更好。。随机游走（pagerank）（计算一个网页的重要程度）。

有序数据：增加了时间和空间的特性。。

针对不同数据类型进行数据预处理：’

数据质量很重要，数据清洗就是：

去噪

数据缺失，怎么填充

不一致

集成（不同数据库集成到数据仓库）

规范化

降维，数据规约

数据库中的数据清理集成变换，sqlserver把这三个做了一个工具包。

去噪技术：

分箱：

去噪，离散化都可以用。通过考察数据紧邻来光滑有序数据集，只考虑紧邻，所以局部有效

方法有等宽和等频

等宽：分成大小相等的n个区间，均匀网格

区间宽度是(max-min)/n

等频：n个区间，不是距离等宽，是含有相同数量的近似值，这个是根据密度来的。

聚类：检测和去除离群点孤立点，简单的kmeans就好。在大数据量处理中，分箱是不合理的，我们对数据一无所知，通过聚类，可以很好去噪。

回归：拟合数据，神经网络就是基于回归的。

计算机和人工检查相结合

如何处理缺失值：

全局常量：不太好

属性均值：通常用

先聚类好，同一类元组的均值：这样更好

使用最可能的值：基于更高级数据挖掘，如贝叶斯去推理，回归，决策树。。

重复数据：对于冗余数据直接删

检测冗余数据：相关性分析