数据预处理2
来源:互联网 发布:话剧 知乎 编辑:程序博客网 时间:2024/05/17 06:22
相关性的度量:
对象之间的相关性是对象属性之间线性的度量
x,y是两向量
标准差,协方差,皮尔森是评价相似性,相异性的指标
邻近度计算:
当属性有不同的值域,变换成相同的值域,用欧式距离
某些属性是相关,可用mahalanobis距离,表示i,j的协方差
数据预处理
比如做预测,把无关的属性去掉,用有用的属性进行预测。
一个数据集是由若干个数据对象描述,每个对象又由若干属性描述。
针对各种属性,可以做很多计算,就像上一篇所说的。
数据集的类型:结构化数据(数据矩阵,文档数据-文档已经通过预处理从半结构化变成结构化,数据库数据仓库里面存在的事物数据集。。);基于图形的表示;带时空观念的(社交媒体,有时间,所以就是有序的数据集)
结构化数据:
维度:属性的个数。svn对于7,8千维,再升维,这样在高维可能变成线性,这样就可以线性处理。如果某些工具不可以升维,就会发生维度灾难,也就是说属性太多。
稀疏:如果用欧式距离,会很相似,但实际上不相似,所以用简单系数匹配。
分辨率:当维度不同,会得到不同的数据挖掘结果
数据矩阵:就好比说nlp中建立数据字典,一篇文章中有很多词,就可以用一些余弦等进行相似分析,但是这种分析是不行的,它确实向量化,但是分类不行,因为很多词之间是相关的,而不是不相关的。。所以后面有了LDA
事物数据:数据仓库里面的,比如购物篮分析
图形化数据:网页之间的关联关系,变成图模型。超图模型(简单图:一条边只能关联两个点,超图:一条边可以关联很多点)因为经常有一个作者有多篇文章,一篇文章很多作者,那么图中的边是作者,点是文章。这样在文档中,揭示数据的关联关系更好。。随机游走(pagerank)(计算一个网页的重要程度)。
有序数据:增加了时间和空间的特性。。
针对不同数据类型进行数据预处理:’
数据质量很重要,数据清洗就是:
去噪
数据缺失,怎么填充
不一致
集成(不同数据库集成到数据仓库)
规范化
降维,数据规约
数据库中的数据清理集成变换,sqlserver把这三个做了一个工具包。
去噪技术:
分箱:
去噪,离散化都可以用。通过考察数据紧邻来光滑有序数据集,只考虑紧邻,所以局部有效
方法有等宽和等频
等宽:分成大小相等的n个区间,均匀网格
区间宽度是(max-min)/n
等频:n个区间,不是距离等宽,是含有相同数量的近似值,这个是根据密度来的。
聚类:检测和去除离群点孤立点,简单的kmeans就好。在大数据量处理中,分箱是不合理的,我们对数据一无所知,通过聚类,可以很好去噪。
回归:拟合数据,神经网络就是基于回归的。
计算机和人工检查相结合
如何处理缺失值:
全局常量:不太好
属性均值:通常用
先聚类好,同一类元组的均值:这样更好
使用最可能的值:基于更高级数据挖掘,如贝叶斯去推理,回归,决策树。。
重复数据:对于冗余数据直接删
检测冗余数据:相关性分析
相关性分析/协方差分析
n个元组或数据对象,a,b之间的相关性用皮尔森,得出的r看结果
开方检测:值越大,越相关,文本挖掘的时候,如果把所有单词提出来构成数据字典,评价单词的相关性,文档的相关性,这两种方法把没用的单词去掉。
- 数据预处理(2)
- 数据预处理2
- Weka学习2-数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- QTP 学习 - 参数化
- 《将博客搬至CSDN》
- WebStorm 如何配置eslint (node.js)
- SVN服务器搭建和使用(三)
- 【第5周 项目1-建立顺序栈算法库】
- 数据预处理2
- Socket TCP CS
- 第五周 项目一(9)契波那契数列(Raptor)
- Extjs
- sdl2 for android ubuntu开发环境搭建记录,编译SDL2 on ubuntu 16.04 x64
- 第五周项目7,从1加到100
- Android组件10—TabHost
- xml解析——增删改查操作后将其修改结果保存
- 深入分析Javascript事件代理