关于数据的相关知识点

来源:互联网 发布:17173激活码淘号软件 编辑:程序博客网 时间:2024/05/17 08:01
数据数据类型 属性与度量什么是属性属性类型属性的不同类型分类的标称序数数值的区间比率用值的个数描述属性离散的连续的非对称属性数据集的类型 一般特征维度稀疏性分辨率三种类型记录数据事务数据或购物蓝数据数据矩阵稀疏数据矩阵基于图形的数据带有对象联系的数据具有图形对象的数据有序数据时序数据序列数据时间序列数据空间数据处理非记录数据数据质量测量和数据收集问题 测量误差和数据收集错误噪声和伪像精度,偏倚和准确率精度偏倚准确率离群点遗漏值处理法删除数据对象或属性估计遗漏值在分析时忽略遗漏值不一致的值重复数据关于应用的问题时效性相关性数据预处理聚集抽样抽样方法无放回抽样有放回抽样分层抽样渐进抽样维归约维灾难维归约的线性代数技术主成分分析  PCA奇异值分解  SVD特征子集选择嵌入过滤包装特征创建特征提取映射数据到新的空间傅立叶变换小波变换特征构造离散化和二元化二元化连续属性离散化非监督离散化等频率等宽K均值监督离散化熵,基尼不纯度具有过多值的分类属性变量变换简单函数在统计学中,变量变换( 特别是平方要,对数和倒数变换)常用来将不具有高斯(正态)分布的数据变换成具有高斯(正态)分布的数据。 规范化或标准化相似性和相异性的度量基础定义变换简单属性之间的相似度和相异度数据对象之间的相异度距离欧几里得距离使用闵可夫斯基距离来推广数据对象之间的相似度三角不等式通常不成立,但是对称性和非负性通常成立。 邻近性度量的例子二元数据的相似性度量简单匹配系数  SMCJaccard匹配系数 余弦相似度广义Jaccard系数相关性邻近度计算的问题距离度量的标准化和相关性组合异种属性的相似度权值选取正确的邻近性度量

原创粉丝点击