数据挖掘导论--数据
来源:互联网 发布:新房装修 淘宝 推荐 编辑:程序博客网 时间:2024/05/16 08:45
数据
写在前面的话:学习过的知识不常用就会生疏,概念的东西特别容易遗忘,还是老老实实过一遍书,并做好笔记,以待日后快速查阅。
属性的类型
标称(nominal):定性属性。仅仅是不同的名字,如性别,邮政编码,判别用=,≠序数(ordinal):定性属性。能提供足够的信息确定序,成绩(优良中差),病情严重(好,较好,一般,差),判别:< ,>
区间(interval):定量属性。值之间的查是有意义的,如温度
抽样方法
简单随机抽样:有放回抽样,无放回抽样
分层抽样:解决简单随机抽样无法保证解决稀缺种类的样本数量的情况。
(1):尽管每组大小不同,但是抽取的对象个数相同。
(2):每一组抽取的样本个数与该组样本容量成正比。数据标准化(normalization)
数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
(1)z-score:x=x−x¯s
s:标准差
经过标准化的数据,其值发生改变,但其所处的相对位置并没有改变。比如距离均值两倍标准差的点,在标准化之后,其距离均值仍为两倍标准差
可将均值替换为中位数来降低x的异常值对x均值的影响,它具有均值为0,标准差1.例如人的年纪和收入这两个属性进行比较
(2)0-1标准化:
x−xminxmax−xmin 数据的相异性(距离)
距离公式(闵可夫斯基):d=(∑i=0n|xk−yk|r)1r
r = 1:曼哈顿距离(L1 范数)
r= 2:欧氏距离(L2 范数)数据的相似性
(1)Jaccard系数:
仅能处理二元属性的对象:J=A⋂BA⋃B=f11f01+f10+f01 f11 x=1且y=1f01 x=0且y=1f10 x=1且y=0f00 x=0且y=0
例如
x=(1,0,0,0,0,0,0,0,0,0)
y=(0,0,0,0,0,0,1,0,0,1)
J=0
(2)余弦相似性:
能够处理非二元向量
(3)广义Jaccard系数:(Tanimoto系数)
(4)Pearson’s correlation皮尔森相关系数:
D(x)=
(5)马氏距离Mahalanobis
处理除值域不同外,当某些属性之间还相关时,如何计算距离,马氏距离在处理两个属性相关之间的距离时较欧氏距离更加考虑了相关性:
(6)加权的闵可夫斯基距离:
以上。
- 数据挖掘导论--数据
- 数据挖掘导论
- 数据挖掘导论
- 数据挖掘导论
- 数据挖掘导论读书笔记
- 《数据挖掘导论》学习
- 数据挖掘--Apriori导论
- 数据挖掘导论 笔记
- 数据挖掘导论读书笔记
- 数据挖掘:数据挖掘导论第四章
- 数据挖掘导论 之 聚类分析
- 数据挖掘导论 之 分类
- 数据挖掘导论 (一)
- 数据挖掘导论 (二)
- 数据挖掘导论 (三)
- 【数据挖掘导论】——数据质量
- 数据挖掘导论笔记之探索数据
- 数据挖掘导论 读书笔记(一)
- js中bind、call、apply函数的用法
- Flink如何应对背压问题
- Java基础-break,continue,return
- 我和我的同伴是如何用具体的代码例子,说明源代码管理的基本操作
- iOS开发几款必备插件
- 数据挖掘导论--数据
- 杭州--4.21
- MySQL_Php.php
- 有效回文串
- Poj2299(离散化)
- Linux系统 工作笔记
- 机器人网站查询
- 第三章:变量和表达式
- Linux 中断底半部机制