数据挖掘中的度量方法
来源:互联网 发布:2017网络综艺节目排名 编辑:程序博客网 时间:2024/05/27 20:51
原文站点:https://senitco.github.io/2017/05/24/measurement-method/
在数据挖掘中,无论是对数据进行分类、聚类还是异常检测、关联性分析,都建立在数据之间相似性或相异性的度量基础上。通常使用距离作为数据之间相似性或相异性的度量方法,常用的度量方法有欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、汉明距离、余弦距离、马氏距离、Jaccard系数、相关系数、信息熵。
欧式距离
标准化欧式距离公式如下:
式中,
曼哈顿距离
曼哈顿距离也称为街区距离,计算公式如下:
切比雪夫距离
上面两个公式是等价的。
闵可夫斯基距离
式中,r是一个可变参数,根据参数r取值的不同,闵可夫斯基距离可以表示一类距离
r = 1时,为曼哈顿距离
r = 2时,为欧式距离
r →∞时,为切比雪夫距离
闵可夫斯基距离包括欧式距离、曼哈顿距离、切比雪夫距离都假设数据各维属性的量纲和分布(期望、方差)相同,因此适用于度量独立同分布的数据对象。
汉明距离
两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数,也就是将一个字符串变换为另一个字符串所需要替换的最小字符个数,例如
汉明距离常用于信息编码中。
余弦距离
余弦相似度公式定义如下:
余弦相似度实际上是向量
余弦相似度常用来度量文本之间的相似性。文档可以用向量表示,向量的每个属性代表一个特定的词或术语在文档中出现的频率,尽管文档具有大量的属性,但每个文档向量都是稀疏的,具有相对较少的非零属性值。
马氏距离
马氏距离的计算公式如下:
式中,
前面的距离度量方法大都假设样本独立同分布、数据属性之间不相关。马氏距离考虑了数据属性之间的相关性,排除了属性间相关性的干扰,而且与量纲无关。若协方差矩阵是对角阵,则马氏距离变成了标准欧式距离;若协方差矩阵是单位矩阵,各个样本向量之间独立同分布,则变成欧式距离。
Jaccard系数
Jaccard系数定义为两个集合A和B的交集元素在其并集中所占的比例,即
对于两个数据对象
式中,
Jaccard系数适用于处理仅包含非对称的二元属性的对象。
广义Jaccard系数定义如下:
广义Jaccard系数又称为Tanimoto系数,可用于处理文档数据,并在二元属性情况下归约为Jaccard系数。
相关系数
两个数据对象之间的相关性是对象属性之间线性关系的度量,计算公式如下
相关系数是衡量数据对象相关程度的一种方法,取值范围为
信息熵
信息熵描述的是整个系统内部样本之间的一个距离,是衡量分布的混乱程度或分散程度的一种度量。样本分布越分散(或者说分布越平均),信息熵越大;分布越有序(或者说分布越集中),信息熵就越小。给定样本集
式中,
阅读全文
0 0
- 数据挖掘中的度量方法
- 数据挖掘中的相似性度量指数
- 海量数据挖掘MMDS week2: LSH的距离度量方法
- 数据挖掘之相似性度量
- 数据挖掘之相似性度量
- 数据挖掘中的可视化方法
- 数据挖掘中的数据预处理方法总结
- 数据挖掘中的数据清洗方法大全
- 数据挖掘中的数据清洗方法大全
- 数据挖掘中的关联分析方法
- 数据挖掘中的抽样方法--简单记录
- 数据挖掘基础:度量数据的相似性和相异性
- 数据挖掘中基本概念--数据类型的属性与度量
- 数据挖掘day3——特征排列的熵度量
- 数据挖掘中基本概念--数据类型的属性与度量
- 电子政务中的数据挖掘
- 电子政务中的数据挖掘
- 数据挖掘中的中位数
- 1-100之间不能被7整除的数,并求和,JAVA
- 文件的使用
- Java中的Object-equals()方法
- 设计模式-状态模式
- mysql 创建数据库之添加外建出错问题总结
- 数据挖掘中的度量方法
- PAT考试乙级1056(C语言实现)
- 深入学习ThreadLocal和InheritableThreadLocal
- Vue2+VueRouter2+Webpack+Axios 构建项目实战2017重制版(十)打包项目并发布到子目录
- 有序链表的插入
- 聚集索引和非聚集索引(整理)
- pageContext对象
- 江城子篇-一道很模板的Splay题-洛谷P3369
- Android 线程学习