临近性度量方法选取总结

来源:互联网 发布:电魂网络会被收购吗 编辑:程序博客网 时间:2024/05/16 14:06

总结数据挖掘导论第二章。
邻近性度量的类型应当与数据类型相适应。

1.对于许多稠密的、连续的数据,通常使用距离度量,如欧几里得距离等。连续属性之间的邻近度通常用属性值的差来表示,并且距离度量提供了一种将这些差组合到总邻近性度量的良好方法。

2.对于稀疏数据,常常包含非对称的属性,通常使用忽略0-0匹配的相似性度量。从概念上讲,这反映了如下事实:对于一对复杂对象,相似度依赖于它们共同具有的性质数目,而不是依赖于它们都缺失的性质数目。在特殊的情况下,对于稀疏的、非对称的数据,大部分对象都只具有少量被属性描述的性质,因此如果考虑它们都不具有的性质的话,它们都高度相似。余弦、Jaccard和广义Jaccard度量对于这类数据是合适的。

3.数据向量还有一些其他特征需要考虑。例如,假定对于比较时间序列感兴趣。如果时间序列的量值是重要的(例如,每个时间序列表示同一单位不同年份的总销售),则可以使用欧几里得距离。如果时间序列代表不同的量(例如,血压和氧消耗量),通常需要确定时间序列是否具有相同的形状,而不是相同的量值,那么相关度可能更可取(使用考虑量和级的差异的内置规范化)。

4.在某些情况下,为了得到合适的相似性度量,数据的变换或规范化是重要的,因为这种变换并非总能在邻近性度量中提供,例如,时间序列数据可能具有显著影响相似性的趋势或周期模式。此外,正确地计算相似度还需要考虑时间延迟。最后,两个时间序列可能只在特定的时间周期上相似,例如,气温与天然气的用量之间存在很强的联系,但是这种联系仅出现在取暖季节。

5.实践考虑也是重要的。有时,一种或多种邻近性度量已经在某个特定领域使用,因此,其他人已经回答了应当使用何种邻近性度量的问题;另外,所使用的软件包或聚类算法可能完全限制了选择;如果关心效率,则我们可能希望选择具有某些性质的邻近性度量,这些性质(如三角不等式)可以用来降低邻近度计算量。

0 0
原创粉丝点击