临近性度量方法选取总结

来源：互联网发布：电魂网络会被收购吗编辑：程序博客网时间：2024/05/16 14:06

总结数据挖掘导论第二章。
邻近性度量的类型应当与数据类型相适应。

1.对于许多稠密的、连续的数据，通常使用距离度量，如欧几里得距离等。连续属性之间的邻近度通常用属性值的差来表示，并且距离度量提供了一种将这些差组合到总邻近性度量的良好方法。

2.对于稀疏数据，常常包含非对称的属性，通常使用忽略0-0匹配的相似性度量。从概念上讲，这反映了如下事实：对于一对复杂对象，相似度依赖于它们共同具有的性质数目，而不是依赖于它们都缺失的性质数目。在特殊的情况下，对于稀疏的、非对称的数据，大部分对象都只具有少量被属性描述的性质，因此如果考虑它们都不具有的性质的话，它们都高度相似。余弦、Jaccard和广义Jaccard度量对于这类数据是合适的。

3.数据向量还有一些其他特征需要考虑。例如，假定对于比较时间序列感兴趣。如果时间序列的量值是重要的（例如，每个时间序列表示同一单位不同年份的总销售），则可以使用欧几里得距离。如果时间序列代表不同的量（例如，血压和氧消耗量），通常需要确定时间序列是否具有相同的形状，而不是相同的量值，那么相关度可能更可取（使用考虑量和级的差异的内置规范化）。

4.在某些情况下，为了得到合适的相似性度量，数据的变换或规范化是重要的，因为这种变换并非总能在邻近性度量中提供，例如，时间序列数据可能具有显著影响相似性的趋势或周期模式。此外，正确地计算相似度还需要考虑时间延迟。最后，两个时间序列可能只在特定的时间周期上相似，例如，气温与天然气的用量之间存在很强的联系，但是这种联系仅出现在取暖季节。

5.实践考虑也是重要的。有时，一种或多种邻近性度量已经在某个特定领域使用，因此，其他人已经回答了应当使用何种邻近性度量的问题；另外，所使用的软件包或聚类算法可能完全限制了选择；如果关心效率，则我们可能希望选择具有某些性质的邻近性度量，这些性质（如三角不等式）可以用来降低邻近度计算量。

0 0