sklearn: metrics

来源:互联网 发布:linux 内核书籍 编辑:程序博客网 时间:2024/05/29 12:18

sklearn中的评估模块. 主要用于对结果好坏的评测.

聚类 Cluster

  • sklearn.metrics.calinski_harabaz_score()

    使用Calinski-Harabasz(CH)指标评价聚类结果.

    CH指标通过簇内的稠密程度和簇间的离散程度来评估聚类的效果, 公式为:

    s(k)=tr(Bk)tr(Wk)mkk1

    其中, m为样本数量, k为类别数量, Bk为类别之间的协方差矩阵, Wk为类别内部数据的协方差矩阵. tr为矩阵的迹.

    也就是说, 类别内部数据的协方差越小越好, 类别之间的协方差越大越好, 这样的Calinski-Harabasz分数会高.

参数:    X: 训练特征数据;    labels: 预测的样本类;输出:    score: float, 结果的Calinski-Harabaz分数, 分数越大越好.
原创粉丝点击