python机器学习(2.3)-----聚类

来源:互联网 发布:图片剪裁软件 编辑:程序博客网 时间:2024/06/18 18:09

翻译学习聚类网址:http://scikit-learn.org/stable/modules/clustering.html

聚类

无标签数据的聚类可以sklearn.cluster模块中使用。
每一个聚类算法都有两个变量:一个类,其中有一个 fit成员方法通过训练数据 来学习聚类;一个函数,输入训练数据,返回一个整数数组,每个整数代表一个特定 的聚类。对于类来说,训练数据的标签可以在类的 label_属性中找到。

输入数据
一个值得注意的事情是:实现这个模组的算法的输入有不同种类的矩阵。所有的方法都接受格式如[n_samples, n_features]的标准数据矩阵。
这些方法可以可以从 sklearn.feature_extraction模块中的类获得。AffinityPropagation,SpectralClusteringDBSCAN模块同样可以输入形如[n_samples, n_samples]的类似的矩阵,这些模块可以从sklearn.metrics.pairwise模块中的函数中获得。

纵观整个聚类方法

聚类方法的图片
scikit-learn中不同聚类方法的比较图


方法名 参数 可扩展性 使用情况 几何距离 K-Means 聚类的数目 非常大的n_samples
原创粉丝点击