聚类分析中分类数的确定问题
来源:互联网 发布:centos 编译安装lamp 编辑:程序博客网 时间:2024/04/29 21:16
聚类的目的是为了分类,但到底分多少类合适呢?迄今为止它上没有得到完全解决。
Demirmen曾提出根据树状结构图来分类的准则:
1.任何类都必须在临近类中是突出的
2.各类所包含的元素不应过多
3.分类数应该符合使用目的
4.采用集中聚类法,聚类图上应发现相同的类
这些准则是对分类数的探索之一。SAS软件中作聚类分析,可以控制CCC,PSEUDO选项,这两组选项对分类数的确定有一定的参考意义。CCC在高惠璇编著的STAT使用手册中译作立方聚类标准,它与R和半偏R统计量相关。值得注意的是,它的计算需要协方差矩阵存在特征值,它不用在SINGLE聚类方法中。PSEUDO选项可以得到伪的F统计量和t统计量,分别反映当前水平下所有类分离程度和最近合并的两个类间的分离程度。该选项用在数据是坐标型的(等同的),或者是用在聚类方法为AVERAGE,CENTROID,WARD时。
通常会认为CCC的值大于2或3反映聚类的好,伪F统计量较大显示聚类,伪t统计量提示分类结点的选择。
看看STAT文档中的例子“Cluster Analysis of Fisher’s Iris Data”:
.........................
proc cluster data=iris method=ward print=15 ccc pseudo;
var petal: sepal:;
copy species;
run;
proc tree noprint ncl=3 out=out;
copy petal: sepal: species;
run;
...................................
结果如下图:
- 聚类分析中分类数的确定问题
- 循环数的确定
- hadoop mapreduce任务中,map任务数的确定
- 光纤芯数的确定?
- svm中gamma的确定
- 【VBA】数组维数的确定
- Android DrawText 基线的确定问题
- 调查研究中样本量的确定
- WINCE注册表中IClass值的确定
- mapreduce中map个数的确定
- mapreduce中map个数的确定
- 自定义UITableViewCell 中UIButton 的确定事件
- Android中View大小的确定过程
- MapReduce中map任务个数的确定
- Android中View大小的确定过程
- WINCE注册表中IClass值的确定
- 数据标准化中数据域的确定
- 数据库中候选键的确定
- Tr A hdu 1575数学问题
- Cacti配置下的使用技巧
- 构造Liunx流媒体服务器(ZT)
- C++内存分区
- 跟Steve Jobs學簡報 ——蔡學鏞
- 聚类分析中分类数的确定问题
- 快毕业了
- sicily1137
- Mongodb 的ORM框架 Morphia 注解二 —————— @Id
- REHL4下sendmail配置简要说明
- 关于Flex的MessageBroker Endpoints channels的配置运用
- 我的vim配置
- 关于#/##在宏定义中的用法
- 海量数据处理:十道面试题与十个海量数据处理方法总结