IBM SPSS Modeler 【1】 K均值聚类
来源:互联网 发布:synapse2.0软件 编辑:程序博客网 时间:2024/06/06 09:13
一、聚类分析
在数据挖掘中,聚类分析关注的内容是一些相似的对象按照不同种类的度量构造成的群体。聚类分析的目标就是在相似的基础上对数据进行分类。
IBM SPSS Modeler 提供了多种聚类分析模型,其中主要包括两种聚类分析,K-Mean 聚类分析和 Kohonen 聚类分析,下面对各种聚类分析实验步骤进行详解。
1、K-Means 聚类分析实验
首先进行 K-Means 聚类实验。
(1) 启动 SPSS Modeler 14.2。选择“开始”“程序”“IBM SPSS Modeler 14.2”“ IBM SPSS Modeler 14.2 ”,即可启动 SPSS Modeler 程序,如图 1 所示。
图 1 启动 SPSS Modeler 程序
(2) 打开数据文件。首先选择窗口底部节点选项板中的“源”选项卡,再点击“可变
文件”节点,单击工作区的合适位置,即可将“可变文件”的源添加到流中,如图 2 所示。右键单击工作区的“可变文件”,选择“编辑”,打开如图3的编辑窗口,其中有许多选项可供选择,此处均选择默认设定。点击 “文件”右侧的“”按钮,弹出文件选择对话框,选择安装路径下 “Demos”文件夹中的“DRUG1n”文件,点击“打开”,如图4所示。
单击“应用”,并点击“确定”按钮关闭编辑窗口。
图 2 工作区中的“可变文件”节点
图 3 “可变文件”节点编辑窗口
图 4 文件选择对话框
图 5 工作区中的“表”节点
(3) 借助“表(Table)”节点查看数据。选中工作区的“DRUG1n”节点,并双击“输出”选项卡中的“表”节点,则 “表”节点出现在工作区中,如图 5 所示。运行“表”节点(Ctrl+E 或者右键运行),可以看到图 6 中有关病人用药的数据记录。该数据包含 7 个字段(序列、年龄(Age)、性别(Sex)、血压(BP)、胆固醇含量(Cholesterol)、钠含量(Na)、钾含量
(K)、药类含量(Drug)),共 200 条信息记录。
图 6 用于查看数据的“表”窗口
图 7 工作区中的“类型”节点
(4) 使用“类型(Type)”节点选择聚类分析的字段。选中“DRUG1n”节点,在 “字段选项”选项卡中双击“类型”节点,则 “类型”节点出现在工作区中,如图 7 所示。右键单击“类型”节点,选择“编辑”,可以看到一张关于字段的表,如图 8 所示。然后将所有字段的角色项设为“输入”,这表示要将所有字段进行聚类分析。最后点击“确定”按钮。
图 8 “类型”节点编辑窗口
(5) 进行接入模型。首先,使用 K-Means 模型进行聚类分析。选择工作区的“类型”,在窗口底部“建模”选项卡中,找到“K-Means”模型,并双击。在工作区中,即得到一个
K-Means 模型节点,如图 1-9 所示
图 9 工作区中的“K-Means”模型
(6) 编辑 K-Means 节点。右键单击工作区的“K-Means”,选择“编辑”,打开如图 10 的“K-Means”节点窗口。在“生成距离字段”的选择框中打勾,其他选择采用默认设置。
点击“运行”按钮,即生成 K-Means 聚类分析。
图 10 “K-Means”模型编辑窗口
(7) 查看 K-Means 聚类分析结果。在窗口右上侧区域的“模型”选项卡中,可以看到 K-Means 的模型,右键单击,并选择“浏览”,既可以看到 K-Means 聚类分析图,如图 11 所示。
图 11 “K-Means”聚类分析图
(8) 分析 K-Means 聚类分析。从图 11 中可以看到,聚类分析将源数据分成了五个聚类,每个类占总数的比例分别为 27.5%,23.0%,19.5%,15.5%和 14.5%。其中,对分类字段的依赖性依次由药类含量、血压、钾含量、胆固醇含量、钠含量、年龄和性别逐渐递减,其他的分析结论不在此细诉。
至此,已经完成了 K-Means 聚类分析实验的全部步骤。
- IBM SPSS Modeler 【1】 K均值聚类
- IBM SPSS Modeler 14.1安装
- IBM SPSS Modeler 【2】 两步聚类
- 正儿八经的开始学习IBM SPSS Modeler
- IBM SPSS MODELER --时间序列建模
- IBM SPSS modeler 17 无限使用
- IBM SPSS Modeler 【3】 神经网络的生成
- IBM SPSS Modeler 【5】 关联分析
- IBM SPSS Modeler 【6】 建立决策树
- IBM SPSS Modeler数据库内建模
- IBM SPSS Modeler与数据源ODBC连接
- IBM SPSS Modeler 和spss statistics有什么不同
- 数据挖掘产品 IBM SPSS Modeler 新手使用入门
- 数据挖掘产品 IBM SPSS Modeler 新手使用入门
- IBM SPSS Modeler 【3】 Kohonen聚类分析和直接分析法
- IBM SPSS Modeler 【4】 神经网络模型的测试验证
- IBM SPSS Modeler 客户端 vs 服务器的区别详解
- 模型自动化运行利器——IBM SPSS Modeler Batch
- Visio studio 2015 使用串口
- LeetCode 256. Paint House(房子涂色)
- 键盘推动视图上下移效果
- LeetCode 257. Binary Tree Paths
- scanf输入格式实验&printf语句输出实验
- IBM SPSS Modeler 【1】 K均值聚类
- IBM SPSS Modeler 【2】 两步聚类
- IBM SPSS Modeler 【3】 Kohonen聚类分析和直接分析法
- IBM SPSS Modeler 【3】 神经网络的生成
- IBM SPSS Modeler 【4】 神经网络模型的测试验证
- IBM SPSS Modeler 【5】 关联分析
- IBM SPSS Modeler 【6】 建立决策树
- LeetCode 258. Add Digits(数位相加)
- LeetCode 217. Contains Duplicate