简单的聚类分析及应用

来源：互联网发布：二级域名解析系统源码编辑：程序博客网时间：2024/06/05 20:44

1.分类

通常对样品进行分类方法称为Q型聚类法，统计量称为距离。对变量进行分类的方法称为R型聚类法，统计量称为相似系数。聚类问题，就是给定一个元素集合D，其中每个元素具有n个可观察属性，使用某种算法将D划分成k个子集，要求每个子集内部的元素之间相异度尽可能低，而不同子集的元素相异度尽可能高。
聚类算法的分类
本文将主要对K-means 算法进行讲解，主要依据全国大学生数学建模为数据依据。

2.分析题目

2.1 关于酿酒葡萄的分类，首先经过查阅资料得知，酿酒葡萄的等级主要受葡萄的外观、风味、加工、营养，还有其产生葡萄酒的质量。查阅资料，对应于EXCEL所给数据项为：
酿酒葡萄理化指标体系

2.2 首先要说一下标量的规格化问题。所谓规格化就是将各个属性值按比例映射到相同的取值区间，这样是为了平衡各个属性对距离的影响。通常将各个属性均映射到[0,1]区间，映射公式为：
规格化公式

2.3 对excel中基于外观品质项的各个元素做规格化处理，其中，有些元素设计多次测量值，取其平均数。
首先对所需数据第一次标准化，结果如下：

花色苷mg/100g鲜重果穗质量/g 百粒质量/g 果皮质量（g）果皮颜色a 果皮颜色b 果皮颜色l 408.028 182.930 370.9 0.11 0.78 0.26 24.07 224.367 81.617 294.9 0.16 0.65 -1.25 26.07 157.939 83.130 316.2 0.17 1.09 -0.62 25.50 79.685 137.970 524.1 0.17 1.84 -0.37 25.98 120.606 515.463 762.7 0.27 0.88 -0.33 26.33 46.186 202.237 515.9 0.19 1.81 -0.16 25.16 60.767 63.610 506.5 0.14 2.05 -0.38 25.61 241.397 213.087 543.2 0.26 0.80 -0.51 26.85 240.843 186.617 414.2 0.13 1.44 -0.38 23.81 44.203 255.440 602.4 0.20 2.17 -1.12 27.10 7.787 177.830 356.4 0.10 12.15 3.87 28.03 32.343 191.947 563.2 0.24 2.04 0.01 26.57 65.324 159.970 443.9 0.16 1.04 -1.57 27.53 140.257 209.107 408.8 0.26 1.19 -0.57 25.41 52.792 159.310 523.4 0.21 1.98 -0.01 25.53 60.660 119.173 328 0.14 1.33 -0.34 26.11 59.424 446.637 792.3 0.33 1.18 -0.25 25.40 40.228 196.007 625.2 0.16 2.87 0.21 25.52 115.704 173.093 506.5 0.16 0.80 -1.51 27.19 23.523 307.143 1002.9 0.23 1.96 -0.43 27.09 89.282 147.660 318.3 0.11 1.21 0.00 25.18 74.027 106.613 347.5 0.15 1.52 -0.07 25.94 172.626 278.750 657.2 0.23 1.38 -0.42 26.65 144.881 517.454 712.1 0.25 0.90 -0.29 25.97 49.643 288.690 753.9 0.22 1.52 -0.92 27.10 58.469 793.467 736.5 0.23 1.09 -0.83 28.00 34.190 282.087 446.2 0.20 2.33 -1.23 28.79

接下来01规格化之后得到：

花色苷mg/100g鲜重果穗质量/g 百粒质量/g 果皮质量（g）果皮颜色a 果皮颜色b 果皮颜色l 1.00 0.16 0.11 0.03 0.01 0.34 0.05 0.54 0.02 0.00 0.27 0.00 0.06 0.45 0.38 0.03 0.03 0.30 0.04 0.17 0.34 0.18 0.10 0.32 0.31 0.10 0.22 0.44 0.28 0.62 0.66 0.73 0.02 0.23 0.51 0.10 0.19 0.31 0.40 0.10 0.26 0.27 0.13 0.00 0.30 0.17 0.12 0.22 0.36 0.58 0.20 0.35 0.69 0.01 0.19 0.61 0.58 0.17 0.17 0.12 0.07 0.22 0.00 0.09 0.26 0.43 0.43 0.13 0.08 0.66 0.00 0.16 0.09 0.00 1.00 1.00 0.85 0.06 0.18 0.38 0.61 0.12 0.29 0.55 0.14 0.13 0.21 0.25 0.03 0.00 0.75 0.33 0.20 0.16 0.67 0.05 0.18 0.32 0.11 0.13 0.32 0.48 0.12 0.29 0.34 0.13 0.08 0.05 0.14 0.06 0.23 0.46 0.13 0.52 0.70 0.99 0.05 0.24 0.32 0.08 0.18 0.47 0.25 0.19 0.33 0.34 0.27 0.15 0.30 0.26 0.01 0.01 0.68 0.04 0.33 1.00 0.56 0.11 0.21 0.66 0.20 0.12 0.03 0.03 0.05 0.29 0.28 0.17 0.06 0.07 0.20 0.08 0.28 0.43 0.41 0.29 0.51 0.57 0.06 0.21 0.57 0.34 0.62 0.59 0.63 0.02 0.24 0.43 0.10 0.31 0.65 0.51 0.08 0.12 0.66 0.13 1.00 0.62 0.56 0.04 0.14 0.84 0.07 0.30 0.21 0.42 0.15 0.06 1.00

接下来运用SPSS均值聚类进行分析（过程省略）：
这里写图片描述

我将其分为了五，由以上数据可得，迭代进行了三次，且sig值均小于0.05分类具有显著性。我们将所有的红酿酒葡萄根据外观都进行了分类（1-5）。

优秀论文方法：对最终聚类中心进行加权，例如：对果皮颜色l，分别赋予1,3,9,7,5，依次对七个元素进行加权，之后列相加平均，得到对五类的基于外观的分别加权分数，将分数分别给27种葡萄。相似的，葡萄将出现五种加权分数（27行，5列）再次进行聚类，优秀论文用了黄金分割，即可得到最终结果。

主要借鉴：http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html
全国大学生数学建模优秀论文

阅读全文

0 0