简单的聚类分析及应用
来源:互联网 发布:二级域名解析系统源码 编辑:程序博客网 时间:2024/06/05 20:44
1.分类
通常对样品进行分类方法称为Q型聚类法,统计量称为距离。对变量进行分类的方法称为R型聚类法,统计量称为相似系数。聚类问题,就是给定一个元素集合D,其中每个元素具有n个可观察属性,使用某种算法将D划分成k个子集,要求每个子集内部的元素之间相异度尽可能低,而不同子集的元素相异度尽可能高。
本文将主要对K-means 算法进行讲解,主要依据全国大学生数学建模为数据依据。
2.分析题目
2.1 关于酿酒葡萄的分类,首先经过查阅资料得知,酿酒葡萄的等级主要受葡萄的外观、风味、加工、营养,还有其产生葡萄酒的质量。查阅资料,对应于EXCEL所给数据项为:
2.2 首先要说一下标量的规格化问题。所谓规格化就是将各个属性值按比例映射到相同的取值区间,这样是为了平衡各个属性对距离的影响。通常将各个属性均映射到[0,1]区间,映射公式为:
2.3 对excel中基于外观品质项的各个元素做规格化处理,其中,有些元素设计多次测量值,取其平均数。
首先对所需数据第一次标准化,结果如下:
接下来01规格化之后得到:
花色苷mg/100g鲜重 果穗质量/g 百粒质量/g 果皮质量(g) 果皮颜色a 果皮颜色b 果皮颜色l 1.00 0.16 0.11 0.03 0.01 0.34 0.05 0.54 0.02 0.00 0.27 0.00 0.06 0.45 0.38 0.03 0.03 0.30 0.04 0.17 0.34 0.18 0.10 0.32 0.31 0.10 0.22 0.44 0.28 0.62 0.66 0.73 0.02 0.23 0.51 0.10 0.19 0.31 0.40 0.10 0.26 0.27 0.13 0.00 0.30 0.17 0.12 0.22 0.36 0.58 0.20 0.35 0.69 0.01 0.19 0.61 0.58 0.17 0.17 0.12 0.07 0.22 0.00 0.09 0.26 0.43 0.43 0.13 0.08 0.66 0.00 0.16 0.09 0.00 1.00 1.00 0.85 0.06 0.18 0.38 0.61 0.12 0.29 0.55 0.14 0.13 0.21 0.25 0.03 0.00 0.75 0.33 0.20 0.16 0.67 0.05 0.18 0.32 0.11 0.13 0.32 0.48 0.12 0.29 0.34 0.13 0.08 0.05 0.14 0.06 0.23 0.46 0.13 0.52 0.70 0.99 0.05 0.24 0.32 0.08 0.18 0.47 0.25 0.19 0.33 0.34 0.27 0.15 0.30 0.26 0.01 0.01 0.68 0.04 0.33 1.00 0.56 0.11 0.21 0.66 0.20 0.12 0.03 0.03 0.05 0.29 0.28 0.17 0.06 0.07 0.20 0.08 0.28 0.43 0.41 0.29 0.51 0.57 0.06 0.21 0.57 0.34 0.62 0.59 0.63 0.02 0.24 0.43 0.10 0.31 0.65 0.51 0.08 0.12 0.66 0.13 1.00 0.62 0.56 0.04 0.14 0.84 0.07 0.30 0.21 0.42 0.15 0.06 1.00接下来运用SPSS均值聚类进行分析(过程省略) :
我将其分为了五,由以上数据可得,迭代进行了三次,且sig值均小于0.05分类具有显著性。我们将所有的红酿酒葡萄根据外观都进行了分类(1-5)。
优秀论文方法:对最终聚类中心进行加权,例如:对果皮颜色l,分别赋予1,3,9,7,5,依次对七个元素进行加权,之后列相加平均,得到对五类的基于外观的分别加权分数,将分数分别给27种葡萄。相似的,葡萄将出现五种加权分数(27行,5列)再次进行聚类,优秀论文用了黄金分割,即可得到最终结果。
主要借鉴:http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html
全国大学生数学建模优秀论文
- 简单的聚类分析及应用
- 聚类分析应用
- 聚类分析的典型应用和技术
- 《高维数据的聚类分析研究及其应用》读书笔记
- 主成分分析、聚类分析、因子分析的基本思想及优缺点
- ionic的安装及简单的应用
- 虚方法的学习及简单应用
- dwr的介绍及简单应用
- oracle数组的简单介绍及应用
- XML的简单介绍及应用
- oradebug的简单介绍及应用
- CocoaPods 安装 及 简单的应用
- log4net日志的配置及简单应用
- Paint及Canvas的简单应用
- git的安装及简单应用
- LQR 的直观推导及简单应用
- Redis的理解及简单应用
- LQR 的直观推导及简单应用
- Excel中如何制作下拉列表及联动下拉列表
- MySql下最好用的数据库管理工具是哪个?
- 云计算、大数据和AI,如同长江后浪推前浪一般涌现区块链
- 数据链路层
- check第二次不生效问题
- 简单的聚类分析及应用
- maven-addplugin找不到插件
- 【PAT】【Advanced Level】1029. Median (25)
- Error:Execution failed for task ':app:processDebugManifest'.
- Java内存分配策略中的堆与栈
- 关于byte的一道有趣的题目
- C# DataTable 随记
- 怎么在Python里使用UTF-8编码,在python代码里加入汉字报错的解决办法
- 判断2个日期的时间差多少天