基于糖尿病数据的算法分析研究

来源：互联网发布：深圳恒扬数据有限公司编辑：程序博客网时间：2024/04/27 23:29

针对于数据集做了如下分析：

1.计算各维特征与标签之间的皮尔逊系数

corr=

0.2219 0.4666 0.0651 0.0748 0.1305 0.2927 0.1738 0.2384

2.已知的皮尔逊系数系数的分类

0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相

3.算法及性能总结（实现工具：matlab）：
1.PCA+PSO+SVM 72.21%(10折随机交叉验证，训练集与测试集数据量比：9:1)
2.GA+PSO+SVM 65.06%10折随机交叉验证，训练集与测试集数据量比：9:1)
3.wrap+PSO+SVM 68.18%10折随机交叉验证，训练集与测试集数据量比：9:1)
4.线性判别 76%10折随机交叉验证，训练集与测试集数据量比：9:1)
5.ELM 76%10折随机交叉验证，训练集与测试集数据量比：9:1)
6.filter+PSO+SVM 67.14%10折随机交叉验证，训练集与测试集数据量比：9:1)
7.PCA+KNN 66.49%10折随机交叉验证，训练集与测试集数据量比：9:1)
8.随机森林 79.18%10折随机交叉验证，训练集与测试集数据量比：9:1)
9.LDA+ELM 80.47%10折随机交叉验证，训练集与测试集数据量比：9:1)
10.LDA 75.71%(10折随机交叉验证，训练集与测试集数据量比：9:1)
10.玻尔兹曼机（RBM）深度网络，4层网络，第一层7个神经元，第二个5个神经元。输出层数据变为二维（0,1 或者1,0），前668训练数据，100测试数据。识别率：80%
11.BP神经网络，前668做训练，后100做训练。识别率最高77%
12.GA优化BP：随机选取，512训练，256做测试。测试准确率：76.56%
13.随机选取600做训练，168做测试，决策树：75.7463%，BP神经网络：82.8358%，LVQ（学习向量量化）神经网络：80.597%

14.前50%训练，后50%测试。adboosting 识别率76%

总结：针对于样本特征与类别标签相关性不强的数据，特征选择以及降维方法均效果不佳。但是集成学习和深度学习均取得了较好的识别效果。比较热门的ELM算法反而效果一般，而且通过理论学习了解可知，其原理相对简单。实现方便。

0 0