基于糖尿病数据的算法分析研究

来源:互联网 发布:深圳恒扬数据有限公司 编辑:程序博客网 时间:2024/04/27 23:29

针对于数据集做了如下分析:

1.计算各维特征与标签之间的皮尔逊系数

corr=

    0.2219    0.4666    0.0651    0.0748    0.1305    0.2927    0.1738    0.2384


2.已知的皮尔逊系数系数的分类

0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相


3.算法及性能总结(实现工具:matlab):
1.PCA+PSO+SVM      72.21%(10折随机交叉验证,训练集与测试集数据量比:9:1)
2.GA+PSO+SVM       65.06%10折随机交叉验证,训练集与测试集数据量比:9:1)
3.wrap+PSO+SVM     68.18%10折随机交叉验证,训练集与测试集数据量比:9:1)
4.线性判别         76%10折随机交叉验证,训练集与测试集数据量比:9:1)
5.ELM              76%10折随机交叉验证,训练集与测试集数据量比:9:1)
6.filter+PSO+SVM   67.14%10折随机交叉验证,训练集与测试集数据量比:9:1)
7.PCA+KNN          66.49%10折随机交叉验证,训练集与测试集数据量比:9:1)
8.随机森林         79.18%10折随机交叉验证,训练集与测试集数据量比:9:1)
9.LDA+ELM          80.47%10折随机交叉验证,训练集与测试集数据量比:9:1)
10.LDA             75.71%(10折随机交叉验证,训练集与测试集数据量比:9:1)
10.玻尔兹曼机(RBM)深度网络,4层网络,第一层7个神经元,第二个5个神经元。输出层数据变为二维(0,1 或者1,0),前668训练数据,100测试数据。  识别率:80%
11.BP神经网络,前668做训练,后100做训练。识别率最高77%
12.GA优化BP:随机选取,512训练,256做测试。测试准确率:76.56%
13.随机选取600做训练,168做测试,决策树:75.7463%,BP神经网络:82.8358%,LVQ(学习向量量化)神经网络:80.597%

14.前50%训练,后50%测试。adboosting 识别率76%


总结:针对于样本特征与类别标签相关性不强的数据,特征选择以及降维方法均效果不佳。但是集成学习和深度学习均取得了较好的识别效果。比较热门的ELM算法反而效果一般,而且通过理论学习了解可知,其原理相对简单。实现方便。


0 0
原创粉丝点击