基于糖尿病数据的算法分析研究
来源:互联网 发布:深圳恒扬数据有限公司 编辑:程序博客网 时间:2024/04/27 23:29
针对于数据集做了如下分析:
1.计算各维特征与标签之间的皮尔逊系数corr=
0.2219 0.4666 0.0651 0.0748 0.1305 0.2927 0.1738 0.2384
2.已知的皮尔逊系数系数的分类
0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相
3.算法及性能总结(实现工具:matlab):
1.PCA+PSO+SVM 72.21%(10折随机交叉验证,训练集与测试集数据量比:9:1)
2.GA+PSO+SVM 65.06%10折随机交叉验证,训练集与测试集数据量比:9:1)
3.wrap+PSO+SVM 68.18%10折随机交叉验证,训练集与测试集数据量比:9:1)
4.线性判别 76%10折随机交叉验证,训练集与测试集数据量比:9:1)
5.ELM 76%10折随机交叉验证,训练集与测试集数据量比:9:1)
6.filter+PSO+SVM 67.14%10折随机交叉验证,训练集与测试集数据量比:9:1)
7.PCA+KNN 66.49%10折随机交叉验证,训练集与测试集数据量比:9:1)
8.随机森林 79.18%10折随机交叉验证,训练集与测试集数据量比:9:1)
9.LDA+ELM 80.47%10折随机交叉验证,训练集与测试集数据量比:9:1)
10.LDA 75.71%(10折随机交叉验证,训练集与测试集数据量比:9:1)
10.玻尔兹曼机(RBM)深度网络,4层网络,第一层7个神经元,第二个5个神经元。输出层数据变为二维(0,1 或者1,0),前668训练数据,100测试数据。 识别率:80%
11.BP神经网络,前668做训练,后100做训练。识别率最高77%
12.GA优化BP:随机选取,512训练,256做测试。测试准确率:76.56%
13.随机选取600做训练,168做测试,决策树:75.7463%,BP神经网络:82.8358%,LVQ(学习向量量化)神经网络:80.597%
14.前50%训练,后50%测试。adboosting 识别率76%
总结:针对于样本特征与类别标签相关性不强的数据,特征选择以及降维方法均效果不佳。但是集成学习和深度学习均取得了较好的识别效果。比较热门的ELM算法反而效果一般,而且通过理论学习了解可知,其原理相对简单。实现方便。
0 0
- 基于糖尿病数据的算法分析研究
- 基于MATLAB的实时数据采集与分析研究
- 基于IEEE 754的浮点数存储格式分析研究
- 基于深度学习的互联网文本情感分析研究
- 几种常见的排序算法的分析研究
- “云”概念的分析研究
- Spring的ContextLoderListener分析研究
- 聂文涛谈糖尿病并发症的成因
- 糖尿病治疗的中西差别
- 糖尿病的治疗效果分析
- 对糖尿病数据进行PCA降维
- 基于统计方法的汉语依存句法分析研究--马金山博士(哈尔滨工业大学)
- Power Manager的分析研究(wakelock)
- 基于数据关联算法的多目标跟踪
- 基于二乘法的数据预测算法
- 用户行为分析研究之数据采集
- 微博签到数据可视化分析研究
- 糖尿病的饮食疗法(常见问题)2010.3.6
- NandFlash和NorFlash的异同
- iOS 消除警告
- XML
- hjr学习-通信原理(六):信道
- WAS的SystemOut.log中报错“ADMS0015E”
- 基于糖尿病数据的算法分析研究
- HDU 4909 / BC 3C String
- CodeForces 518A Vitaly and Strings
- 图算法—Problem M
- 如何在eclipse安装windowbuilder插件
- Codeforces Round #355 (Div. 2)C. Vanya and Label
- 在宇宙间不易被风吹散 —— 柯伊伯带
- 第一天学习mybaits
- Java WeakReference的理解与使用