最流行的4个机器学习数据集
来源:互联网 发布:js div切换滑动门效果 编辑:程序博客网 时间:2024/06/01 10:16
最流行的4个机器学习数据集
机器学习算法需要作用于数据,而数据的本质则决定了应用的机器学习算法是否合适,而数据的质量也会决定算法表现的好坏程度。所以会研究数据,会分析数据很重要。本文作为学习研究数据系列博文的开篇,列举了4个最流行的机器学习数据集。
Iris
Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。通过花萼长度,花萼宽度,花瓣长度,花瓣宽度4个属性预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
多变量
150
生活
实数
属性数目:4
捐赠日期1988-07-01
相关应用:分类
缺失值?无
网站点击数:563347
Adult
该数据从美国1994年人口普查数据库抽取而来,可以用来预测居民收入是否超过50K$/year。该数据集类变量为年收入是否超过50k$,属性变量包含年龄,工种,学历,职业,人种等重要信息,值得一提的是,14个属性变量中有7个类别型变量。
多变量
48842
社会
类别型,整数
属性数目:14
捐赠日期1996-05-01
相关应用:分类
缺失值?有
网站点击数:393977
Wine
这份数据集包含来自3种不同起源的葡萄酒的共178条记录。13个属性是葡萄酒的13种化学成分。通过化学分析可以来推断葡萄酒的起源。值得一提的是所有属性变量都是连续变量。
多变量
178
物理
整数,实数
属性数目:13
捐赠日期1991-07-01
相关应用:分类
缺失值?无
网站点击数:337319
Car Evaluation
这是一个关于汽车测评的数据集,类别变量为汽车的测评,(unacc,ACC,good,vgood)分别代表(不可接受,可接受,好,非常好),而6个属性变量分别为「买入价」,「维护费」,「车门数」,「可容纳人数」,「后备箱大小」,「安全性」。值得一提的是6个属性变量全部是有序类别变量,比如「可容纳人数」值可为「2,4,more」,「安全性」值可为「low, med, high」。
多变量
1728
N/A
类别型
属性数目:6
捐赠日期1997-06-01
相关应用:分类
缺失值?无
网站点击数:272901
小结
通过比较以上4个数据集的差异,简单地总结:当需要试验较大量的数据时,我们可以想到「Adult」;当想研究变量之间的相关性时,我们可以选择变量值只为整数或实数的「Iris」和「Wine」;当想研究logistic回归时,我们可以选择类变量值只有两种的「Adult」;当想研究类别变量转换时,我们可以选择属性变量为有序类别的「Car Evaluation」。更多的尝试还需要对这些数据集了解更多才行。
以上数据集下载地址:http://archive.ics.uci.edu/ml/
- 最流行的4个机器学习数据集
- 最流行的4个机器学习数据集
- 最流行的4个机器学习数据集
- 最流行的4个机器学习数据集
- 最流行的4个机器学习数据集
- 2017年度盘点:15个最流行的GitHub机器学习项目
- videolectures上最流行的100机器学习视频
- videolectures上最流行的100机器学习视频
- Github上10个最流行的数据可视化项目
- 4个最流行的Linux平台开源代码编辑器
- 28款GitHub最流行的开源机器学习项目
- 28款GitHub最流行的开源机器学习项目
- 28款GitHub最流行的开源机器学习项目
- 28款GitHub最流行的开源机器学习项目
- 28款GitHub最流行的开源机器学习项目
- 28款GitHub最流行的开源机器学习项目
- 100个最流行的管理词汇
- 最流行的drupal 模块( 84 个)
- 区分IE8/IE7/IE6及其他浏览器-CSS “\9″hack
- Android EventBus 的简单使用
- 再谈STM32的CAN过滤器-bxCAN的过滤器的4种工作模式以及使用方法总结
- Jar包详解和META-INF作用
- css3 background-size:cover IE8不支持 解决办法
- 最流行的4个机器学习数据集
- Mybatis使用总结:
- 谈一谈单片机开发的几种调试方案
- 京东2017实习生笔试编程题-终结者C
- S2-045漏洞之简单分析+实战
- Java面试准备五:Java中的访问修饰符、修饰符
- kubernetes中的RBAC
- 很不错的正则表达式前端使用手册
- C Datastructure 1 ---- linear list