机器学习(周志华)西瓜数据集3.0

来源:互联网 发布:2016年济南市酒驾数据 编辑:程序博客网 时间:2024/04/28 00:29

说明:来自周志华《机器学习》p84表4.3的书中习题常用数据集,点击这里进行下载。数据如下:

编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜  1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0.46,是  2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,0.774,0.376,是  3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,0.634,0.264,是  4,青绿,蜷缩,沉闷,清晰,凹陷,硬滑,0.608,0.318,是  5,浅白,蜷缩,浊响,清晰,凹陷,硬滑,0.556,0.215,是  6,青绿,稍蜷,浊响,清晰,稍凹,软粘,0.403,0.237,是  7,乌黑,稍蜷,浊响,稍糊,稍凹,软粘,0.481,0.149,是  8,乌黑,稍蜷,浊响,清晰,稍凹,硬滑,0.437,0.211,是  9,乌黑,稍蜷,沉闷,稍糊,稍凹,硬滑,0.666,0.091,否  10,青绿,硬挺,清脆,清晰,平坦,软粘,0.243,0.267,否  11,浅白,硬挺,清脆,模糊,平坦,硬滑,0.245,0.057,否  12,浅白,蜷缩,浊响,模糊,平坦,软粘,0.343,0.099,否  13,青绿,稍蜷,浊响,稍糊,凹陷,硬滑,0.639,0.161,否  14,浅白,稍蜷,沉闷,稍糊,凹陷,硬滑,0.657,0.198,否  15,乌黑,稍蜷,浊响,清晰,稍凹,软粘,0.36,0.37,否  16,浅白,蜷缩,浊响,模糊,平坦,硬滑,0.593,0.042,否  17,青绿,蜷缩,沉闷,稍糊,稍凹,硬滑,0.719,0.103,否

有时中文处理麻烦,我将数据替换成了英文,点击这里进行下载。要是不想处理string类型的数据,也可以将前6个离散属性替换成数字,label替换成1和0。我已经替换好了,在这里:

No. color   root    knock   pattern umbilicus   touch   density suger   label1   1   1   1   1   1   1   0.697   0.46    12   2   1   2   1   1   1   0.774   0.376   13   2   1   1   1   1   1   0.634   0.264   14   1   1   2   1   1   1   0.608   0.318   15   3   1   1   1   1   1   0.556   0.215   16   1   2   1   1   2   2   0.403   0.237   17   2   2   1   2   2   2   0.481   0.149   18   2   2   1   1   2   1   0.437   0.211   19   2   2   2   2   2   1   0.666   0.091   010  1   3   3   1   3   2   0.243   0.267   011  3   3   3   3   3   1   0.245   0.057   012  3   1   1   3   3   2   0.343   0.099   013  1   2   1   2   1   1   0.639   0.161   014  3   2   2   2   1   1   0.657   0.198   015  2   2   1   1   2   2   0.36    0.37    016  3   1   1   3   3   1   0.593   0.042   017  1   1   2   2   2   1   0.719   0.103   0

其中数字含义如下:

属性 色泽 根蒂 敲声 纹理 脐部 触感 1 青绿 蜷缩 浊响 清晰 凹陷 硬滑 2 乌黑 稍蜷 沉闷 稍糊 稍凹 软粘 3 浅白 硬挺 清脆 模糊 平坦 /
1 0
原创粉丝点击