scikit-learn使用OneHotEncoder处理Nominal属性的机器学习流程(Random Forest算法为例)
来源:互联网 发布:高压气瓶使用 知乎 编辑:程序博客网 时间:2024/06/06 18:11
在工作中进行机器学习的数据一般都包含Nominal属性和Numric属性,在scikit-learn中提供了处理numric方法像Normalization方法等,也提供了处理Nominal的方法(OneHotEncoder方法)。本文将展示OneHotEncoder方法处理Nominal数据,并将数据应用到机器学习的流程。
一、准备数据
本文使用的数据是csv格式的,数据中的属性有Numric型和Nominal型。属性描述如下
@attribute 'birthday' numeric
@attribute 'astrology' {'1','2','3','4','5','6','7','8','9','10','11','12'}
@attribute 'animalsign' {'0','1','2','3','4','5','6','7','8','9','10','11','12'}
@attribute 'height' numeric
@attribute 'degree' {'0','1','2','3','4','5','6','7','8'}
@attribute 'housing' {'0','1','2','3','4'}
@attribute 'marriage' {'0','1','2','3','4'}
@attribute 'income' {'0','1','2','3','4','5','6','7','8','9','10','11','12'}
@attribute 'haveChildren' {'1','2','3','4'}
@attribute 'hasMainPhoto' {'0','1'}
@attribute 'nationality' {'0','1','2','3','4','5','6','7','8','9','10','11','12'}
@attribute 'religion' {'0','1','2','3','4','5','6','7','8','9','10','11','12'}
@attribute 'bodyType' numeric
@attribute 'physicalLooking' numeric
@attribute 'newNature' {'0','1','2','3','4','5','6','7','8'}
@attribute 'industry' {'0','1','2','3','4','5','6','7','8','9','10','11','12','13','14','15','16','17','18','19','20','21','22','23','24','25','26','27','28','29','30'}
@attribute 'newWorkStatus' {'0','1','2','3','4','5','6','7','8','9'}
@attribute 'newCar' {'0','1','2','3','4'}
@attribute 'isCreditedBySfz' {'0','1'}
@attribute 'cregisterTime' numeric
@attribute 'age' numeric
@attribute 'housestatus' {'0','1','2','3','4','5','6','7','8'}
@attribute 'photonum' numeric
@attribute 'msgcnt' numeric
@attribute 'himsgcnt' numeric
@attribute 'huifumsgcnt' numeric
@attribute 'receivemsg' numeric
@attribute 'viewcnt' numeric
@attribute 'beviewcnt' numeric
@attribute 'focuscnt' numeric
@attribute 'befocuscnt' numeric
@attribute 'class' {'0','1'}
数据如下所示,仅仅展示了几条数据
@data
1973,6,2,162,6,1,1,6,11,1,1,8613,1,1,3,8,2,23,0,0,1,113,42,1,3,0,2,0,5,0,27,0,0,1
1979,7,8,172,4,4,2,5,11,1,1,8651,3,6,7,6,7,1,7,0,1,113,36,4,2,0,1,8,20,28,98,0,0,1
1980,3,9,175,6,1,1,7,11,1,1,8637,1,1,7,?,0,24,0,0,0,113,35,1,0,0,0,1,3,1,20,0,1,0
1981,7,10,175,6,4,1,7,11,1,0,8623,1,1,4,8,0,5,0,2,1,113,34,4,0,0,0,0,0,0,0,0,0,0
1977,9,6,165,0,1,4,0,11,1,0,8632,1,1,4,7,7,7,8,0,1,113,38,1,0,0,0,0,9,0,20,0,2,0.
二、将数据读入内存,将训练集特征,训练集目标类,测试集特征,测试集目标类分别提取出来,以本文为例:
三、使用OneHotEncoder将数据中的类别特征进行转化。以本文为例:
categorical_features代表类别属性的索引数值,n_values代表categorical_features中每个属性含有多少个类别。
注意:类别属性尽量处理为从0开始的整数,像(0,1,2,3,4,5),不可取的实例像(17,19,50,100,1000),这与OneHotEncoder处理类别属性采取的方式有关,此处不细讲了。
四、使用OneHotEncoder将训练特征和测试特征进行转化。以本文为例:
注意:此处一定将训练特征和测试特征一起转化,因为转化之后数组的维度将会发生变化,有一个不转化,就会出错。
五、声明一个分类器,设置分类器参数,使用分类器进行训练,预测,评估等。
实验结果如下所示
losing 0.85 0.91 0.88 31138
active 0.84 0.75 0.79 19725
avg / total 0.85 0.85 0.84 50863
- scikit-learn使用OneHotEncoder处理Nominal属性的机器学习流程(Random Forest算法为例)
- scikit-learn使用OneHotEncoder处理Nominal属性的机器学习流程(Random Forest算法为例)
- 使用python的机器学习算法包scikit-learn
- 【scikit-learn】使用scikit机器学习的介绍
- 机器学习算法之随机森林(Random Forest)
- 机器学习算法之随机森林(Random Forest)
- 机器学习-Random Forest算法简介
- 机器学习-Random Forest算法简介
- 机器学习-Random Forest算法简介
- 使用scikit-learn进行机器学习(scikit-learn教程1)
- 【Scikit-Learn 中文文档】使用 scikit-learn 介绍机器学习 |
- 【Scikit-Learn 中文文档】使用 scikit-learn 介绍机器学习
- 【Scikit-Learn 中文文档】使用 scikit-learn 介绍机器学习
- 【Scikit-Learn 中文文档】使用 scikit-learn 介绍机器学习
- 【Scikit-Learn 中文文档】使用 scikit-learn 介绍机器学习
- 【Scikit-Learn 中文文档】使用 scikit-learn 介绍机器学习
- 【Scikit-Learn 中文文档】使用 scikit-learn 介绍机器学习
- 【Scikit-Learn 中文文档】使用 scikit-learn 介绍机器学习
- 点击listview或Xlistview、GridView条目的详情页显示
- revit二次开发之Selection.PickObjects()方法关于选择内容的排序顺序分析
- Git学习文档之二 应用总结-参考
- Linux下安装node通用方法
- 服务定位器
- scikit-learn使用OneHotEncoder处理Nominal属性的机器学习流程(Random Forest算法为例)
- 8.Unity3D商业游戏源码研究-变身吧主公-PanelMgr
- FineReport中如何安装移动端H5插件
- AndroidStudio项目提交到github以及工作中实际运用(详细步骤)
- 子窗口与父窗口之间传值
- 基于TCP的半关闭
- DOM编程事件冒泡详解 附jquery阻止事件冒泡
- SpringMVC 中 .classpath文件有什么用?
- Ioc容器Autofac