将nominial类型自变量根据因变量大小排列
来源:互联网 发布:olga软件 编辑:程序博客网 时间:2024/04/29 04:56
在处理kaggle的house prices数据时产生的一个想法。
有一个nominial型的自变量MSSubClass可能会对因变量sale price产生影响。现在如何评估影响的大小。如果直接用数据中给出的MSSubClass的值和sale price的值算correlation会有问题。因为nominial类型变量的值不代表真实的大小,因此当时的想法是将nominial类型各个值对应的sale price计算中位数,然后根据中位数来将nominial变量重新排列,让其值反应sale price的大小,也即是把nominial转成ordinal类型。(注意:这种方法是有问题的,不能使用这种方法转成ordinal类型然后进行回归。因为即使转为ordinal类型后,比如转为1,2,3,4,5…2类并不代表真的是1类的两倍。这里只是记录一下转的方法)。
比如我们已经将数据存入dataframe: raw_data中。
grouped = raw_data.groupby('MSSubClass')tmp = grouped['SalePrice'].median()tmp = tmp.sort_values()
此时tmp中存的就是排序好的值了。需要注意的是tmp是series类型的。
MSSubClass180 8850030 9990045 107500190 12825050 13200090 13598085 14075040 142500160 14600070 15600020 15925075 16350080 166500120 19200060 215200Name: SalePrice, dtype: int64
然后我们可以将tmp中的右侧的数字给替换成0-14的值。再将tmp转成dict类型,方便处理。
tmp = tmp.to_dict()
最后将原始数据中的值替换为tmp的序数。
阅读全文
0 0
- 将nominial类型自变量根据因变量大小排列
- 数值类型转换根据大小排列顺序
- matlab带有自变量(参数)的累加求因变量
- Android 根据item大小实现自动排列的GridLayout
- MFC中picture控件,将bitmap根据控件大小缩放
- 根据FileUpload控件名获取上传文件(大小)类型
- R语言|数据预处理--1分类时:因变量为数值类型
- 【设计分享】perl中根据values数字值大小排列hash
- JavaScript比较将变量变成数字类型比较大小
- 简单的排列大小
- 数字按照大小排列
- 数字排列大小
- 三个整数排列大小
- a,b,c三个数,将它们按值大小排列打印出来
- MYSQL-对varchar类型字段(都是数字)按照整数大小倒序排列
- 类型大小
- 根据随机数猜大小
- 随机数字的大小排列
- Struts2分模块开发
- springboot创建项目问题:Failure to transfer org.codehaus.plexus:plexus-archiver:jar:2.0.1 from
- POJ
- 数据结构键值HashMap之自己编写简单的HashMap
- 【SpringCloud】(五):服务注册到Eureka Server
- 将nominial类型自变量根据因变量大小排列
- 啥是悠易互通
- Brackets sequence UVA
- POJ
- Java学习第二十天
- 解释器模式
- hello world!前端面试回顾
- 密码学----基本概念
- 博文