数据处理笔记(一)
来源:互联网 发布:建站平台系统源码 编辑:程序博客网 时间:2024/06/05 16:28
一 处理缺失值的几种方法:
1. 提交的kaggle代码转换成所要求的形式。
my_submission = pd.DataFrame({‘Id’:test.Id,’SalePrice’:predicted_prices})
my_submission.to_csv(‘submission.csv’,index = False)
1. 缺失值处理的几种方法 1. 直接把有缺失值的那一列去掉 2. 利用Imputation 来填充 3. 利用Pipeline 来填充(Pipelines simplify model building, model validation and model2. 数据质量检查 1. train_df.isnull().any().any(): 检查每一列是否有空的值。 2. missingno 包:检查缺失值,一目了然。1. zip(*function()): 有一个 * 行变为列。
二特征二值化编码:
1.
scikit-learn: OneHot Encoder(),LabelEncoder(), LabelBinarizer(), MultiLabelBinarizer()pandas: get_dummies()
OneHotEncoder():
处理数值类型变量,输入为二维数组(重要),可用_feature_indices_
方法进行查看多个变量时,每个变量所占的列。- 处理字符型类型变量:方法一 先用
LabelEncoder()
转换成连续的数值型变量,再用OneHotEncoder()
二值化
方法二 直接用LabelBinarizer()
进行二值化LabelBinarizer() , LabelEncoder()
输入被限定为一维的。为了处理多维的可用MultiLabelBinarizer()
。 pandas
的get_dummies
可处理多维的数值型的跟字符型的。
优势:
1)本身就是 pandas 的模块,所以对 DataFrame 类型兼容很好
2)不管你列是数值型还是字符串型,都可以进行二值化编码
3)能够根据指令,自动生成二值化编码后的变量名
劣势:
1)但毕竟不是 sklearn 里的transformer类型,所以得到的结果得手动输入到 sklearn 里的相应模块,也无法像 sklearn 的transformer一样可以输入到pipeline中 进行流程化地机器学习过程。
2)get_dummies 不像 sklearn 的 transformer一样,有 transform方法,所以一旦测试集中出现了训练集未曾出现过的特征取值,简单地对测试集、训练集都用 get_dummies 方法将导致数据错误
阅读全文
0 0
- 数据处理笔记(一)
- 数据处理笔记一
- Python数据处理笔记——matplotlib篇(一)
- Python数据处理笔记——numpy篇(一)
- 数据处理(一)
- 激光数据处理(一)
- 数据处理阶段(一)
- pandas数据处理(一)
- 数据处理工具用户手册(一)
- tensorflow 图像数据处理(一)
- R笔记(简单数据处理)
- 渣蜀黍 - iOS 个人笔记(一)_数据处理
- 海量数据处理专题(一、二、三)
- 大数据处理之hadoop(一)
- 登陆界面的数据处理(一)
- 开源大数据处理引擎汇总(一)
- Storm实时大数据处理(一)
- 开源大数据处理引擎汇总(一)kosmosfs
- 微信公众号开发--微信昵称中含有emoji字符串处理
- 关于EL表达式中的那些常用且琐碎易忘的知识点
- js 运算的字符串 判断运算是否合法
- 神经网络
- stl学习—set
- 数据处理笔记(一)
- 利用Python的Psutil模块获取系统的信息
- C#的数据结构
- 虚拟机使用
- Android 主动获取电量的方法
- Docker学习
- android 实现textview 解析html 全部 ,中文,部分加粗
- C语言——Linux程序设计实验:文件输入输出
- 机器学习的动机与应用