数据分析随记
来源:互联网 发布:赵丽颖野心知乎 编辑:程序博客网 时间:2024/04/28 14:10
1、简略查看数据信息,查看A和B的相关系数
import pandas as pdtrain = pd.read_csv('')print train.info()#查看简略信息print train[A].corr(train[B])#查看A和B的相关系数2、统计各个值得出现频率
print train[A].value_counts()
3、缺失值替换
df.loc[ (df.SaleType.isnull()), 'SaleType' ] = 9
4、查看统计缺失值
NAs = pd.concat([train.isnull().sum(), test.isnull().sum()], axis=1, keys=['Train', 'Test'])NAs[NAs.sum(axis=1) > 0]
5,取出频率出现前5特特征取值
fea_top5=train['positionID'].value_counts().nlargest(5).index.tolist()
6,对dataframe某一列进行排序
df.sort(columns='c')
0 0
- 数据分析随记
- 数据挖掘随记
- 数据采集严重丢失数据随记
- 随记
- 随记
- 随记
- 随记
- 随记
- 随记
- 随记
- 随记
- 随记
- 随记
- 随记
- 随记
- 随记
- 随记
- 随记
- dwz IE兼容问题之图片回显与下拉滚动条消失
- leetcode134. Gas Station
- 好玩的editText
- 设计模式——工厂模式
- Unity中的Path对应各平台中的Path
- 数据分析随记
- One-by-one to solve the Sequence Problem (1)
- WDTabbarController
- 二叉排序树的操作
- poj 1050
- Python基本语法笔记
- 浅析Java中的final关键字
- BoxLayout边框布局
- 跳转动画