像Excel一样使用Python进行数据分析 Dataframe
来源:互联网 发布:js 创建json数组 编辑:程序博客网 时间:2024/06/06 08:54
转载地址:
http://www.cnblogs.com/zoe233/p/7026229.html
1 导入数据表
import pandas as pd
df = pd.Dataframe(pd.read_excel("name.xlsx"))
2 数据查看
df.shape 查看维度
df.dtypes 查看类型
df.info()
df.describe()
df.isnull() 空值的返回true 否则false
df["city"].unique() 返回唯一值
df.values 数值数组
df.columns 列名称
df.index 索引
df.head() 前几行数据
df.tail() 末尾几行数据
3数据清洗
a 处理空值
df.dropna() Dropna函数用来删除数据表中包含空值的数据
df.fillna()对空值进行填充
b 清理空格
df["city"].str.strip() 字符串,删除首尾空格
c 大小写转换 lower() upper()
df["city"] = df["city"].str.lower()
d 更改数据格式
df["price"].astype("int")
e 更改列名称
df.rename(columns = {"city":"newcity"})
f 删除重复值
df["city"].drop_duplicates()
g 替换
df["city"].replace("sh","shanghai")
4数据预处理
a 数据表合并
pd.merge(df , df1 , how = , on = )
b 设置索引列
df.set_index("id")
c 排序
按索引排序 df.sort_index()
按列值排序 df.sort_values(by = ["age"])
d 数组分组
df["group"] = np.where(df["price"] > 300 , "high","low")
df["sign"]=np.where((df.price > 300) & (df.city == "beijing") , 1 , np.nan) 等价于
df.loc[(df.price > 300) & (df.city == "beijing"),"sign2"] = 1
e 数据分列
splits = pd.Dataframe(x.split("-") for x in df.category, index = df.index , columns = ["category1","size"])
df = pd.merge(df , splits, right_index = True , left_index = True)
5 数据提取
a 按标签或位置提取
df.loc[] loc函数按数据表的索引标签进行提取
df.iloc[] 按位置
df.ix[] 按标签和位置
b 按条件提取
df.loc[df.city isin(["shanghai"])]
c 提取部分字符
df.city.str[:3]
6数据筛选
a 采用loc函数 和条件
>, == ,>= , != , & , | ,
df.loc[(df.price >= 300) | (df.city == "beijing")]
b 配合sum() , count() , sort_values()等函数
df.loc[(df.price >= 300) | (df.city == "beijing"), ].sort_values(by = 'age')
df.loc[(df.price >= 300) | (df.city == "beijing"), ].sort_values(by = 'age').price.sum()
c 使用query()函数
df.query('city == ["beijing","shanghai"]').price.sum()
d 分类汇总 groupby函数 , 并制定分组后的汇总方式,常见的是计数,求和,最大值,最小值,均值
df.groupby("city").count() 对所有列进行计数汇总
df.groupby("city")["id"].count() 对特定的id列进行计数汇总
df.groupby(["city","size"])["id"].count() 对两个字段进行计数汇总
df.groupby("city")["price"].agg([len , np.sum , np.mean]) 对汇总结果进行多维度的计算
e 数据透视 pivot_table
7 数据统计
a 数据采样
df.sample(n = 3)
b 描述统计
df.describe().round(2).T
c 标准差
df.price.std()
d 协方差
df.price.cov(df.age) 两个字段的协方差
df.cov() 各列间的协方差
e 相关系数
df.price.corr(df.age)
df.corr() 各字段间的相关性
- 像Excel一样使用Python进行数据分析 Dataframe
- 像Excel一样使用Python(一)
- 像Excel一样使用Python(二)
- 利用python进行数据分析之dataframe的常见操作
- 【利用Python进行数据分析——经验篇4】将多张DataFrame表写入到同一个Excel的不同sheet中
- 使用python进行数据分析
- 使用Python进行数据分析
- 像Excel一样复制DataGridView中的单元格区域数据 DataGridView 使用
- 利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍
- 利用Python进行数据分析(7) pandas基础: Series和DataFrame的简单介绍
- 利用Python进行数据分析(8) pandas基础: Series和DataFrame的基本操作
- ###好好好### 【Python实战】Pandas:让你像写SQL一样做数据分析 ######
- 【Python实战】Pandas:让你像写SQL一样做数据分析(一)
- 『 Spark 』7. 使用 Spark DataFrame 进行大数据分析
- 『 Spark 』7. 使用 Spark DataFrame 进行大数据分析
- Python使用pandas扩展库DataFrame对象的pivot方法对数据进行透视转换
- Python 使用 dict 创建二维数据、DataFrame
- Python数据分析---EXCEL进阶使用
- 《Android中高级工程师面试指南 — 网络协议和网络框架面试讲解 — OKHttp》
- mongodb实现删除collection中指定数据条目
- java中的对象和java中的类--01
- thinkphp3.0增加setInc、setDec方法
- LightOJ 1284 Lights inside 3D Grid
- 像Excel一样使用Python进行数据分析 Dataframe
- apt-get指令的autoclean,clean,autoremove的区别
- java中Integer和int的区别
- c语言里怎么把float转换为char型?
- 解决viewPager fragment有时候内容重叠的问题的方法
- 关于wireshark抓包的那点事儿
- 栈逆序
- spring官网,下载springMVC所需要的jar包例子
- 测试通用测试用例