Python大数据分析学习.Pandas Basics (1)

来源：互联网发布：首创证券交易软件编辑：程序博客网时间：2024/06/03 08:19

测试环境：win10；Python Version: 3.6；编辑器：Spyder；

1.数据导入

一般分析数据的数据格式主要为csv、txt、excel形式。

另外路径中“\”符号都要换成“\\”或者“/”，因为学过C语言的都知道，“\*" 有很多解释。

path = "D:\\Raw_data\\test\\5Y306.csv"path1 = "D:/Raw_data/test/5Y306.csv"

将csv数据导入时，pd.read_csv("D:/...")无任何参数时，是以第一行为列的名称。

将excel数据导入时，pd.read_excel("D:/...")

将txt数据导入时，np.loadtxt("D:/...", delimeter=",")

代码如下：

import pandas as pddata1 = pd.read_csv(path)#导入并以第一行为列名称data2 = pd.read_csv(path,header = None)#导入并以0.1.2.3.4...为列名称data3 = pd.read_csv(path,names  = ['a','b','c','d','e'])#导入并修改列名称

import pandas as pdimport numpy as npdata3 = np.loadtxt("D:/Work/5Y306.txt",delimiter=',')data5 = pd.DataFrame(data3).astype(np.int64)data4 = pd.read_excel("D:/Work/5Y306.xlsx")

如果导入之后要修改列名称则使用如下两种方式均可。

其中第一种方法需要所有列名称都要赋值，第二种方法可以选择某几列进行更改：

data1.columns = ['a', 'b', 'c', 'd', 'e']#改columns的名字，但必须所有列都需要更改data1.rename(index=str, columns={"A": "a", "C": "c"})#改列名，可选择某几列更改

2.数据提取基本操作

选取某行，按行数选取使用函数iloc()，按行名称选取用函数loc()：

In [142]: data.iloc[1:3]Out[142]:                 a  b      c      d    e2  20161201000029  0  68156  372.4 -8.03  20161201000038  0  68156  372.4 -8.0

或直接：

data = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]],columns = ['A','B','C'])

print(data['A'])0    11    42    7Name: A, dtype: int64

print(data[1:2])   A  B  C1  4  5  6

print(data[(data['A']>1) & ((data['A']<5))])   A  B  C1  4  5  6

另外，如果想要更改数据格式，使用astype()函数

比如float->int，则代码为：data.astype(int)

若想改成int64，则需要导入Numpy模块，代码为：data.astype(np.int)

0928

阅读全文

0 0