Python大数据分析学习.Pandas Basics (1)

来源:互联网 发布:首创证券交易软件 编辑:程序博客网 时间:2024/06/03 08:19

测试环境:win10;Python Version: 3.6;编辑器:Spyder;

1.数据导入

一般分析数据的数据格式主要为csv、txt、excel形式。

另外路径中“\”符号都要换成“\\”或者“/”,因为学过C语言的都知道,“\*" 有很多解释。

path = "D:\\Raw_data\\test\\5Y306.csv"path1 = "D:/Raw_data/test/5Y306.csv"

将csv数据导入时,pd.read_csv("D:/...")无任何参数时,是以第一行为列的名称。
将excel数据导入时,pd.read_excel("D:/...")
将txt数据导入时,np.loadtxt("D:/...", delimeter=",")

代码如下:

import pandas as pddata1 = pd.read_csv(path)#导入并以第一行为列名称data2 = pd.read_csv(path,header = None)#导入并以0.1.2.3.4...为列名称data3 = pd.read_csv(path,names  = ['a','b','c','d','e'])#导入并修改列名称

import pandas as pdimport numpy as npdata3 = np.loadtxt("D:/Work/5Y306.txt",delimiter=',')data5 = pd.DataFrame(data3).astype(np.int64)data4 = pd.read_excel("D:/Work/5Y306.xlsx")


如果导入之后要修改列名称则使用如下两种方式均可。

其中第一种方法需要所有列名称都要赋值,第二种方法可以选择某几列进行更改:

data1.columns = ['a', 'b', 'c', 'd', 'e']#改columns的名字,但必须所有列都需要更改data1.rename(index=str, columns={"A": "a", "C": "c"})#改列名,可选择某几列更改

2.数据提取基本操作

选取某行,按行数选取使用函数iloc(),按行名称选取用函数loc():
In [142]: data.iloc[1:3]Out[142]:                 a  b      c      d    e2  20161201000029  0  68156  372.4 -8.03  20161201000038  0  68156  372.4 -8.0

或直接:
data = pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]],columns = ['A','B','C'])
print(data['A'])0    11    42    7Name: A, dtype: int64
print(data[1:2])   A  B  C1  4  5  6
print(data[(data['A']>1) & ((data['A']<5))])   A  B  C1  4  5  6
另外,如果想要更改数据格式,使用astype()函数

比如float->int,则代码为:data.astype(int)

若想改成int64,则需要导入Numpy模块,代码为:data.astype(np.int)


0928




原创粉丝点击