pandas－

来源：互联网发布：黑客编程入门3 编辑：程序博客网时间：2024/06/17 03:16

</pre>1.load data</h2><div>如读取：</div><div>xx.txt :23723rows 466columns 每列\t 分开</div><div><img src="http://img.blog.csdn.net/20160803124731677?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="" /></div><div></div><div></div><div><pre name="code" class="python"><pre name="code" class="python">#sep 分节符读取 \t 分界

import pandas as pddata =  pd.read_csv('xx.txt',sep="\t",header = None)

print data时候

也是23723rows 466columns

<pre name="code" class="python">#sep 分节符读取 没有 分界

import pandas as pddata =  pd.read_csv('xx.txt',sep="",header = None)

print data 时候

23723rows 1 columns

2.存入文件

#当处理完dataframe，存入文件， 每列用"\t"隔开

df.to_csv('/Users/tangchao/Desktop/snp.txt',sep= "\t",header = None)

3. 格式dataframe

index 是第一列一般是0，1，2...... columns 第一行一般可以为它赋一个

>>> df = DataFrame(data,index=['one','two','three','four','five'],               columns=['year','state','pop','debt'])>>> df       year   state  pop debtone    2000   Ohino  1.5  NaNtwo    2001   Ohino  1.7  NaNthree  2002   Ohino  3.6  NaNfour   2001  Nevada  2.4  NaNfive   2002  Nevada  2.9  NaN[5 rows x 4 columns]

4.删除特征列

axis =1 是列，axis ＝1 是行

还是loda xx.txt 文件得到dataframe，格式如上。

<pre name="code" class="python">import pandas as pddata =  pd.read_csv('xx.txt',sep="\t",header = None)

data.columns = list1  #list1是一个list，每一个单元是xx.txt的第一行"\t"隔开的字符。list = ["TargetID","Gene_Symbol".....]new_data = data.drop(diff, axis = 1) #diff 也是一个list，每个单元是要删除的字符。diff = ["HG00096","HG00099"]

print data.TargetID[0] 第一行第一列

5。文件行操作

import pandas as pddata =  pd.read_csv('xx.txt',sep="",header = None)

#此时data 23723rows 1 column

data.columns = ["aaa"]

print data.aaa[0]#第一行所有的

6文件的转置

print df.T

7提取文件多少行到多少列

#data是 文件的内容 data从aa.txt读取的

print data.ix[0:2,0:3] #第1-3行，1-4列

0 0