pandas-

来源:互联网 发布:黑客编程入门3 编辑:程序博客网 时间:2024/06/17 03:16

</pre>1.load data</h2><div>如读取:</div><div>xx.txt :23723rows 466columns 每列\t 分开</div><div><img src="http://img.blog.csdn.net/20160803124731677?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="" /></div><div></div><div></div><div><pre name="code" class="python"><pre name="code" class="python">#sep 分节符读取 \t 分界 
import pandas as pddata =  pd.read_csv('xx.txt',sep="\t",header = None)
print data时候
也是23723rows 466columns
<pre name="code" class="python">#sep 分节符读取 没有 分界
import pandas as pddata =  pd.read_csv('xx.txt',sep="",header = None)
print data 时候 
23723rows 1 columns

2.存入文件

#当处理完dataframe,存入文件, 每列用"\t"隔开
df.to_csv('/Users/tangchao/Desktop/snp.txt',sep= "\t",header = None)


3. 格式dataframe

index 是第一列 一般是0,1,2...... columns 第一行 一般可以为它赋一个
>>> df = DataFrame(data,index=['one','two','three','four','five'],               columns=['year','state','pop','debt'])>>> df       year   state  pop debtone    2000   Ohino  1.5  NaNtwo    2001   Ohino  1.7  NaNthree  2002   Ohino  3.6  NaNfour   2001  Nevada  2.4  NaNfive   2002  Nevada  2.9  NaN[5 rows x 4 columns]

4.删除特征列

axis =1 是列,axis =1 是行
还是loda xx.txt 文件 得到dataframe,格式如上。
<pre name="code" class="python">import pandas as pddata =  pd.read_csv('xx.txt',sep="\t",header = None)
data.columns = list1  #list1是一个list,每一个单元是xx.txt的第一行"\t"隔开的字符。list = ["TargetID","Gene_Symbol".....]new_data = data.drop(diff, axis = 1) #diff 也是一个list,每个单元是要删除的字符。diff = ["HG00096","HG00099"]
print data.TargetID[0] 第一行第一列

5。文件行操作

import pandas as pddata =  pd.read_csv('xx.txt',sep="",header = None)
#此时data 23723rows 1 column
data.columns = ["aaa"]
print data.aaa[0]#第一行所有的

6文件的转置

print df.T


7提取文件多少行到多少列

#data是 文件的内容 data从aa.txt读取的
print data.ix[0:2,0:3] #第1-3行,1-4列












0 0