利用pandas对数据进行基本清洗

来源:互联网 发布:matlab数组的转置 编辑:程序博客网 时间:2024/04/30 06:40

首先贴上两个介绍python中pandas库的链接pandas简单数据处理、十分钟搞定pandas(英文版)以及网友的简单翻译十分钟搞定pandas(中)

这些内容在初学python处理大数据十分有效。

这次的内容是在给定的数据集对数据作一个简单的z-score的标准化处理,数据集可以自行弄一个怎么样的数据集都行。
我的数据集存放在./bug/下名称分别为1..34.txt。

以下是处理代码

import pandas as pddef main():    for k in range(1,35):        filename = "bug/"+str(k)+".csv"        csvfile = file(filename,'rb')        data = pd.read_csv(csvfile)        cols = list(data.iloc[:,1:21].columns)        for col in cols:            col_zscore = col + "_zscore"            data[col_zscore] = (data[col]-data[col].mean())/data[col].std(ddof=0)        print data       if __name__ == "__main__":    main()
0 0
原创粉丝点击