Pandas.Dataframe使用小结

来源:互联网 发布:安卓内存修改器源码 编辑:程序博客网 时间:2024/05/18 00:27

上网查资料后发现做数据挖掘目前比较常用的就是R和Python,之前用过R所以现在想尝试使用Python。


Dataframe是非常好用的数据结构,可以把数据按表格的方式存取,但是在使用的过程中真的遇到很多麻烦。下面是一些使用心得

1. Dataframe的赋值

test_data.ix[~pd.isnull(test_data['col']),'label'] = 1test_data['label'][~pd.isnull(test_data['col'])] = 1

两种都可以赋值,但是下面那种应该是不对的,会有Warning。


在对行进行赋值时,一定要保证index是一样的。

假设有A、B两个Dataframe并且A、B有相同的结构,要把B的一部分赋值给A,那要两个部分有着相同的index才可以正确赋值,否则会有NaN。


1 2 3
4 5 6
7 8 9*10 20 30
40 50 60
70 80 90=10 40 90
160 250 360
490 640 810这样的计算也是可以通过Dataframe来计算的,同样的,两个Dataframe要有相同的Indexer。


总的来说,在Dataframe里面,indexer非常重要,是各种赋值、计算能不能正确进行的关键。

0 0
原创粉丝点击