learn_pandas

来源：互联网发布：js防水涂料粘接强度编辑：程序博客网时间：2024/06/05 22:41

Jupyter Notebook环境下

zip()函数：

#初始化数据，用zip函数合并names=['Bob','Jessica','Mary','John','Mel']births=[968,155,77,578,973]BabyDataSet=list(zip(names,births))BabyDataSet

得到

[('Bob', 968), ('Jessica', 155), ('Mary', 77), ('John', 578), ('Mel', 973)]

存储/读取CSV文件：

#存df.to_csv('xxx.csv', index=False, header=False)Location = r'./xxx.csv' #读df = pd.read_csv(Location)

index是序号，header是标题

sort_values函数：

只在网上搜到了用sort_values对2列排序问题。引用自http://bbs.csdn.net/topics/392092047

df.sort_values(['high', '日序'], ascending=[False, True])

实现了先按high列降序排列，如遇重复值，再按第二列日期索引进行升序排序

Sorted = df.sort_values(['Births'], ascending=False)Sorted.head(1)

先按Births列进行降序排列，然后找到第1行

df['Names'][df['Births'] == df['Births'].max()]

在 Names 列中挑选出 [Births 列的值等于 973]

random.random()

用于生成指定范围内的随机浮点数

random.random(10,20)#15.534253748253

random.randint():

生成指定范围的随机整数
size参数：size=（3,4）生成的是三个四维数组（http://blog.csdn.net/pipisorry/article/details/39508417）

random.random(10,20)#15.534253748253

seed():

设置相同的seed获得相同的随机数，不设置seed每次得到不同的随机数

import randomrandom.seed(1)print (random.random())random.seed(10)print ( random.random())random.seed(10)print (random.random())0.134364244112401220.57140259468991350.5714025946899135

df.groupby

参考
http://www.w3school.com.cn/sql/sql_groupby.asp
http://blog.csdn.net/leonis_v/article/details/51832916

data_range:

pandas.data_range(star=None,end=None,period=None,freq=' D',tz=None,normalize=False,name=None,closed=None,**kwargs)

各个参数的意义如下（参考自http://blog.csdn.net/shanyicheng1111/article/details/52653013）：

start：string或datetime-like，默认值是None，表示日期的起点。

end：string或datetime-like，默认值是None，表示日期的终点。
periods：integer或None，默认值是None，表示你要从这个函数产生多少个日期索引值；如果是None的话，那么start和end必须不能为None。
freq：string或DateOffset，默认值是’D’，表示以自然日为单位，这个参数用来指定计时单位，比如’5H’表示每隔5个小时计算一次。
tz：string或None，表示时区，例如：’Asia/Hong_Kong’。
normalize：bool，默认值为False，如果为True的话，那么在产生时间索引值之前会先把start和end都转化为当日的午夜0点。
name：str，默认值为None，给返回的时间索引指定一个名字。
closed：string或者None，默认值为None，表示start和end这个区间端点是否包含在区间内，可以有三个值，’left’表示左闭右开区间，’right’表示左开右闭区间，None表示两边都是闭区间。

rng = pd.date_range(start='1/1/2009', end='12/31/2012',freq='W-MON')

创建一个按周计算的日期范围，每周一起始

sort_index():

   c    f   d   aC   3   5   2   6A   9   23  12  34B   12  15  11  0#按frame的行索引进行排序frame.sort_index()    c   f   d   aA   9   23  12  34B   12  15  11  0C   3   5   2   6#按frame的列索引进行排序frame.sort_index(axis=1)   a    c   d   fC   6   3   2   5A   34  9   12  23B   0   12  11  15

参考自http://blog.csdn.net/xu200yang/article/details/70239109

value_counts():

返回一个Series，其索引为唯一值，其值为频率，按计数值降序排列

drop_duplicates():

删除重复元素，只留下一个值

阅读全文

1 0