pandas的问题总结

来源:互联网 发布:淘宝开店 保证金 编辑:程序博客网 时间:2024/05/18 17:39

1、pandas读取文件时,read_table("txt",names=['','','']) names后面的是索引

2、pandas去除空白行 

删除表中全部为NaN的行
df.dropna(axis=0,how='all')  


3、pandas添加一列
只要df['x'] = y 添加一个索引就行
4、numpy查找最多值

count = np.bincount(everyfont)   #将出现次数最多的字体认为是正文common_value = np.argmax(count)
5、numpy合并
np.append
6、标准化数据
sklearn.processing.MinmaxScare

7、pandas的onehot表示

keyword = pd.get_dummies(df['f1'])
8、如何替换numpy数组中的值
keyword_array[x] = np.array(['100']*9)
9、pandas统计某一列重复值
先转换为series,然后series.value_counts()会列出每一个值出现的次数


原创粉丝点击