pandas常用功能整理
来源:互联网 发布:fanuc数控系统编程实例 编辑:程序博客网 时间:2024/06/01 15:37
1.读写
读指定格式txt:
train = pd.read_table('/home/hadoop/jzzz/train/subsidy_train.txt',sep=',',header=-1) #助学金
train.columns = ['id','money']
读写csv:college.to_csv('/home/hadoop/jzzz/input/college1.csv',index=True)
college = pd.read_csv('/home/hadoop/jzzz/input/college1.csv')
college.columns = ['college','num']
2.对某列同一值的相应计算:
取最大值:college = pd.DataFrame(score_train_test.groupby(['college'])['score'].max()) #对college相同的项的score值取最大项
计算出现次数:college = pd.DataFrame(score_train_test['college'].value_counts())
统计每个学生的总消费次数:card = pd.DataFrame(card_train_test.groupby(['id'])['consume'].count())
均值:~.mean()
3.合并表格:score_train_test = pd.merge(score_train_test, college, how='left',on='college') #合并score_train_test和college,左外链接,用于链接的列索引为college
接在后面:card_train_test = pd.concat([card_train,card_test])
4.提取满足条件的对应元素:train_shitang=card_train.loc[card_train.how == '食堂']
提取某列值:ids = test['id'].values
提取某项非空的值:train = train_test[train_test['money'].notnull()] 空值:~.isnull()
置NaN为-1:train = train.fillna(-1)
5.predictors = [x for x in train.columns if x not in [target]] #对于训练列中的每一个x,如果x不在target里,将所有的x生成一个新表predictors
6.去重:train_shitang = train_shitang.drop_duplicates()
7.python中range循环的用法 for i in range():
3种:
1: range(10),等于[0,1,2,3,4,5,6,7,8,9]
2: range(1,9),等于[1,2,3,4,5,6,7,8]
3: range(1,9,2),等于[1,3,5,7]
- pandas常用功能整理
- Pandas常用功能
- Mac常用功能整理
- grep常用功能整理
- 常用编程功能整理
- MySQL常用功能整理
- 学习笔记三、pandas包中常用方法整理
- Myeclipse工具常用功能整理
- pandas小记:pandas高级功能
- pandas.read_csv参数整理
- pandas.read_csv参数整理
- pandas.read_csv参数整理
- pandas.read_csv参数整理
- pandas.read_csv参数整理
- Pandas 与数据整理
- pandas.read_csv参数整理
- pandas学习整理(一)
- 总结整理JS各常用功能
- linux mysql 乱码
- 一名大三学生的2016
- C++ reinterpret_cast
- Android学习笔记5--创建一个数据库
- Android 任务和进程
- pandas常用功能整理
- weblogic10.3.6控制台登录密码忘记如何重置
- android uiautomator计算时间差的方法
- 记录:realm和高德地图同时使用时的错误
- 构建平衡二叉树
- LDA主题模型原理解析与python实现
- input子系统-设备驱动程序-键盘
- odoo中打印页码
- 基于多尺度深度网络的单幅图像深度估计-NIPS 2014