来自数据库的大数据预处理Python机器学习篇（一）

来源：互联网发布：电脑服务网络怎么办编辑：程序博客网时间：2024/06/17 03:01

1）利用pandas构建dataframe

dict_data = {'评论日期': jd_rq, '评论时间': jd_sj, '评论信息': jd_xx, '购买信息': jd_gxx, '评论星级': jd_xj, '用户等级': jd_dj, '用户名字': jd_mz}table1 = pd.DataFrame(dict_data)

2）利用describe()查看特征统计情况

train=table1# print(train.head(3))print(train.describe())# print(train.columns)# print(train.values[0])

3）将str类型转换为机器学习算法可以处理的int或float类型

'''处理用户等级'''print(train['用户等级'].unique())#获取用户等级类别个数train.loc[train['用户等级']=='铜牌会员','用户等级']=0train.loc[train['用户等级']=='银牌会员','用户等级']=1train.loc[train['用户等级']=='金牌会员','用户等级']=2train.loc[train['用户等级']=='钻石会员','用户等级']=3train.loc[train['用户等级']=='PLUS会员[试用]','用户等级']=4train.loc[train['用户等级']=='PLUS会员','用户等级']=5

接着用print打印一下train['用户等级']

好了，今天折磨一下午的预处理算是OK。

之前把dataframe写到CSV，再用pandas去读..绕一圈还发生keyerror

阅读全文

0 0