来自数据库的大数据预处理Python机器学习篇(一)

来源:互联网 发布:电脑服务网络怎么办 编辑:程序博客网 时间:2024/06/17 03:01

1)利用pandas构建dataframe

dict_data = {'评论日期': jd_rq, '评论时间': jd_sj, '评论信息': jd_xx, '购买信息': jd_gxx, '评论星级': jd_xj, '用户等级': jd_dj, '用户名字': jd_mz}table1 = pd.DataFrame(dict_data)

2)利用describe()查看特征统计情况

train=table1# print(train.head(3))print(train.describe())# print(train.columns)# print(train.values[0])


3)将str类型转换为机器学习算法可以处理的int或float类型

'''处理用户等级'''print(train['用户等级'].unique())#获取用户等级类别个数train.loc[train['用户等级']=='铜牌会员','用户等级']=0train.loc[train['用户等级']=='银牌会员','用户等级']=1train.loc[train['用户等级']=='金牌会员','用户等级']=2train.loc[train['用户等级']=='钻石会员','用户等级']=3train.loc[train['用户等级']=='PLUS会员[试用]','用户等级']=4train.loc[train['用户等级']=='PLUS会员','用户等级']=5
接着用print打印一下train['用户等级']


好了,今天折磨一下午的预处理算是OK。

之前把dataframe写到CSV,再用pandas去读..绕一圈还发生keyerror





阅读全文
0 0