adult数据集的转换

来源:互联网 发布:中国软件国际百度 编辑:程序博客网 时间:2024/06/05 11:20

本文主要介绍python对adult数据集的中的字符串转化为数值类型的数据,并保存为csv文件。
首先UCI 数据集的下载地址:http://www.ics.uci.edu/~mlearn/MLRepository.html
Step1:首先要导入一些必要的包
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from collections import defaultdict
step2:数据处理
df = pd.read_csv('adult.csv') //读取csv文件
print  df.shape      //可以查看该数据的大小
X = df.drop('dataClass', axis=1) //提取标签
y = df.dataClass    //原本数据集里面的属性为class ,但是python报错 所以改成了dataClass  就不报错了  可能class与某些东西冲突了吧。
Step3:将非数值列转换为数值列
d = defaultdict(LabelEncoder)
X_trans = X.apply(lambda x: d[x.name].fit_transform(x))
X_trans.head()
step4:保存为csv文件
经过上面的函数转换后得到的数据X_trans的格式是pandas.DataFrame格式的,所以这里进行另存为需要一个函数就可以。
X_trans.to_csv(’adultData.csv’,encoding=’utf-8’,inde=’False’)
此时已将数据保存为adultData.csv