数据分析(二)

来源:互联网 发布:查自己淘宝的虚假交易 编辑:程序博客网 时间:2024/06/05 01:15

数据清洗

做完特征分析后,先来看一下train表变成什么样子,再看看还需要做些什么

train.head(10)

这里写图片描述

Cabin因为缺失值太多,暂且不考虑这一个特征。Ticket没看出有多大作用,也忽略掉。Age有一些缺失值,需要补上。还有一些特征已经提取过信息了,像SibSp, Parch已经归纳出IsAlone,就可以删除了。等等还有一些操作,得一步一步来。

首先先填补年龄,
前面说过年龄和称呼应该有很大关系,我们来验证下

fig = plt.figure()ax = fig.add_subplot(111)ax.set_ylabel('Mean')ax.set_xlabel('Title')train.groupby('Title').Age.mean().plot(kind='bar')plt.show()


这是各个称呼的年龄的平均值,再看看标准差

fig = plt.figure()ax = fig.add_subplot(111)ax.set_ylabel('Std')ax.set_xlabel('Title')train.groupby('Title').Age.std().plot(kind='bar')plt.show()

这里写图片描述

看来确实可以用称呼来模拟年龄

title_mapping = {"Mr": 3, "Miss": 2, "Mrs": 4, "Master": 1, "Rare": 5}for dataset in full_data:    dataset['Title'] = dataset['Title'].map(title_mapping)    dataset['Title'] = dataset['Title'].fillna(0)    age_avg = dataset.groupby('Title').Age.mean()    age_std = dataset.groupby('Title').Age.std()    for i in range(1,6):        dataset.loc[(dataset.Age.isnull()) & (dataset.Title == i), 'Age'] = np.random.randint(age_avg[i] - age_std[i],\            age_avg[i] + age_std[i])    dataset['Age'] = dataset['Age'].astype(int)train.head(15)

这里写图片描述

年龄已经补全了,然而我们要做的还有很多很多。接下来还要将年龄转换为类别,我这里就直接将年龄从0到80划分为5个年龄段

train['AgeBand'] = pd.cut(train['Age'], 5)for dataset in full_data:        dataset.loc[ dataset['Age'] <= 16, 'Age'] = 0    dataset.loc[(dataset['Age'] > 16) & (dataset['Age'] <= 32), 'Age'] = 1    dataset.loc[(dataset['Age'] > 32) & (dataset['Age'] <= 48), 'Age'] = 2    dataset.loc[(dataset['Age'] > 48) & (dataset['Age'] <= 64), 'Age'] = 3    dataset.loc[ dataset['Age'] > 64, 'Age'] = 4train.head()

同样,还要将票价特征做同样的处理

train['FareBand'] = pd.qcut(train['Fare'], 4)train[['FareBand', 'Survived']].groupby(['FareBand'], as_index=False).mean().sort_values(by='FareBand', ascending=True)

for dataset in full_data:    dataset.loc[ dataset['Fare'] <= 7.91, 'Fare'] = 0    dataset.loc[(dataset['Fare'] > 7.91) & (dataset['Fare'] <= 14.454), 'Fare'] = 1    dataset.loc[(dataset['Fare'] > 14.454) & (dataset['Fare'] <= 31), 'Fare']   = 2    dataset.loc[ dataset['Fare'] > 31, 'Fare'] = 3    dataset['Fare'] = dataset['Fare'].astype(int)train.head(10)

特征有点多,先删减一点

train = train.drop(['Name',  'Ticket', 'Cabin', 'SibSp', 'FamilySize', 'Parch', 'AgeBand', 'FareBand', 'PassengerId'], axis = 1)train.head(10)

这里写图片描述

再然后就进入到最后的数据编码阶段,我们要对 Pclass, Sex, Embarked, IsAlone 进行一位有效编码,又叫独热编码

for dataset in full_data:    dataset['Embarked'] = dataset['Embarked'].fillna('S') # 忘了补全train = pd.get_dummies(train, columns=["Pclass", "Embarked", "IsAlone", "Sex"])train.head(10)

这里写图片描述

到这里应该差不多了,但是我觉得有一个小缺陷,Title的编号是1到5,我希望1到5的顺序是由年龄的平均值递增的,而我之前并没有注意到,打乱了他们的顺序,代码已经改好了,上传的图片就不改了,差别也不大。最后再上一张正确的图

这里写图片描述

原创粉丝点击