[Kaggle] Titanic: Machine Learning from Disaster入门版练习笔记

来源：互联网发布：软件ac管理控制器编辑：程序博客网时间：2024/06/05 06:05

Titanic: Machine Learning from Disaster入门版练习笔记

该练习笔记记录了一个python入门者开始打kaggle的历程，包括以下几个方面：

读取数据
处理数据
分析数据间相关性
使用不同算法进行预测
结果分析

一、分析命题

——也就是所谓的读题。

Titanic航行期间，撞上一座冰山后沉没，船上乘客和机组人员共2224名，其中1502人遇难。由于船上救生艇数量有限，大部分乘客在沉船之后没能获救，不幸丧生。幸存下来的人，可能是因为运气，当然也可能有其他因素，比如性别、阶层等等。这个挑战中，我们的目标就是预测什么样的人更有可能生存下来。

在Data中有三个csv文件：

train.csv：训练数据，由目标函数已知的记录组成，用来训练算法的数据集
test.csv：检验数据，由目标函数未知的记录组成，用来验证算法准确性的数据集
gender_submission.csv

二、处理数据

1、用pandas.read_csv()读取csv文件

import pandas as pdTrainData = pd.read_csv("～/train.csv")TestData = pd.read_csv("～/test.csv")

2、观察训练数据的类型

（1）取csv文件中每列数据的表头，了解每列数据代表什么：

print(TrainData.columns.values)

[‘PassengerId’ ‘Survived’ ‘Pclass’ ‘Name’ ‘Sex’ ‘Age’ ‘SibSp’ ‘Parch’
‘Ticket’ ‘Fare’ ‘Cabin’ ‘Embarked’]

（2）预览部分的训练数据，了解数据基本特征：

print(TrainData.head())#print(TrainData.tail())

训练数据的前五行

训练数据一共有11列，其中Survived是需要预测的一列，称为目标函数。其余10列为属性集，描述了每条数据10个维度的特征。

目标函数：Survived，0/1（二分类）
属性集：
- 标称属性（例如，ID号、邮政编码、颜色、性别），虽然是数字，但是不具有数的性质，该类属只能用来区分对象。数据集中有以下几个标称属性： PassengerId、Name、Sex、Embark
- 序数属性（例如，矿石硬度、成绩、街道号），该类属性可以给对象排序。数据集中有以下几个序数属性：
  Pclass、Ticket（猜测Ticket号可能会和票价、乘客级别等挂勾，Ticket号有可能会对目标函数预测作出贡献）
- 比率属性（例如，绝对温度、货币量、年龄、长度），该类属性的差和比率都是有意义的。数据集中有以下几个比率属性：
  Age、SibSp、Parch、Fare
- 区间属性（例如，日历日期、摄氏温度），该类属性的差是有意义的，即存在测量单位。数据集中没有区间属性。

（3）分析训练数据中的缺失项：

TrainData.info()

训练数据的描述性信息

从上面我们可以看出，Age、Cabin、Embarked、Fare几个特征存在缺失值。
后续对缺失值的特性进行分析，根据其对目标函数的贡献度来决定对缺失值的处理方式。如果缺失值对目标函数基本没有影响，则可以直接用平均值、无意义的数值等填充，甚至直接舍弃；如果缺失值对目标函数有一定的影响，则需要首先预测缺失值的可能数值，进行有意义的填充。

（4）逐个分析：

【1】P16

——未完待续——

快捷键

加粗 Ctrl + B
斜体 Ctrl + I
引用 Ctrl + Q
插入链接 Ctrl + L
插入代码 Ctrl + K
插入图片 Ctrl + G
提升标题 Ctrl + H
有序列表 Ctrl + O
无序列表 Ctrl + U
横线 Ctrl + R
撤销 Ctrl + Z
重做 Ctrl + Y

Markdown及扩展

Markdown 是一种轻量级标记语言，它允许人们使用易读易写的纯文本格式编写文档，然后转换成格式丰富的HTML页面。 —— [ 维基百科 ]

使用简单的符号标识不同的标题，将某些文字标记为粗体或者斜体，创建一个链接等，详细语法参考帮助？。

本编辑器支持 Markdown Extra , 　扩展了很多好用的功能。具体请参考Github.

表格

Markdown　Extra　表格语法：

项目价格 Computer $1600 Phone $12 Pipe $1

可以使用冒号来定义对齐方式：

项目价格数量 Computer 1600 元 5 Phone 12 元 12 Pipe 1 元 234

定义列表

Markdown　Extra　定义列表语法：
项目１
项目２: 定义 A; 定义 B
项目３: 定义 C; 定义 D

定义D内容

代码块

代码块语法遵循标准markdown代码，例如：

@requires_authorizationdef somefunc(param1='', param2=0):    '''A docstring'''    if param1 > param2: # interesting        print 'Greater'    return (param2 - param1 + 1) or Noneclass SomeClass:    pass>>> message = '''interpreter... prompt'''

脚注

生成一个脚注1.

Titanic Machine Learning from Disaster入门版练习笔记
- 一分析命题
- 二处理数据
  - 1用pandasread_csv读取csv文件
  - 2观察训练数据的类型
- 快捷键
- Markdown及扩展
  - 表格
  - 定义列表
  - 代码块
  - 脚注
  - 目录
  - 数学公式
  - UML 图
- 离线写博客
- 浏览器兼容

数学公式

使用MathJax渲染LaTex 数学公式，详见math.stackexchange.com.

行内公式，数学公式为：Γ(n)=(n−1)!∀n∈ℕ。
块级公式：

x = - b \pm b 2 - 4 a c ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ ‾ \sqrt 2 a

更多LaTex语法请参考这儿.

UML 图:

可以渲染序列图：

或者流程图：

关于 序列图 语法，参考这儿,
关于 流程图 语法，参考这儿.

离线写博客

即使用户在没有网络的情况下，也可以通过本编辑器离线写博客（直接在曾经使用过的浏览器中输入write.blog.csdn.net/mdeditor即可。Markdown编辑器使用浏览器离线存储将内容保存在本地。

用户写博客的过程中，内容实时保存在浏览器缓存中，在用户关闭浏览器或者其它异常情况下，内容不会丢失。用户再次打开浏览器时，会显示上次用户正在编辑的没有发表的内容。

博客发表后，本地缓存将被删除。　

用户可以选择把正在写的博客保存到服务器草稿箱，即使换浏览器或者清除缓存，内容也不会丢失。

注意：虽然浏览器存储大部分时候都比较可靠，但为了您的数据安全，在联网后，请务必及时发表或者保存到服务器草稿箱。

浏览器兼容

目前，本编辑器对Chrome浏览器支持最为完整。建议大家使用较新版本的Chrome。
IE９以下不支持
IE９，１０，１１存在以下问题
1. 不支持离线功能
2. IE9不支持文件导入导出
3. IE10不支持拖拽文件导入

这里是脚注的内容. ↩

阅读全文

0 0