[Kaggle] Titanic: Machine Learning from Disaster入门版练习笔记
来源:互联网 发布:软件ac管理控制器 编辑:程序博客网 时间:2024/06/05 06:05
Titanic: Machine Learning from Disaster入门版练习笔记
该练习笔记记录了一个python入门者开始打kaggle的历程,包括以下几个方面:
- 读取数据
- 处理数据
- 分析数据间相关性
- 使用不同算法进行预测
- 结果分析
一、分析命题
——也就是所谓的读题。
Titanic航行期间,撞上一座冰山后沉没,船上乘客和机组人员共2224名,其中1502人遇难。由于船上救生艇数量有限,大部分乘客在沉船之后没能获救,不幸丧生。幸存下来的人,可能是因为运气,当然也可能有其他因素,比如性别、阶层等等。这个挑战中,我们的目标就是预测什么样的人更有可能生存下来。
在Data中有三个csv文件:
- train.csv:训练数据,由目标函数已知的记录组成,用来训练算法的数据集
- test.csv:检验数据,由目标函数未知的记录组成,用来验证算法准确性的数据集
- gender_submission.csv
二、处理数据
1、用pandas.read_csv()读取csv文件
import pandas as pdTrainData = pd.read_csv("~/train.csv")TestData = pd.read_csv("~/test.csv")
2、观察训练数据的类型
(1)取csv文件中每列数据的表头,了解每列数据代表什么:
print(TrainData.columns.values)
[‘PassengerId’ ‘Survived’ ‘Pclass’ ‘Name’ ‘Sex’ ‘Age’ ‘SibSp’ ‘Parch’
‘Ticket’ ‘Fare’ ‘Cabin’ ‘Embarked’]
(2)预览部分的训练数据,了解数据基本特征:
print(TrainData.head())#print(TrainData.tail())
训练数据一共有11列,其中Survived是需要预测的一列,称为目标函数。其余10列为属性集,描述了每条数据10个维度的特征。
- 目标函数:Survived,0/1(二分类)
属性集:
标称属性(例如,ID号、邮政编码、颜色、性别),虽然是数字,但是不具有数的性质,该类属只能用来区分对象。数据集中有以下几个标称属性: PassengerId、Name、Sex、Embark
序数属性(例如,矿石硬度、成绩、街道号),该类属性可以给对象排序。数据集中有以下几个序数属性:
Pclass、Ticket(猜测Ticket号可能会和票价、乘客级别等挂勾,Ticket号有可能会对目标函数预测作出贡献)比率属性(例如,绝对温度、货币量、年龄、长度),该类属性的差和比率都是有意义的。数据集中有以下几个比率属性:
Age、SibSp、Parch、Fare区间属性(例如,日历日期、摄氏温度),该类属性的差是有意义的,即存在测量单位。数据集中没有区间属性。
(3)分析训练数据中的缺失项:
TrainData.info()
从上面我们可以看出,Age、Cabin、Embarked、Fare几个特征存在缺失值。
后续对缺失值的特性进行分析,根据其对目标函数的贡献度来决定对缺失值的处理方式。如果缺失值对目标函数基本没有影响,则可以直接用平均值、无意义的数值等填充,甚至直接舍弃;如果缺失值对目标函数有一定的影响,则需要首先预测缺失值的可能数值,进行有意义的填充。
(4)逐个分析:
【1】P16
——未完待续——
快捷键
- 加粗
Ctrl + B
- 斜体
Ctrl + I
- 引用
Ctrl + Q
- 插入链接
Ctrl + L
- 插入代码
Ctrl + K
- 插入图片
Ctrl + G
- 提升标题
Ctrl + H
- 有序列表
Ctrl + O
- 无序列表
Ctrl + U
- 横线
Ctrl + R
- 撤销
Ctrl + Z
- 重做
Ctrl + Y
Markdown及扩展
Markdown 是一种轻量级标记语言,它允许人们使用易读易写的纯文本格式编写文档,然后转换成格式丰富的HTML页面。 —— [ 维基百科 ]
使用简单的符号标识不同的标题,将某些文字标记为粗体或者斜体,创建一个链接等,详细语法参考帮助?。
本编辑器支持 Markdown Extra , 扩展了很多好用的功能。具体请参考Github.
表格
Markdown Extra 表格语法:
可以使用冒号来定义对齐方式:
定义列表
- Markdown Extra 定义列表语法:
- 项目1
- 项目2
- 定义 A
- 定义 B
- 项目3
- 定义 C
定义 D
定义D内容
代码块
代码块语法遵循标准markdown代码,例如:
@requires_authorizationdef somefunc(param1='', param2=0): '''A docstring''' if param1 > param2: # interesting print 'Greater' return (param2 - param1 + 1) or Noneclass SomeClass: pass>>> message = '''interpreter... prompt'''
脚注
生成一个脚注1.
目录
用 [TOC]
来生成目录:
- Titanic Machine Learning from Disaster入门版练习笔记
- 一分析命题
- 二处理数据
- 1用pandasread_csv读取csv文件
- 2观察训练数据的类型
- 快捷键
- Markdown及扩展
- 表格
- 定义列表
- 代码块
- 脚注
- 目录
- 数学公式
- UML 图
- 离线写博客
- 浏览器兼容
数学公式
使用MathJax渲染LaTex 数学公式,详见math.stackexchange.com.
- 行内公式,数学公式为:
Γ(n)=(n−1)!∀n∈ℕ 。 - 块级公式:
更多LaTex语法请参考 这儿.
UML 图:
可以渲染序列图:
或者流程图:
- 关于 序列图 语法,参考 这儿,
- 关于 流程图 语法,参考 这儿.
离线写博客
即使用户在没有网络的情况下,也可以通过本编辑器离线写博客(直接在曾经使用过的浏览器中输入write.blog.csdn.net/mdeditor即可。Markdown编辑器使用浏览器离线存储将内容保存在本地。
用户写博客的过程中,内容实时保存在浏览器缓存中,在用户关闭浏览器或者其它异常情况下,内容不会丢失。用户再次打开浏览器时,会显示上次用户正在编辑的没有发表的内容。
博客发表后,本地缓存将被删除。
用户可以选择 把正在写的博客保存到服务器草稿箱,即使换浏览器或者清除缓存,内容也不会丢失。
注意:虽然浏览器存储大部分时候都比较可靠,但为了您的数据安全,在联网后,请务必及时发表或者保存到服务器草稿箱。
浏览器兼容
- 目前,本编辑器对Chrome浏览器支持最为完整。建议大家使用较新版本的Chrome。
- IE9以下不支持
- IE9,10,11存在以下问题
- 不支持离线功能
- IE9不支持文件导入导出
- IE10不支持拖拽文件导入
- 这里是 脚注 的 内容. ↩
- [Kaggle] Titanic: Machine Learning from Disaster入门版练习笔记
- 【Kaggle练习赛】之Titanic: Machine Learning from Disaster
- kaggle入门竞赛--Titanic:Machine Learning from Disaster
- Kaggle Titanic: Machine Learning from Disaster
- Kaggle | Titanic: Machine Learning from Disaster
- Kaggle之Titanic: Machine Learning from Disaster
- kaggle: Titanic: Machine Learning from Disaster
- 机器学习一小步:Kaggle上的练习Titanic: Machine Learning from Disaster(一)
- 机器学习一小步:Kaggle上的练习Titanic: Machine Learning from Disaster(二)
- kaggle competition 之 Titanic: Machine Learning from Disaster
- Titanic: Machine Learning from Disaster(Kaggle 数据挖掘竞赛)
- Kaggle Titanic: Machine Learning from Disaster 一种思路
- Kaggle比赛经验总结之Titanic: Machine Learning from Disaster
- Kaggle比赛之Titanic Machine Learning from Disaster
- kaggle竞赛——Titanic:Machine Learning from Disaster
- kaggle Code : Titanic: Machine Learning from Disaster 分类
- 【机器学习】Kaggle-Titanic:Machine Learning from Disaster
- Titanic: Machine Learning from Disaster
- RocketMQ原理解析-producer 2.如何发送消息
- 使用canvas绘制风景时钟
- 【运维】浅识监控
- 解决跨域问题的8种方案(最新最全)
- Starting Tomcat v7.0 Server at localhost' has encountered a problem
- [Kaggle] Titanic: Machine Learning from Disaster入门版练习笔记
- [Mysql]——事务的4种隔离级别
- 【Leetcode】 1.two sum unordered_map 关联容器
- 微信小程序----侧滑菜单(Popup---左侧滑动,右侧不动)
- Java主函数
- apache 自带的ab.exe测试
- 【Codeforces776G】Sherlock and the Encrypted Data
- spark分布式集群环境搭建(hadoop之上)
- AOP详解,转载