机器学习实用教程(译)-1

来源:互联网 发布:ik hr人力资源软件 编辑:程序博客网 时间:2024/06/06 01:14

声明:本教程根据原课程内容重新编写,如有需要,请查看原课程链接。
原课程链接:7-Day ML Crash Course - EliteDataScience

1.机器学习概述

1.1 机器学习简介

机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。
机器学习在没有传统人工编程的情况下教会计算机自动优化程序。
机器学习不仅包括算法的选择,还是一个解决实际问题的流程。
例子:

一个小孩看见蜡烛的红色、明亮的光,就去摸蜡烛的火,结果被烧到了,很痛,于是他学习到:碰到红色、明亮的东西会很痛。这就是一种模式的学习。
第二次,他看见煤气炉上面的火,也很好奇,想去摸,但是他想起了之前学习到的模式:碰到红色、明亮的东西会很痛,于是他就没有再去碰煤气炉上的火。

这里,小孩从经验中自己学习到模式,在以后的生活中减少犯错就是机器学习所需要做的事情,区别于父母直接告诉孩子“不要碰煤气炉上的火”的教育(类似于传统的编程)。

1.2 专业术语

模型(Model)从数据中学习到的一系列模式。
算法(Algorithm)用来训练模型的一个特定的机器学习过程。
训练数据集(Training data)算法训练模型使用的数据集。
测试数据集(Test data)用来评估模型可靠性的数据集。
特征(Features)在数据集中用来训练模型的变量(字段)。
目标变量(Target variable)需要预测的变量。
样本(Observations)数据集中的一行。

1.3 机器学习的算法(按照解决问题分类)

往往需要尝试多种算法,才能找到最适合一个数据集的算法。
监督学习:所有样本都要标注标签字段,作为“标准答案”。回归(regression)模型用于处理连续性变量的问题,分类(classification)模型用于处理分类变量的问题。

非监督学习:算法直接从数据中学习模式(pattern),样本没有标签字段作为标准答案,聚类(clustering)模型是最普遍的一种非监督学习模型,用于将数据分组。

1.4 机器学习三要素

好厨师(人的引导)
新鲜食材(干净、相关的数据)
适度的时间(防止过拟合)

1.5 机器学习蓝图

机器学习的5个核心步骤
1)探索性分析(Exploratory Analysis):快速了解数据。
2)数据清洗(Data Cleaning):清洗数据能够避开常见的机器学习陷阱,好的数据胜过新奇的算法。
3)特征设计(Feature Engineering):通过创造新的特征,使你的算法更高效。
4)算法选择(Algorithm Selection):选择合适的算法。
5)训练模型(Model Training):最后,训练模型,如果做好了前四个步骤的话,这个步骤就是按部就班的事情了。

有时候也会需要一些其他步骤:
1)项目调研(Project Scoping):预期项目阶段和所需要的数据。
2)数据整理(Data Wrangling):将数据调整成算法可以识别的格式。
3)预处理(Preprocessing):转化特征可以进一步提高效率。
4)整体调整(Ensembling):将多个模型组合起来,可以得到更好的效果。

1.6 课后习题

1.What are the 5 core steps of the machine learning workflow?
2.When the curious child learned that “red and bright means pain,” what did he learn?
(A) An algorithm.
(B) A pattern.
(C) A model.
(D) Both (B) and (C).
(E) None of the above.
3.In the example of the curious child, what was the training data? What was the test data?
4.In your own words, describe the 3 essential elements of great machine learning.