Python与机器学习之文章研读

来源:互联网 发布:ecshop 2.0数据字典 编辑:程序博客网 时间:2024/06/05 09:28

Python与机器学习之文章研读

今天我们来研读一份文章,这份文章讲述了机器学习的定义、理解以及作用。这能帮助我们理解机器学习,并且对未来学习ML有更清晰的规划和目标。
原文:An Introduction to Machine Learning Theory and Its Applications: A Visual Tutorial with Examples

译文 Translated by Ding

机器学习(ML)即将到来,人们越来越认可ML在广泛领域的关键应用中处着及其重要的位置。例如:数据挖掘、自然语言识别、图像识别、专家系统。在所有这些的领域ML都提供了潜在的方案,并即将成为未来人类文明的支柱。

市场对掌握ML的人才需求及其旺盛,主要原因是ML对人的要求十分苛刻。本教程介绍了最基础的机器学习理论,制定了共同的主题和概念以便容易理解和遵循。

什么是机器学习?

所以到底什么是机器学习?ML实际上代表了很多。它的领域相当庞大且扩张得特别快,正在不停地细分再细分成各种各样的机器学习领域。

然而,这些领域存在共同点。最重要的主题便是以下经常被引用的名言,made by Arthur Samuel in 1959: “[Machine Learning] is the field of study that gives computers the ability to learn without being explicitly programmed.”——机器学习是研究使计算机具有学习的能力而没有被明确编程。

最近,在1997年,米切尔给出了一个被广泛证明有用于工程类型的定义:

计算机程序是从一些任务T和一些绩效指标P中提取经验E,如果其在T上的表现由P度量,则随E而改善。

所以,如果你想让你的程序来预测,例如,在繁忙的十字路口的交通模式(任务T),你可以通过机器学习算法和过去的交通模式数据(经验E)交互,同时如果它成功地学习,那么它将会在未来的交通模式做出更好的预测(性能测量P)。

许多高度复杂的实际问题,发明专门的算法来完美的解决它们显然这是不切实际的。
机器学习问题的例子包括:“这是癌症么?”,“这房子的市场价值是什么?”,“这些人是好朋友么”,“这个火箭起飞时会爆炸么?”,“这个人喜欢这部电影么”,“这是谁”,“你在说什么?”和“你怎么会这样”。所以的这些问题都是ML工程优良目标,事实上,ML的应用已经取得巨大成功。
ML解决哪些不能被唯一性解决的数学问题。

在ML所有的任务类型中,一个关键的区别在于有监督和无监督学习:
- 监督的机器学习:该程序被预设置好的训练样本训练,从而促使当其用于新数据能够达到正确的结论。
- 无监督的机器学习:该程序被提供一系列数据,然后发现之间的模式和关系

我们将主要专注于监督学习,但文章的结尾仍包含一个无监督学习的简单讨论以及一些有趣的链接。

监督型机器学习

在监督学习应用中的绝大部分,最终的目标都是开发精确的预测功能h(x)(有时被称为“假设”)。“学习”包括使用复杂的数学算法使函数优化,给定的输入数据X对某一领域(比如说一定面积的房子),它将会准确地预测一些有趣的值h(x)(比如说房子的市场价格)。

在实践中,x几乎总是代表着多个数据点。所以,比如说,一个住房价格预测可能不仅有平方英尺(x1)同时也有卧室数量(x2),浴室数量(x3),层数(x4),建成年份(x5),邮政编码(x6)等等因素。ML设计一个重要的部分就是决定要使用的输入变量。然而,为了便于解释,我们假设单一变量。

所以,我们有这个最简单的预测:
h(x)=b+ax
b、a都是常数。我们的目标就是找到完美的a和b来尽可能完成我们的预测工作。

优化预测函数h(x)是通过训练测试。每个培训的例子,我们有个输入值x_Train,其对应的输出y也是已知的。对于每一个例子,我们发现已知正确的值y和我们预测的值h(x_train)的区别。有足够的训练例子,这些差异提供一个有用的方法来度量h(x)的”错误“。我们可以通过调整a和b的值来调整h(x)使得“错误”减小。这样,预测获得训练,并准备好做一些实际问题的预测。

上述是原文我认为比较精彩的部分
同时,现在对刚入门的人来说,仅关注监督型机器学习才有可能真正感知到机器世界的美好,否则贪多压力会特别大。

如果您看到这篇文章有收获或者有不同的意见,欢迎点赞或者评论。python:190341254丁。
原创粉丝点击