斯坦福机器学习笔记第1周一、引言（Introduction）

来源：互联网发布：php建站系统编辑：程序博客网时间：2024/05/22 10:55

本文内容参考自中国海洋大学2014级博士生黄海广的机器学习笔记，同时加入了自己的学习和思考。原因是PDF版本的笔记有些冗长，阅读没有记录，故进行整理形成博客。

一、引言

1. 欢迎 ——>参考视频 : 1 - 1 - Welcome (7 min).mkv

第一个视频主要讲了什么是机器学习，机器学习能做什么事情。
机器学习是目前信息技术中最激动人心的方向之一。
你每天都在不知不觉中使用了机器学习的算法。每次你打开谷歌或百度搜索你需要的内容，正式因为他们有良好的学习算法。他们用学习算法来对网页排序，使用图片分类器可以识别图片中的人脸。
Andrew Ng感到激动的原因之一是有一天可以做出一个和人类一样聪明的机器，实现这个想法任重道远。
为什么机器学习如此受欢迎呢？原因是机器学习不只是用于人工智能领域，还可用于其他领域。我们创造智能的机器，有很多基础知识。比如，我们可以让机器找到A到B之间的最短距离，但我们仍然不知道怎么让机器做更有趣的事情，如web搜索，照片标记，反垃圾邮件。我们发现，唯一方法是让机器自己学习怎么来解决问题。所以，机器学习已经成为计算机的一个能力。
机器学习涉及的问题非常广泛。机器人，计算生物学等等。数据库挖掘，手写识别，自然语言处理，计算机视觉等等。

2. 机器学习是什么？ ——>参考视频 : 1 - 2 - What is Machine Learning_ (7 min).mkv

我们尝试着进行定义，同时让你懂得何时会使用机器学习。实际上，即使是在机器学习的专业人士中，也不存在一个被广泛认可的定义来准确定义机器学习是什么或不是什么。
第一个机器学习定义，20世纪50年代，Arthur Samuel。机器学习是在进行特定编程的情况下，给予计算机学习能力的领域。他编写了一个西洋棋程序，年代，他编写了一个西洋棋程序。这神奇之处在于，编程者自己并不是个下棋高手。但因为他太菜了，通过编程让西洋棋程序自己跟自己下了上万盘棋。通过观察那种布局会赢，哪种会输，久而久之，西洋棋程序明白了什么样是好的布局，什么样是坏的布局，程序通过学习后水平超过了Samuel。尽管编写者自己是个菜鸟，但因为计算机有着足够的耐心去下上万盘的棋，通过这些练习计算机获得了无比丰富的经验，于是渐渐成为了比Samuel更厉害的棋手。
上述是一个有点不正式的定义，也比较古老。年代近一点的定义，卡耐基梅隆大学，Tom Mitchell。他定义机器学习是，一个程序被认为能从经验E中学习，解决任务T，达到性能度量值P，当且晋档，有了经验E后，经过P评判，程序在处理T时的性能有所提升。 根据下棋案例，我认为经验 E 就是程序上万次的自我练习获得的经验而任务 T 就是下棋，性能度量值 P 就是他在与一些新的对手比赛是，赢得比赛的概率。
本课中，我希望教你有关各种不同类型的学习算法。目前存在几种不同类型的学习算法，主要的两种类型被我们成为监督学习和无监督学习。监督学习是指我们教计算机如何去完成任务，在无监督学习中，我们打算让它自己进行学习。接下来的视频我会具体来介绍。PS. 如果你听到强化学习和推荐系统，不要担心，这些都是机器学习的一员。

3. 监督学习 ——>参考视频：1 - 3 - Supervised Learning (12 min).mkv

这段视频中，我要定义最常见的一种机器学习问题，那就是监督学习。我们用一个例子介绍什么是监督学习，正式定义放在后面介绍。假如说你想预测房价。

例1：一个学生收集了一些房价的数据。把这些数据画出来，横轴代表房子的面积（单位：平方英尺），纵轴表示房价（单位：千美元）。

机器学习监督学习房价图片

那么基于这组数据，假如你有一个朋友，他有一套750平方英尺的房子，现在他希望吧房子卖掉，他想知道房子可以卖多少钱。关于这个问题，机器学习算法将会怎么帮助你呢？

答：我们应用学习算法在这组数据中画一条直线，或者说拟合一条直线，根据这条直线我们可以推测出，这套房子可能会卖￥150 000。当然这不是唯一的算法，可能还有更好的，我们不用直线而是用二次方程曲线去拟合，从而可以推测出，这套房子能卖接近$200 000。稍后我们讨论，如何决定用直线还是二次方程。以上就是监督学习的例子。

可以看出，监督学习指的是给学习算法一个数据集，这个数据集包含“正确答案”。在房价的例子中，房子面积是数据集，房价是“正确答案”。根据数据集中每个样本的价格（正确答案），预测其他房子的价格。用术语来说，这叫做回归问题。我们试着推测出一系列连续值的结果，房子的价格会记到美分，是连续的

再举另外一个监督学习的列子。

例2：假设你想通过病历来推测乳腺癌良性与否，恶性肿瘤有害并且十分危险，而良性的肿瘤危害就没那么大，所以人们显然会很在意这个问题。

机器学习监督学习肿瘤

让我们来看一组数据：这个数据集中，横轴表示肿瘤的大小，纵轴上用1和0来表示是火不是恶性肿瘤，如果是恶性则记为1，不是恶性则记为0。用术语来讲，这是一个分类问题。我们试着推测出乳腺肿瘤是恶性（1）还是良性（0），这个值是离散的，所以是分类问题

现在来回顾一下，监督学习的基本思想是，数据集中的每个样本都有相应的“正确答案”。再根据这些样本进行预测，就像预测房价和肿瘤类型一样。预测的结果为连续值，记为回归问题；预测的结果为离散值，记为分类问题。

4. 无监督学习 ——>参考视频 : 1 - 4 - Unsupervised Learning (14 min).mkv

在无监督学习中，我们已知的数据看上去有点不同于监督学习中的数据的样子。即无监督学习中的数据集没有任何的标签（类比于监督学习中的“正确答案”）。已知数据集，不知道如何处理，也不知道每个数据点是什么，就是一个数据集。针对数据集，无监督学习可以判断出数据集有几个不同的类别。

监督学习和无监督学习

无监督学习算法可能会把这些数据分成两个不同的“簇”，所以叫做聚类算法。

聚类算法的一个例子就是在谷歌新闻中。谷歌新闻每天都在手机网络上的新闻，并对这写新闻进行分组，相同类别的新闻聚类到一起。事实证明，聚类算法和无监督学习算法同样还用在很多其他的主题上，如基因学的理解应用，组织大型计算机集群等等。

我们介绍了无监督学习，它是学习策略，交给学习算法大量的数据，并让算法从数据中找出某种结构。垃圾邮件问题，如果你有标记好的数据，区别好是垃圾还是非垃圾邮件，我们把这个当作监督学习问题。新闻事件分类的例子，用聚类算法来把同一类文章聚类到一起，这个是无监督学习问题。

以上是第1周引言的全部内容。

阅读全文

0 0