(机器学习基石)Machine Learning Foundations:Lecture 1

来源:互联网 发布:单片机gsm模块有哪些 编辑:程序博客网 时间:2024/05/16 17:39
The Learning Problem
When Can Machines Learn(1)


前言:看了几个关于机器学习的视频,包括吴恩达、小象学院。总感觉不是我想要的!首先,我对机器学习和深度学习毫无涉及,完全不知道这两个强大的工具可以解决什么问题?!用在什么领域?!
如果你像我一样,不知道这两位“大神”,是“何方神圣”。我推荐你看一下《机器学习基石》!
哔哩哔哩网站:https://www.bilibili.com/video/av12463015/#page=1



1.课程介绍(Course Introduction)

When Can Machines Learn? (illustrative + technical) 
Why Can Machines Learn? (theoretical + illustrative) 
How Can Machines Learn? (technical + practical) 
• How Can Machines LearnBetter? (practical + theoretical)

分别介绍:什么时候,为什么,如何学习机器学习,并且如何让机器学习更好!


2.什么是机器学习(What is Machine Learning)

我们可以先回忆一下什么是学习:
学习可以是人或动物通过摸索和观察获得一定技巧的过程。



图中:人学习的过程:(通过观察→学习→获得技能)
机器学习的过程:(数据或资料→机器学习→获得技能)

这里所指的技能是:improve some performance measure 

机器学习的技能,比如:预测(prediction)、识别(recognition)

例如:根据房价数据信息估计出,新房的价格;从股票的数据中获得收益增多的这种技巧;都是一种机器学习的技能!

这就是为什么需要机器学习,简单来说,就是两大原因:

一些数据或者信息,人来无法获取,可能是一些人无法识别的事物,或是数据信息量特别大;

另一个原因是人的处理满足不了需求,比如:定义很多很多的规则满足物体识别或者其他需求;在短时间内通过大量信息做出判断等等。

上面说的是为什么使用机器学习,那么什么情况下使用机器学习呢?是不是所有的情况都使用机器学习呢?

这里给出了三个ML(机器学习的英文缩写)的关键要素:

1、存在一个模式或者说表现可以让我们对它进行改进提高;

2、规则并不容易那么定义;

3、需要有数据。



3.机器学习的应用(Applications of Machine Learning)

这一小节主要介绍的就是机器学习能用在哪些方面。个人感觉不是理论介绍的重点(不是说应用不重要,刚好相反,其实个人认为机器学习甚至整个计算机学科最重要的还是应用),就简述下机器学习可以应用在在衣食住行育乐,包含了人类生活的方方面面,所以机器学习的应用场景很广泛很有市场。


4.机器学习的组成(Components of Machine Learning)


这一小节是第一章的重点,因为它将机器学习的理论应用符号及数学知识进行表示,而以下各章内容也都是在这小节内容的基础上展开的。

从一个银行是否会发信用卡给用户的例子引出了机器学习可以分为哪几个部分(组件)。

1.输入(input):xX(代表银行所掌握的用户信息)

2.输出(output):yY (是否会发信用卡给用户)

3.未知的函数,即目标函数(target function):f:XY(理想的信用卡发放公式)

4.数据或者叫做资料( data),即训练样本( training examples):D = {(x1,y1), (x2,y2 ), …, (xn,yn )}(银行的历史记录)

5.假设(hypothesis),即前面提到的技能,能够具有更好地表现:g:XY (能够学习到的公式)




从图中可以清楚机器学习就是从我们未知但是却存在的一个规则或者公式f中得到大量的数据或者说资料(训练样本),在这些资料的基础上得到一个近似于未知规则g的过程。

这么说还是有点抽象,特别是目标函数f又是未知的,那为什么还能找到一个假设g能够接近f呢?




这个流程图和图1-2有些不同,其中ML被更详细的定义为机器学习算法(learning algorithm)一般用A表示。还多出来一个新的项目,就是假设空间或者叫做假设集合(hypothesis set)一般用H表示,它是包含各种各样的假设,其中包括好的假设和坏的假设,而这时A的作用就体现了,它可以从H这个集合中挑选出它认为最好的假设作为g。

注:

1、这里还要说明的是机器学习的输入在这个流程图中就变成了两个部分,一个是训练样本集,而另一个就是假设空间H。

2、还有一点需要注意的是,我们所说的机器学习模型在这个流程图中也不仅仅是算法A,而且还包含了假设空间H。

3、要求得g来近似于未知目标函数f。

4、给出了机器学习的一个更准确点的定义,就是通过数据来计算得到一个假设g使它接近未知目标函数。



5.机器学习和其他领域(Machine Learning and Other Fields) 


机器学习与其他各个领域的关系。

 

5.1 ML VS DM (Data Mining)

机器学习与数据挖掘者叫知识发现(KDD Knowledge Discovery in Dataset)。

上一节中已经给出了机器学习的概念,因此只介绍下数据挖掘的概念,就是从大量的数据中找出有用的信息。

从定义出发,我们可以将两者之间的关系分为3种。

  1. 两者是一致的:能够找出的有用信息就是我们要求得的近似目标函数的假设。
  2. 两者是互助的:能够找出的有用信息就能帮助我们找出近似的假设,反之也可行。
  3. 传统的数据挖掘更关注与从大量的数据中的计算问题。

总的来时,两者密不可分。

5.2 M L VS AI (artificial intelligence)

机器学习与人工智能。

人工智能的大概概念就是电脑能够表现出一些智慧行为。

从定义可以得到,机器学习是实现人工智能的一种方式。

5.3 ML VS statistic

机器学习与统计。

统计也需要通过数据,来做一个未知的推论。

因此统计是一种实现机器学习的方法。

传统的统计学习更关注与数学公式,而非计算本身。



阅读全文
0 0