机器学习入门(一)

来源:互联网 发布:社会各阶层分析 知乎 编辑:程序博客网 时间:2024/05/18 03:16

1.前言

1.1 什么是机器学习

目前并没有机器学习的统一定义,但从应用的角度说,机器学习可以归结为以下几点:
1.许多识别技术,如人脸识别、智能推荐、自然语言处理等,都是以机器学习理论为基础的;
2.从工程角度看,机器学习可以归结为几个经典的算法,许多具体的应用都是从这些算法中演化发展而来的。

1,2 如何学习“机器学习”

我个人觉得,如果是学生,应该先从理论(或者说数学)的角度去理解相关的知识,然后再写点程序实践一下;如果是程序员,反倒应该先盯住一个具体的算法弄明白,有个感性的认识,然后再去把理论补上。总之,这是个因人而异的事情。

2.“概念学习”理论

2.1 什么是“概念”

机器学习理论有一个分支叫“概念学习”。这里的“概念”实际是指一种分类标准。比如,从动物中找出鸟类,那么我们就要对什么动物是鸟类有一个标准,这个标准就是“概念学习”中“概念”的意思。

2.2 什么是“概念学习”

所谓“概念学习”就是根据一些已知的例子,让计算机自己去总结”概念”。下面举一个例子来说明”概念学习”的含义。
比如,有人问了这样一个问题:“这件衣服小明会喜欢吗?”。
首先,一件衣服摆在小明的面前,小明一定会做出“喜欢”或者“不喜欢”的选择。这说明在小明的心中对一件衣服是有一个“概念”的,符合这个“概念”的,就“喜欢”;反之,就“不喜欢”。“概念学习”就是要通过小明过去对各种不同衣服的态度,总结出小明心中的“概念”。
如下是小明过去对衣服的态度的统计数据:

序号 衣服是白色的 衣服是长袖的 小明的态度 1 是 否 喜欢 2 否 是 不喜欢 3 否 否 不喜欢

这个例子简单到没有任何意义,你可以一眼看出小明喜欢白色的衣服。但是如何让计算机通过这些数据发现“小明喜欢白色的衣服”这个概念呢?这可以使用概念学习的算法解决。

2.3 “概念学习”算法

我知道的“概念学习”算法有FINDS-S算法, 列表消除算法,候选消除算法,大家可以自行查阅这些算法是什么,这些算法很简单,很好理解,需要注意的是对“归纳偏置”这个概念的理解。
正因为这些算法简单,好理解,所以在实际中也没有用处。但这是一个很好的入门知识,可以让人明白,机器学习是怎么一回事。

3.决策树

3.1 简介

决策树学习已经被广泛应用,包括贷款申请的风险评估、医疗诊断等领域。
“决策树学习”与“概念学习”类似,也是一种分类学习,计算机会根据历史的数据,学习到一个“概念”,并将这个“概念”组织为树的结构,树的每一个根节点是历史数据的一个属性,叶子节点是结论。比如上文中小明的例子,计算机会学习到这样一个树:
这里写图片描述
这样,如果问计算机“一件红色的长袖衣服小明是否喜欢”的时候,计算机就会遍历这课树,然后告诉你“不喜欢”的结论。

3.2“决策树学习”适合解决的问题类型及优势

决策树适合解决一下类型的问题:
1.数据是由“属性-值”这种离散的形式进行表现的;
2.“属性”和“值”的取值范围都是离散的;
当然,有些决策树算法,可以处理连续的情况。
决策树还具有一下优势:
1.可以容许历史数据中有一些“错误数据”,这些数据可以利用一些算法加以修正。
2.能够在一定程度上学习“属性”不全的数据。

3.3“决策树学习”的算法和问题

决策树学习的经典算法是ID3算法,还有其改进型算法C4.5(算法的具体描述就不提了,网上很多)。
决策树学习也有一些问题,比如过度拟合问题,当然可以使用”后修剪”算法去控制过度拟合,但过度拟合也是存在的。
决策树学习也是一种“有归纳偏置”的学习算法。如果你已经弄明白了ID3算法,你会发现决策树的生成,依赖于一个函数,这个函数决定了“当前状态下,那个属性适合做根节点”,ID3算法使用了“信息增益”作为这个函数。当然,也可选择别的函数,函数的表达形式不同,最终的决策树的形式也就不同,所以,决策树的能力取决于这个函数的表达形式。

4 人工神经网络

4.1 简介

人工神经网络是模拟生物神经网络开发的一种算法。人工神经网络由多层的感知器(或者成为神经元)组成,感知器彼此间相互连接,形成一个网络。通过大量的数据训练,不断修正网络中每一个感知器的输入权值,最终整个网络便可以形成一个对数据分类的函数。

4.2 人工神经网络的特点

  1. 网络的输入需要用“属性-值”对形式进行描述;
  2. 网络的输入可以是连续的,也可以是离散的;
  3. 人工神经网络对数据中的噪声(或者说错误)有较强的耐受性,健壮性号;
  4. 人工神经网络的训练周期比较长;
  5. 最终形成的人工神经网络,可能无法翻译成人类比较容易理解的形式(换句话说,就是你觉得它整体上好用就行了,不要去探究为什么网络内部这个权值是8,那个权值是5之类的问题);

4.3 感知器(神经元)

未完待续

0 0
原创粉丝点击