机器学习入门

来源：互联网发布：食堂订餐软件编辑：程序博客网时间：2024/06/05 18:36

机器学习的定义

机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法得技能。

——Langley

机器学习是对能通过经验自动改进的计算机算法得研究。

——Tom Mitchell

机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。

——Alpaydin

严格来说，机器学习是一门研究机器获取新知识和新技能，并识别现有知识的学问。这里说的“机器”，指的是计算机：电子计算机、中子计算机、光子计算机或神经计算机等等。

机器学习的分类：

监督学习：通过已经有的训练样本去训练得到一个最优模型，利用最优模型将所有输入映射为输出，对于输出进行判断实现分类，对未知数据进行分类。
无监督学习：没有训练样本，直接对数据进行建模。

举个例子来说明监督学习和无监督学习的差别。

在生活中，从小我们家里人会和我们描述这个世界，我们所见到的东西就是输入数据，而大人所判断的就是相应的输出。当我们见多了，在自己大脑里就会形成一个泛化的模型，眼睛看到的东西（输入数据），这时候不需要大人在旁边告诉我们，我们也能通过大脑里的已有认知对东西进行判断，知道这是什么。这就是监督学习。

而无监督学习呢，我们去参加画展，我们并没有接受过系统的学习，画家的派别和风格，但是画欣赏多了以后，我们脑子里自然而然会将画进行分类。（如这幅画比较朦胧，那副画比较写实。即使我们并不知道什么是朦胧派什么是写实派。）无监督学习里最典型的例子就是聚类了。一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。

那么如何判断何时使用监督学习，何时使用无监督学习呢？

我们可以从定义出发，如果在分类的过程当中，有训练样本则采用监督学习，否则采用无监督学习。

0 0