【机器学习理论】第1部分机器学习基础

来源：互联网发布：centos cuda8安装编辑：程序博客网时间：2024/06/02 03:08

对于机器学习算法也使用了一段时间，现在进行一个系统的学习和总结，也给自己补缺补差，回头来看，发现对于机器学习的理解更加的清晰，更加有条理，在整体的思路上的把握也更加的完善，所以建议对于机器学习的学习一定要多实践，多回头查看、

【分类介绍】

监督学习：在监督学习中，我们只需要给定输入样本集，机器就可以从中推测出指定目标变量的可能结果。

监督学习使用两种类型的目标变量：标称型和数值型。

标称型：其目标变量的结果只在有限目标集中取值，如真与假、动物分类集合{爬行类、鱼类、哺乳类}

数值型：其目标变量可以从无限的数值集合中取值，如1.002、42.001、100.58等

【机器学习的简单概述】

利用计算机来彰显数据背后的真实含义，这才是机器学习的真实含义。

机器学习的使用是非常广泛的，在这个过程中可以包括：人脸识别、手写数字识别、垃圾邮件过滤和亚马逊公司的产品推荐等。

【何为机器学习】

机器学习就是把无序的数据转换成有用的信息。

如何能够准确预测人类当前60%的行为？怎样预测人们所参与时间的结果呢？如何预测在美国大选中总统竞选的比例呢？

【机器学习的重要性】

二义性问题：“最大化利润”、“最小化风险”、“最好的市场策略”……..

如何解释数据、处理数据、从数据中抽取价值、展示和交流数据结果，这将是我们所讨论的重要问题。

【关键术语】

以鸟类分类系统为例：

基于四种特征的鸟物种分类表：

- 体重翼展脚蹼后背颜色种类 1 1000.1 125.0 无棕色红尾鸟 2 3000.7 200.0 无灰色鹭鹰 3 3300.0 220.3 无灰色鹭鹰 4 4100.0 136.0 有黑色普通千鸟 5 3.0 11.0 无绿色瑰丽蜂鸟 6 570.0 75.0 无黑色象牙啄木鸟

从表中可以发现，所使用的是鸟类的四种特征，前两种特征为数值型，第三种特征为二值型，第四种特征为自定义的枚举类型。

机器学习的首要任务就是分类，如何从数据中获取相关的数据，并对数据进行一定的处理，来对数据进行分类，并将结果应用到数据的预测当中，这也就是机器学习的根本目的。

对于分类来说，首要的就是如何进行算法的训练，通常为算法的输入大量已分类数据作为算法的训练集，训练集是用于训练机器学习算法的数据样本集合。目标变量是机器学习算法的预测结果，在分类算法中目标变量的类型通常是离散型的，而在回归算法中通常是连续型的。

【机器学习的主要任务】

机器学习的主要任务就是分类，将实例数据划分到合适的分类中。

机器学习的另一项任务就是回归，用于预测数值型数据，通过数据拟合曲线来进行数据拟合，预测可能的结果。

分类和回归都属于监督学习，监督学习就是必须首先要知道预测什么，即目标变量的分类信息。

而非监督学习，则是在数据上并没有类别信息，也不会给定目标值；在非监督学习中，将数据集合分成由类似的对象组成的多个类的过程被称为聚类，将寻找描述数据统计值的过程称为密度估计。

用于执行分类、回归、聚类和密度估计的机器学习算法

监督学习的用途 k近邻算法线性回归朴素贝叶斯算法局部加权线性回归支持向量机 Ridge回归决策树 Lasso最小回归系数估计无监督学习的用途 k-均值最大期望算法 DBSCAN Parzen窗设计

【算法的选择】

如果要预测目标变量的值，则可以选择监督学习算法，否则可以选择非监督学习算法。

对于监督学习算法：如果目标变量是离散型，如是/否、1/2/3、A/B/C等相关的数据，可以使用分类算法；

如果目标变量是连续型，如0.0~100.0、-999~999，则选择回归算法。

对于非监督学习算法：如果需要将数据划分为离散的组，则使用聚类算法；

如果还需要估计数据与每个分组的相似程度，则需要使用密度估计算法。

【开发机器学习应用程序的步骤】

1、收集数据

2、准备输入数据

3、分析输入数据

4、训练算法

5、测试算法

6、使用算法

0 0

【机器学习理论】第1部分 机器学习基础