机器学习术语

来源：互联网发布：免费手机视频剪辑软件编辑：程序博客网时间：2024/06/06 04:07

本文的概念来自于周志华的西瓜书《机器学习》

对机器学习的定义：机器学习致力于研究如何通过计算，利用经验来改善系统自身性能。（这里的经验就是数据）

机器学习研究的主要内容：计算机上产生模型的算法，即“学习算法”。

机器学习的过程：首先需要大量的数据集合，然后通过机器学习算法进行计算，产生一个模型，利用这个模型对新数据进行判断或者预测。

机器学习的目标：使学得的模型能很好的适用于“新样本”

本文使用的数据：

西瓜数据集编号色泽根蒂敲声好瓜1青绿蜷缩浊响是2乌黑蜷缩浊响是3青绿硬挺清脆否4乌黑稍蜷沉闷否

监督学习和无监督学习：

1.监督学习（supervised learning）:训练数据集中有标记信息

如：（（色泽=青绿，根蒂=蜷缩，敲声=浊响），好瓜）

好瓜称为“标记”（label）,有了标记信息的示例称为“样例”，所有标记的集合称为“标记空间”或者“输出空间”

分类和回归是监督学习的代表

分类：预测离散值

回归：预测连续值

2.无监督学习（unsupervised learning）训练数据集中没有标记信息

如：（色泽=青绿，根蒂=蜷缩，敲声=浊响）

聚类是无监督学习的代表

聚类：将训练集中示例分成若干组，每一组称为一个“簇”

测试：

学的模型后，需要对其进行预测的过程称为“测试”，被预测的样本称为“测试样本”（testing sample）y=f(x)

泛化：

学得的模型适用于新样本的能力，称为“泛化”，具有强泛化能力的模型能很好的适用于整个样本空间

总结：机器学习可以分为监督学习和半监督学习，主要区别在于样本是否有标记，其学习的过程为：在大量数据集合的基础上，选择合适的机器学习算法进行学习，学习结束后会得到一个模型，这个模型能够反映这些数据中的规律，它需要具有强的泛化能力，即适用于整个样本空间。最终达到我们利用模型来进行预测和判断的目的。

阅读全文

0 0