机器学习术语

来源:互联网 发布:免费手机视频剪辑软件 编辑:程序博客网 时间:2024/06/06 04:07

本文的概念来自于周志华的西瓜书《机器学习》

对机器学习的定义:机器学习致力于研究如何通过计算,利用经验来改善系统自身性能。(这里的经验就是数据)

机器学习研究的主要内容:计算机上产生模型的算法,即“学习算法”。

机器学习的过程:首先需要大量的数据集合,然后通过机器学习算法进行计算,产生一个模型,利用这个模型对新数据进行判断或者预测。

机器学习的目标:使学得的模型能很好的适用于“新样本”

本文使用的数据:

西瓜数据集编号色泽根蒂敲声好瓜1青绿蜷缩浊响是2乌黑蜷缩浊响是3青绿硬挺清脆否4乌黑稍蜷沉闷否








  1. 数据集(data set):这组记录的集合称为一个“数据集”
  2. 样本(示例):关于一个事件或者对象的描述的一条记录。比如第1行(色泽=青绿,根蒂=蜷缩,敲声=浊响)就是一个样本
  3. 特征(属性):反应事件或对象在某方面的表现或者性质的事项。比如:色泽、根蒂、敲声
  4. 样本空间(属性空间):属性张成的空间
  5. D={X1,X2,X3~~~~Xm}包含m个示例的数据集,其中Xi=(xi1,xi2,xi3~~~xid),则d为样本Xi的“维数”
  6. 训练(学习):从数据中学得模型的过程。每个样本成为一个“训练样本”,样本组成的集合称为“训练集”
  7. 假设(hypothesis):学得的模型对应了关于数据的某种潜在规律,成为“假设”
  8. 真相(真实):这种数据中潜在规律的本身成为真相或者真实。学习的过程就是为了找出或者逼近真



监督学习和无监督学习:

1.监督学习(supervised learning):训练数据集中有标记信息

如:((色泽=青绿,根蒂=蜷缩,敲声=浊响),好瓜)

               好瓜称为“标记”(label),有了标记信息的示例称为“样例”,所有标记的集合称为“标记空间”或者“输出空间”

分类和回归是监督学习的代表

分类:预测离散值

回归:预测连续值

2.无监督学习(unsupervised learning)训练数据集中没有标记信息

如:(色泽=青绿,根蒂=蜷缩,敲声=浊响)

聚类是无监督学习的代表

聚类:将训练集中示例分成若干组,每一组称为一个“簇”

测试:

学的模型后,需要对其进行预测的过程称为“测试”,被预测的样本称为“测试样本”(testing sample)y=f(x)

泛化:

学得的模型适用于新样本的能力,称为“泛化”,具有强泛化能力的模型能很好的适用于整个样本空间

总结:机器学习可以分为监督学习和半监督学习,主要区别在于样本是否有标记,其学习的过程为:在大量数据集合的基础上,选择合适的机器学习算法进行学习,学习结束后会得到一个模型,这个模型能够反映这些数据中的规律,它需要具有强的泛化能力,即适用于整个样本空间。最终达到我们利用模型来进行预测和判断的目的。

原创粉丝点击