机器学习术语
来源:互联网 发布:免费手机视频剪辑软件 编辑:程序博客网 时间:2024/06/06 04:07
本文的概念来自于周志华的西瓜书《机器学习》
对机器学习的定义:机器学习致力于研究如何通过计算,利用经验来改善系统自身性能。(这里的经验就是数据)
机器学习研究的主要内容:计算机上产生模型的算法,即“学习算法”。
机器学习的过程:首先需要大量的数据集合,然后通过机器学习算法进行计算,产生一个模型,利用这个模型对新数据进行判断或者预测。
机器学习的目标:使学得的模型能很好的适用于“新样本”
本文使用的数据:
- 数据集(data set):这组记录的集合称为一个“数据集”
- 样本(示例):关于一个事件或者对象的描述的一条记录。比如第1行(色泽=青绿,根蒂=蜷缩,敲声=浊响)就是一个样本
- 特征(属性):反应事件或对象在某方面的表现或者性质的事项。比如:色泽、根蒂、敲声
- 样本空间(属性空间):属性张成的空间
- D={X1,X2,X3~~~~Xm}包含m个示例的数据集,其中Xi=(xi1,xi2,xi3~~~xid),则d为样本Xi的“维数”
- 训练(学习):从数据中学得模型的过程。每个样本成为一个“训练样本”,样本组成的集合称为“训练集”
- 假设(hypothesis):学得的模型对应了关于数据的某种潜在规律,成为“假设”
- 真相(真实):这种数据中潜在规律的本身成为真相或者真实。学习的过程就是为了找出或者逼近真
监督学习和无监督学习:
1.监督学习(supervised learning):训练数据集中有标记信息
如:((色泽=青绿,根蒂=蜷缩,敲声=浊响),好瓜)
好瓜称为“标记”(label),有了标记信息的示例称为“样例”,所有标记的集合称为“标记空间”或者“输出空间”
分类和回归是监督学习的代表
分类:预测离散值
回归:预测连续值
2.无监督学习(unsupervised learning)训练数据集中没有标记信息
如:(色泽=青绿,根蒂=蜷缩,敲声=浊响)
聚类是无监督学习的代表
聚类:将训练集中示例分成若干组,每一组称为一个“簇”
测试:
学的模型后,需要对其进行预测的过程称为“测试”,被预测的样本称为“测试样本”(testing sample)y=f(x)
泛化:
学得的模型适用于新样本的能力,称为“泛化”,具有强泛化能力的模型能很好的适用于整个样本空间
总结:机器学习可以分为监督学习和半监督学习,主要区别在于样本是否有标记,其学习的过程为:在大量数据集合的基础上,选择合适的机器学习算法进行学习,学习结束后会得到一个模型,这个模型能够反映这些数据中的规律,它需要具有强的泛化能力,即适用于整个样本空间。最终达到我们利用模型来进行预测和判断的目的。
- 模式识别机器学习术语
- 机器学习术语发音
- 机器学习基本术语
- 机器学习术语小结
- 机器学习相关术语
- 机器学习术语
- 机器学习-基本术语
- 机器学习 基本概念/术语
- 机器学习术语
- 【机器学习】基础术语
- 机器学习术语
- 机器学习基本术语
- 机器学习相关术语
- 机器学习术语:来自《机器学习/周志华》
- 机器学习相关基本术语
- 机器学习相关英文术语
- 机器学习(一) - - 基本术语
- 机器学习常用术语: epoch batch_size iteration
- Android系统截屏
- 频道管理
- fastboot烧写命令
- apicolud 中touch事件没有效果相关
- 1、算法导论笔记
- 机器学习术语
- 投名状深度好文
- 深入理解JVM--JVM垃圾回收机制
- delphi formatdatetime 毫秒
- 条款08:别让异常逃离析构函数
- 第二十三篇 jQuery 学习5 添加元素
- String中的字符串拼接问题
- Linux根目录的建立
- Glide调试方法