机器学习之机器学习概念

来源：互联网发布：sql 打开数据库编辑：程序博客网时间：2024/05/16 15:25

前言

在机器学习过程中，对于机器学习的基本概念，进行了整理，记录在此，以备查看。

定义

在维基百科，定义如下

机器学习有下面几种定义：
机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。
机器学习是对能通过经验自动改进的计算机算法的研究。
机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。
一种经常引用的英文定义是：A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

西瓜书中：

机器学习正是这样一门学科，它致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。在计算机系统中，“经验”通常以“数据”形式存在，因此，机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”（model）的算法，即“学习算法”（learning algorithm）

数据科学入门：

创建并使用那些由学习数据而得出的模型。在其他语境中，也可以被叫作预测建模或者数据挖掘。

目标

用已存在的数据来开发可以用来对新数据预测多种可能结果的模型

如

预测一封邮件是否是垃圾邮件（贝叶斯定理）
预测一笔信用卡交易是否是欺诈行为
预测哪种广告最有可能被购物者点击

概念

数据集（data set）：记录（数据）的集合

示例（instance）或样本（sample）：每条记录是关于一个事件或对象的描述，被称为示例或样本

属性（attribute）或特征（feature）：事件或对象在某方面的表现或性质的事项

属性值（attribute value）：属性上的取值

属性空间（attribute ）、样本空间（sample space）或输入空间：属性张成的空间

从数据中学得模型的过程称为“学习”（learning）或“训练”（training），这个过程通过执行某个学习算法来完成。

训练过程中使用的数据称为“训练数据”（training data）
每个样本称为一个训练样本（training sample）

训练样本组成的集合称为训练集（training set）

学得模型对应了关于算计的某种潜在规律，称为假设（hypothesis）

潜在规律自身，被称为真相或真实（ground-truth）

关于示例结果的信息，称为标记（label）

拥有标记信息的示例，称为样例（example）

如果预测的是连续值，学习任务称为“回归”（regression）

测试（testing）：学得模型后，使用其进行预测的过程

测试样本（testing sample）：被预测的样本

泛化能力（generalization）：学得模型适用于新样本的能力

学习过程：学习过程可以看作一个在所有假设(hypothesis)组成的空间中进行的探索的过程，探索目标是找到与训练集’匹配’(fit)的假设。

聚类和分类

如果预测的是离散值，学习任务称为“分类”（classfication）
分类是指识别出样本所属的类别。识别前是否需要进行训练，可分为有监督分类和无监督分类。有监督分类(supervised classification):根据已知训练区提供的样本，通过计算选择特征参数，建立判别函数以对样本进行的分类。无监督分类(unsupervised classification):指人们事先对分类过程不施加任何的先验知识，而仅凭数据，即自然聚类的特性，进行“盲目”的分类；其分类的结果只是对不同类别达到了区分，但并不能确定类别的属性。（维基百科）

聚类分析（英语：Cluster analysis，亦称为群集分析）是对于统计数据分析的一门技术，在许多领域受到广泛应用，包括机器学习，数据挖掘，模式识别，图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集（subset），这样让在同一个子集中的成员对象都有相似的一些属性，常见的包括在坐标系中更加短的空间距离等。
一般把数据聚类归纳为一种非监督式学习。

有监督模型和无监督模型

有监督模型：数据标注有正确答案，可供学习

无监督模型：没有标注

半监督模型：其中有一部分数据带有标注

在线模型：模型根据新加入的数据做持续调整

分类和回归是分类学习的代表，聚类是非监督学习的代表。

过拟合和欠拟合

过拟合(overfitting)：一个在训练数据上表现良好，但对任何新数据的泛化能力却很差的模型。

欠拟合(underfitting) : 产生的模型甚至在训练数据上都没有好的表现

正确性

真阳性：“这封邮件是垃圾邮件，我们做了正确的预测”
假阳性(又称第一类错误)：“这封邮件不是垃圾邮件，但是我们预测它是垃圾邮件”
假阴性(又称第二类错误)：“这封邮件是垃圾邮件，但是我们预测它不是垃圾邮件”
真阴性：“这封邮件不是是垃圾邮件，而且我们正确的预测了它不是垃圾邮件”

准确率（accuracy）、查准率(precision)、查全率（recall）
补充资料

偏倚-方差权衡

偏倚和方差这两个名词是用来度量（来自同一个大型总体的）不同的训练数据集上多次重复训练模型的情况

学习资料

《机器学习》第一章

《数据科学入门》第十一章

维基百科

0 0