初识人工智能--基本概念

来源：互联网发布：centos 阿里云 yum源编辑：程序博客网时间：2024/06/01 14:41

在机器学习中，我们接触到的第一样事物，就是机器学习所需的前提：

所需数据：训练集、测试集、特征值。

训练集：用来进行训练，也就是产生模型或者算法的数据集

训练集-->也就是训练数据，当我们选定一些学习模型给予机器时，我们会给予机器一定的训练数据，进行参数估计，然后比对测试集的数据，根据每个模型的误差值来选择一个具体的模型，做为机器学习的首选模型。

测试集：用来专门进行测试已经学习好的模型或者算法的数据集

测试集-->测试数据，一般用来比对经过训练集训练后模型输出的数据，用来检验误差模型的误差值。

特征值：属性的集合，通常用一个向量来表示，附属于一个实例

实例集合：假设集合为X；（X包含了训练集的所有的属性）；假设目标函数为y，那么我们最终想要得到的结果就全部放在y集合中。x: 每一个实例X: 样例, 所有实例的集合学习目标：f: X -> Y**eg：假设有一个训练集：**

身高体重发长年龄性别所属实例 178cm 66kg 4.6 23 男 x 160cm 45kg 15.2 22 女 x 165cm 66kg 3.2 30 男 x 170cm 50kg 17.4 25 女 x 183cm 72kg 4.0 43 男 x 178cm 58kg 13.2 27 女 x

上面每个x所携带的一行数据都是一个实例，而所有的x构成了X集合
假设我们的目的是判断一个人的性别，而上面给出了一些训练集。那么我们可以根据上面的属性来进行判断。从上面的数据中，我们可以看到：身高，体重，年龄都不是可以很好的区分一个人的性别，但是我们可以通过头发的长度来区分一个人的性别，虽然说可能会有男生留长发，但是这种情况概率较低，可以极大的缩小误差概率。

学习方法：监督学习、半监督学习、无监督学习。

监督学习：训练集有类别标记(class label)

以上面的训练集为例，训练集中给出了我们的目标函数（性别），通过训练集的学习，加上一定的算法，就能够很好的判断出一个人的性别。当训练集中给出了我们的目标函数，我们便称为监督学习。

无监督学习：训练集中没有给出目标类别标记

如果说上面的训练集中，并没有给出性别这一栏属性，而是只给了其他数据，那么机器无法通过训练集得到有效的目标函数训练，只能通过算法自动去判断，那么便称为无监督学习。

半监督学习：有类别标记的训练集 + 无标记的训练集

身高体重发长年龄性别所属实例 178cm 66kg 4.6 23 男 x 160cm 45kg 15.2 22 女 x 165cm 66kg 3.2 30 男 x 170cm 50kg 17.4 25 x 183cm 72kg 4.0 43 x 178cm 58kg 13.2 27 x

假设训练集为该种，便称为半监督学习，即目标函数有些实例给出，有些实例并没有给出。

目标标记：分类、回归。（均属于监督学习）

分类：目标标记为类别型数据(category)、将实例数据划分到合适的分类

回归：目标标记为连续性数值 (continuous numeric value)、主要用于预测数值型数据

阅读全文

0 0