初识人工智能--基本概念

来源:互联网 发布:centos 阿里云 yum源 编辑:程序博客网 时间:2024/06/01 14:41

在机器学习中,我们接触到的第一样事物,就是机器学习所需的前提:

所需数据:训练集、测试集、特征值。

训练集:用来进行训练,也就是产生模型或者算法的数据集
训练集-->也就是训练数据,当我们选定一些学习模型给予机器时,我们会给予机器一定的训练数据,进行参数估计,然后比对测试集的数据,根据每个模型的误差值来选择一个具体的模型,做为机器学习的首选模型。
测试集:用来专门进行测试已经学习好的模型或者算法的数据集
测试集-->测试数据,一般用来比对经过训练集训练后模型输出的数据,用来检验误差模型的误差值。
特征值:属性的集合,通常用一个向量来表示,附属于一个实例
实例集合:假设集合为X;(X包含了训练集的所有的属性);假设目标函数为y,那么我们最终想要得到的结果就全部放在y集合中。x: 每一个实例X: 样例, 所有实例的集合学习目标:f: X -> Y**eg:假设有一个训练集:**

身高 体重 发长 年龄 性别 所属实例 178cm 66kg 4.6 23 男 x 160cm 45kg 15.2 22 女 x 165cm 66kg 3.2 30 男 x 170cm 50kg 17.4 25 女 x 183cm 72kg 4.0 43 男 x 178cm 58kg 13.2 27 女 x

上面每个x所携带的一行数据都是一个实例,而所有的x构成了X集合
假设我们的目的是判断一个人的性别,而上面给出了一些训练集。那么我们可以根据上面的属性来进行判断。从上面的数据中,我们可以看到:身高,体重,年龄都不是可以很好的区分一个人的性别,但是我们可以通过头发的长度来区分一个人的性别,虽然说可能会有男生留长发,但是这种情况概率较低,可以极大的缩小误差概率。

学习方法:监督学习、半监督学习、无监督学习。

监督学习:训练集有类别标记(class label)
以上面的训练集为例,训练集中给出了我们的目标函数(性别),通过训练集的学习,加上一定的算法,就能够很好的判断出一个人的性别。当训练集中给出了我们的目标函数,我们便称为监督学习。
无监督学习:训练集中没有给出目标类别标记
如果说上面的训练集中,并没有给出性别这一栏属性,而是只给了其他数据,那么机器无法通过训练集得到有效的目标函数训练,只能通过算法自动去判断,那么便称为无监督学习。
半监督学习:有类别标记的训练集 + 无标记的训练集

身高 体重 发长 年龄 性别 所属实例 178cm 66kg 4.6 23 男 x 160cm 45kg 15.2 22 女 x 165cm 66kg 3.2 30 男 x 170cm 50kg 17.4 25 x 183cm 72kg 4.0 43 x 178cm 58kg 13.2 27 x

假设训练集为该种,便称为半监督学习,即目标函数有些实例给出,有些实例并没有给出。

目标标记:分类、回归。(均属于监督学习)

分类:目标标记为类别型数据(category)、将实例数据划分到合适的分类
回归:目标标记为连续性数值 (continuous numeric value)、主要用于预测数值型数据