需要了解的基本概念——特征、训练集、样例等

来源:互联网 发布:关闭数据库的命令 编辑:程序博客网 时间:2024/06/08 18:53

    假定我们收集了一些关于西瓜的数据,例如(色泽=青绿,根蒂=蜷缩,敲声=浑响),(色泽=乌黑,根蒂=稍蜷,敲声=沉闷),每对括号内都是一条记录,“=”意思是取值为”。这组记录的集合称为一个“数据集”,其中每条记录是关于一个事件或对象的描述,称为一个“示例”或“样本”。反应事件或对象在某方面的表现或性质的事项,例如“色泽”“根蒂”,称为“属性”或“特征”;属性上的取值称为“属性值”。属性张成的空间,称为“属性空间”或“样本空间”。例如我们把“色泽”“根蒂”“声响”作为三个坐标轴,把他们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置,由于空间中的每个点对应一个坐标向量,因此我们也把一个示例成为一个“特征向量”。

    从数据中学得模型的过程称为“学习”或“训练”,这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为“训练数据”,其中每个样本成了一个“训练样本”,训练样本组成的集合称为“训练集”。如果希望学得一个能帮助我们判断没剖开的是不是“好瓜”的模型,仅有前面的示例数据显然是不够的。要建立这样的关于“预测”的模型,我们需获得训练样本的“结果”信息,例如((“色泽=青绿,根蒂=蜷缩,敲声=混响),好瓜)。这里关于示例结果的信息,例如“好瓜”,称为“标记”;拥有了标记信息的示例,则称为“样例”。

   这些基本的概念,是机器学习中必须要了解的。

0 0
原创粉丝点击