机器学习(二)基本概念

来源:互联网 发布:剑灵男灵剑士捏脸数据 编辑:程序博客网 时间:2024/06/06 07:34

       上一篇博客对机器学习有了一个简单的介绍,这一篇博客我来说说机器学习中的一些基本的常见的概念。说到机器学习的概念,我相信有简单了解机器学习的人都会说得出一两个或者更多关于机器学习的基本概念,比如:监督学习,非监督学习,回归,分类,线性,非线性,特征值,特征向量,训练集,测试集,标签label,正例,反例等等一些关于机器学习的概念或者可以说有些关于数学的概念都听过或见过。下面我来详细说一说这些概念。

       说到概念,我首先来说说机器学习中的概念学习,就像我们现在要学习的机器学习一样,首先要机器学习概念即我们要知道什么是机器学习一样的道理。机器学习中的概念学习是指从有关某个布尔函数的输入和输出训练样例中推断出该布尔函数。

       机器学习的常见基本概念有(就是上面说的那些):监督学习,非监督学习,训练集,测试集,分类,回归,特征值,特征向量,正例,反例,线性,非线性,标签label。下面就来解释解释它们。

       实例集(X):概念定义的实例集合。

       目标概念(C):待学习的概念或函数或者说算法模型。

       训练集(Training Data/Training Set):又称训练样例(Training Example):用来进行训练的一组数据集,也就是机器学习中用来产生模型或者算法的数据集。如果用D来表示训练样例,每一个样例为X中的一个实例x以及他的目标概念值c()

       测试集(Testing Data/Testing Set):又称测试样例(Testing Example):用来进行测试的一组数据集,也就是说用来测试机器学习中用训练集产生的模型或者算法的测试的数据集,即评价训练集产生的模型或者算法好坏的评估。

       正例(Positive Example):c(x)=1的实例被称为正例;使产生的模型或者算法越来越好的数据集。

       反例(Negative Example):c(x)=0的实例被称为反例;偏离模型或者算法的数据集。

       特征向量(Features Vector/Feature Vector):属性的集合,通常用一个向量来表示,附属于一个实例。

       特征值(Eigen Value):一个实例的某一个属性,即特征向量中的某一个属性就称为特征值。

       标签(Label):一个实例类别的标记。

       分类(Classification):目标标记为类别型数据(Category)。

        回归(Regression):目标标记为连续性数值(Continues Numeric Value)。

        有监督学习(Supervised Learning):训练集有类别的标记(Class Label)。

        无监督学习(Unsupervised Learning):训练集没有类别的标记(No Class Label)。

        半监督学习(Semi-supervised Learning):有类别训练集和无类别训练集的集合。

        线性(Linear):训练出的模型或者函数是线性的称为线性。

        非线性(NonLinear):训练出的模型或者函数是非线性的称为非线性。

        下面就通过例子对上面的概念做进一步的介绍:


     

        对于经典例子小明是否享受水上运动:

                 学习享受运动的函数就是概念的学习。

                 其中属性:天气、温度、湿度、风力、水温、预报这些属性对应的值都是属于特征值,而这些属性对应值得集合就是特征向量。

                 是否享受运动的值:是或者否是Label。即标记。

                 其中如果统计了200天的数据,拿出150天的数据来进行训练,这150天的数据就是训练集或称为训练样例。50天的数据用于测试,称为测试样例或者测试集。

        其中实例1:小明是否享受运动实例称为分类;实例2:学区房问题称为回归。

        其中小明今天是否去运动或者预测要买的学区房的价格称为目标概念。

        机器学习的步骤框架:

        1:把数据集拆分为训练集和测试集。

        2:用训练集和训练集的特征向量来训练出算法。

        3:把学习来的算法运用在测试集上来评估算法。{可能会设计到调整参数(Parameter Tuning),用到验证集(Validation Set)}

        机器学习中分类和预测算法的评估从5个方面入手:

        1:准确率。

        2:速度

        3:强壮性

        4:可规模性

        5:可解释性

原创粉丝点击