基本术语(告诉你西瓜书为什么叫西瓜书)

来源:互联网 发布:zdmcad辅助设计软件 编辑:程序博客网 时间:2024/04/19 11:56

                                  为什么这本《机器学习》,封面会有很多西瓜?

                                                    为什么要叫他西瓜书?

                                                      就因为封面是西瓜?

                                                       

       因为所有的这些个基本术语的理解和后续一些问题的解释以及比喻 ,周大大都是用西瓜来做比喻滴!!!

通俗易懂!恰到好处!

注意:下面只做我归纳的简单介绍,如有不全,可以去百度一哈!

 收集关于西瓜的数据,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响)等

         记录的集合称为一个“数据集”(data set)  而西瓜称为一个“示例”(instance)或者“样本”(sample)

         反映的对象的性质的。例如“色泽”,“根蒂”,“敲声”称为“属性”(attribute)或者“特征”(feature)


         若预测的是离散值,此学习任务称为“分类”(classification)

         若预测的是连续值,此学习任务称为“回归”(regression)

      

         学得模型后,使用其进行预测的过程称为“测试”(testing)

         被预测的样本称为“预测样本”(testing sample)

        Fx:  学得f 后,对X进行测试,可得到其预测标记,即   y=f(X)


         我们还可以对西瓜做“聚类”(clustering),即将训练集中西瓜分成若干组,每组称为一个“簇”(cluster),这些自动形成的簇可能对应潜在的概念划分,例如“浅色瓜”“深色瓜”等。

         但是,“浅色瓜”,“本地瓜”这样的概念,在聚类学习中,都是事先不知道的,通常不拥有标记信息


         根据训练数据是否有标记信息,学习任务可分为以下两大类:“监督学习”(supervised learning)“无监督学习”(unsupervised learning)

         分类和回归是前者的代表,而聚类则是后者的代表。

   

          机器学习使学得的模型适用于“新样本”,学得的模型适用于新样本的能力,称为“泛化”(generalization)能力

           

           通常假设样本空间中全体样本服从一个未知的“分布”(distribution)D,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”(independent and identically  distributed).训练样本越多,得到关于D的信息越多,越可能通过学习获得强泛化能力的模型

    

           以上只是基本的一些术语,如果能够理解当然是最好的咯!如果不能理解可以拿西瓜作为例子!下面我也会对上面的一些术语给出一些理解,让你们理解的更深刻一点!


           首先机器学习也就是让一段代码数据结构,能够习得符合实际问题的规律,从而对将来可能发生的事情进行有限的预测!!

           所以刚刚上面说的都是预测的分类,包括分类,回归,聚类等。

           为什么要把这些个预测问题来分开来研究和分析呢?因为你预测的结果有离散和线性之分,导致不同的学习算法对不同问题的适应性不同,所以分开研究更容易在某一部分问题得出更好的结果。

           至于监督学习和无监督学习:

           打一个最简单的比喻,西瓜!!

            我们的目的是为了能够用机器来代替我们的经验来判断一个西瓜到底是不是好瓜!

             有两种办法,第一种就是告诉机器现有的瓜,让一个经验丰富的瓜农来帮你分好哪些是好瓜,哪些是坏瓜,让你根据特征来学习!这就是有人告诉你对错!就是受到教育!

                                   第二种就是给你一堆瓜,啥的都不告诉你,你跟进你的观察和思考,自主将这些瓜分类,这一堆瓜有都是本地的,这一堆瓜都是深绿色的,然后根据调整,自己找到好瓜的那一堆!也就是放养!自学!

                                  

              那监督和无监督哪个好呢?

              需要针对具体问题,有的人服管教,需要人引导,就监督好。有的人自觉性高,喜欢自主,那就无监督好!西瓜也是如此,机器学习也是如此!

       配个图,希望大家从不明真相的吃瓜群众,变成   emmmmmm   还是吃瓜群众吧!

原创粉丝点击