机器学习笔记(一) 监督学习和无监督学习

来源:互联网 发布:excel数据横纵坐标互换 编辑:程序博客网 时间:2024/05/21 10:11

1.机器学习

   两条定义:




2.监督学习

   给定一组数据,我们知道正确的输出结果应该是什么样子,并且知道在输入和输出之间有着一个特定的关系。


   监督学习的分类:回归(Regression)、分类(Classification

   回归:预测一个连续值,输入变量和输出用一个函数对应。

   分类:预测一个离散值,输入变量和离散的类别对应。


   举例:

   回归:对房地产数据也测房屋价格,面积已给定,价格可以看做是面积的函数,是一个连续的输出值。


          

  

   分类:通过肿瘤的大小预测是恶性还是良性,这是一个分类问题,输出是0和1两个离散值。0意味着良性,1意味着恶性。当然输出的值可以不止两个,可以有四种,良性、第一类肿瘤、第二类肿瘤、第三类肿瘤。

  

   上面的例子里只有一个特征,就是肿瘤的大小。但有时候特征不止一个,可能有两个或多个。如下图,特征就有两个,年龄和肿瘤的大小。



3.无监督学习

   无监督学习的结果我们一般不知道,但可以通过聚类的方式去提取一个结构。

   无监督学习给定的数据和监督学习是不一样的,这些数据没有标签或者说只有一种相同的标签。

  

  

   无监督学习中,我们给出一组数据,用聚类算法将这组数据分成两个不同的簇,如上面右图所示。


   举例:

   Google News搜集网上的新闻,并根据新闻的主体将其分为许多簇,同一簇的新闻放在一起。如下图所示:

  


   一组不同的人,我们去测量他们的基因对一个特定基因的表达成都,再根据结果用聚类算法将他们分为不同的类型。只给出数据,但我们并不知道是哪一种类型的人,典型的无监督学习,如下图所示。

  

  

  

  

 









 











阅读全文
1 0
原创粉丝点击