机器学习-导论

来源:互联网 发布:卫生网络答题 编辑:程序博客网 时间:2024/05/18 02:12

1、什么是机器学习

机器学习不仅仅属于计算机这个方向,它是一个高度跨学科的研究方向,包括计算机视觉、生物学、机器人、自然语言、统计学等等。

Arthur Samuel在1959年把它定义为:在不直接针对问题进行编程的情况下赋予计算机学习能力的一个研究领域。他当时自己写了一个国际象棋的游戏,它可以自己和自己下棋,并且下棋的速度非常快!它会慢慢的学习如何才能让自己赢得棋,这非常像阿尔法狗呀!


注:这系列的文章死本人在学习吴恩达教授课程的笔记,具体课程在:https://www.coursera.org/learn/machine-learning/home/welcome



2、生活中哪些用到了机器学习

最常见的一个使用应该是手写识别,它需要识别出我们写入的到底是字母、数字还是文字,同时还需要识别出到底是哪个字母、数字、汉字。

还有数据挖掘,比如说淘宝、亚马逊根据你最近的购买或者浏览记录,来给你推荐你可能会购买的商品。

还有比如说同一城市不同地区的房子面积和价钱的对应关系,它可能线性先关,也可能是非线性相关,那么这时候就可以通过机器学习来计算出面积和价钱的真正对应关系。这样就可以预测出某个面积的房屋能够买出多少钱。


3、机器学习还可以用来干嘛

另外还可以用来做语音识别、手势识别、人脸识别、无人机自主飞行,还有前段时间热门的阿尔法狗等等。


4、怎么学习机器学习

前期课程

基本的计算机学科的知识、原理,了解数据结构,比如说链表、队列、堆栈、二叉树,自己能够写一些程序,基本的统计学的知识。事实上,这个课程不需要写太多的代码,有一部分是在MATLAB上实现的。



监督学习和无监督学习

在回归和分类的过程中还需要用到监督学习。监督学习是值利用一组已知的样本去确定一个最优模型,使其达到所要求性能的过程,比如说肿瘤的良恶性判断的正确率大于99%。然后将利用这个模型把所有的输入映射成输出,这样我们也就具有了对位置数据进行分类的能力。在人对事物的认识中,我们从孩子开始就被大人们教授这是鸟啊、那是猪啊、那是房子啊,等等。我们所见到的景物就是输入数据,而大人们对这些景物的判断结果(是房子还是鸟啊)就是相应的输出。当我们见识多了以后,脑子里就慢慢地得到了一些泛化的模型,这就是训练得到的那个(或者那些)函数,从而不需要大人在旁边指点的时候,我们也能分辨的出来哪些是房子,哪些是鸟。

监督学习分为回归和分类

回归问题常用于两个变量X和Y之前,比如说之前的房子面积和价钱的关系,回归问题就是确定这2个变量到底是什么关系,可以用什么样的函数表达,1次方程?2次方程?当然在确定的过程中他需要用到一些实际的数据,这个过程叫做匹配

分类的问题则是上述问题的特殊情况,比如说着肿瘤的大小和肿瘤的良恶性的关系,显然肿瘤只可能为良性或者是恶性,这是二值的。判断肿瘤超过多大时可能是恶性的工程称为分类。


而无监督学习(也有人叫非监督学习,反正都差不多)则是另一种研究的比较多的学习方法,它与监督学习的不同之处,在于我们事先没有任何训练样本,而需要直接对数据进行建模。这听起来似乎有点不可思议,但是在我们自身认识世界的过程中很多处都用到了无监督学习。比如我们去参观一个画展,我们完全对艺术一无所知,但是欣赏完多幅作品之后,我们也能把它们分成不同的派别(比如哪些更朦胧一点,哪些更写实一些,即使我们不知道什么叫做朦胧派,什么叫做写实派,但是至少我们能把他们分为两个类)。无监督学习里典型的例子就是聚类了。聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。


无监督学习的应用也很多,比如说对于一个大型计算机集群,它可以找出那些机器一起工作会使效率更高;还有社交网络分析,识别出哪些是最亲密的朋友,哪些是相互认识的。还有一个比较有趣的应用就是语音识别。假如说在一个房间里,一个人在说话,同时也在播放音乐,有2个麦克风,一个放在人旁边,一个放在播放器旁边。显然2个麦克风的声音都不是纯净的,音乐中混杂着对话,对话中混杂着音乐。而无监督学习算法就可以把音乐和对话分离开来。


原创粉丝点击