漫话机器学习大数据那些事儿

来源：互联网发布：linux 重启jenkins 编辑：程序博客网时间：2024/06/05 04:12

大数据这个名词这几年好像火山一样爆发，大家都在谈论，特别是高校里面，我所知道的身边的计算机里的老师十个有九个在搞这些玩意儿或者跟它相关，与其相关的一些名词儿还包括云计算，机器学习，人工智能等等。

这些东西的基础无疑是机器学习这个数学工具，搞计算机的很清楚，到了研究阶段，计算机何淑学的关系太紧密了，做计算机的几乎大半时间都在搞数学，毕竟算法的基础就是数学。

先谈谈机器学习这个工具，机器学习简单来说有两反面，分类学习和聚类学习，也称监督学习和无监督学习，当然还有半监督学习。对于初学者，要弄清楚机器学习是干什么的很重要。

首先是分类器，常见的就是SVM支持向量机，贝叶斯分类器，adaboost，感知器，神经网络，

KNN等等。首先讲下分类器作用。从字面理解就是分类，对，没错，就是分类。

很简单的一个例子，

线性规划问题：

第一类点坐标{(0,3),(3,0),(0,1),(1,2),(1,1)}第二类点坐标{(3,1),(2,2),(2,3),(1.5,2),(2,1.5)}

要求你用一条线把两类区分开来，很多种画法。举出一种，as the following:
这里写图片描述
obviously，the fist dataset labeled 1 is over the line z*x+b*y+c=0,we get the result a*x+b*y+c>0 if we substitution the value(x,y).
and the second dataset labeled 0 is below the line.
所以，这就是一个简单的划分问题。

这就是一个分类问题，它就是一个简单的分类器，怎样得到这个分类器，就是得到a*x+b*y+c=0这条线，就是求系数问题，够简单了吧。它有两个过程，学习和预测。学习就是根据训练样本得到分类器的系数啊，a,b,c,…，得到之后就是预测了，怎么预测，就是一些未分类的点代入那条线，结果大于0就是第一类，否则就是第二类，可以简单地从图上看出来。

所谓的监督学习举个例子，每年高考出来，专家抽取1000个人，看看他们什么情况，这1000个人要有样本代表性，不能是全部好学生，也不能是差学生。根据这些分数样本划定分数线，这个过程就叫监督学习过程。好了，下面就是预测工过程了，全国学生根据自己的分数比对就能知道自己是哪一类了。

再来接触一个新名词儿—-超平面（hyperplane），二维平面的直线可以用二维坐标表示(x1,x2)点构成的线集合a*x1+b*x2+c=0，三维空间的平面就用立体坐标轴来表示（x1,x2,x3)构成的面集合，点–>线—>面。那更多的维数平面呢，就叫超平面。注意超平面系数只能是一次，否则就不叫平面了,像a*x1^2+b*x2^3+c*x3^2+c=0就不是平面了.

理解了超平面这个词，下面就是SVM的理解了，SVM就是构建这个超平面（当然还有核函数这个强大的工具针对非线性可分情况，以后会做介绍）。
有两个过程：
监督学习——->得到分类器
预测过程————>将样本分类

是不是很简单。
这是最简单的机器学习了解。

接下来讲讲贝叶斯分类器，这个东西很有趣，举个简单例子，你看到一个黑人，猜猜它从哪里来，毫无疑问，我们会说非洲。这就是一个费监督学习的效果。为什么，很明显，非洲99%的是黑人，亚洲99。99%的是黄种人。一个黑人来自非洲的概率就是99%，来自亚洲的概率0.00001%,你说哪个概率大，就是哪里人嘛。是不是。概率怎么来的？统计来的啊，统计过程就是学习过程啊。

大家都学过贝叶斯，贝叶斯分类器即来源于最朴素的贝叶斯公式 .贝叶斯分类器可以参考http://www.cnblogs.com/skyme/p/3564391.html 讲的很详细。
至于adaboost，感知器等等以后做介绍。

理解了分类器，我们再看看什么是聚类（cluster），从字面理解cluster就是聚成一簇，聚类其实也是用来分类的，不过它是一个无监督学习过程，不需要训练即可。什么觉无监督学习，简而言之，就是给了一堆数

据，自动将其分类.举个例子，有一大堆人站在一起，怎么分成三类，我假设随意初始化选三个代表人物，然后看看这一群人who距离哪个近就是哪一类。是不是很简单。这就是聚类算法，不需要训练。
常见的聚类算法有 K-means、meanshift，STING算法、CLIQUE算法、WAVE-CLUSTER算法等等。

还有个名词被炒得很火，deep-learning，他是半监督学习器，跟人工智能有种莫大的联系，以后再作介绍。

了解了机器学习的用途，那么看看它是如何跟这个数据时代扯上关系的。你肯定在想：
如何用机器学习做大数据分析？、
数据挖掘是干什么的？
如何利用机器学习做云计算？
云计算是什么？（云计算不是一个新东西，它不过是一些基础东西的完美结合，凑在一起产生出来的巨大效应）

跟大数据相关的知识，机器学习很重要，机器学习可以为大数据提供很好的算法模型。常用的工具–hadoop，谷歌三宝之一。hadoop其实是一个分布式的工具，涉及到分布式存储以及分布式计算，分布式存储，典型的是HDFS.在一个集群中，文件分散到集群中，那么怎么进行分布式存储操作呢。一个集群中，通常有MASTER/SLAVER。在分布式存储中，NAMENODE位于MASTER上，datanode位于slaver上。namenode用jobtracker为datanode分配任务。

1 0