我裂解的机器学习(ML)

来源:互联网 发布:数学在线解题软件 编辑:程序博客网 时间:2024/05/01 21:17

机器学习是指一套工具、方法或程式,使到我们可以从现实世界的海量数据里提炼出有价值的知识,规则和模式,然后将它们反哺给前台应用系统,进行预测,推荐等能产生直接经济价值的场景,给用户带来“机器具备人类般高智能”的震撼性体验。对于数据越来越多,而人力成本又越来越高的大数据时代,机器学习能降低企业进行数据分析的成本,掌控有关技术,可以给企业和个人带来巨大的价值。


机器学习,人工智能,数据挖掘,模式识别等技术,其实是同一座山峰在不同视角下的侧影,其技术内涵几乎是一样的,都是回归,分类器,聚类,频繁模式挖掘,神经网络等等,我们学习机器识别的同时,学到的知识同样也可以用于数据挖掘和设计机器人这样高度智能化的产品,这些领域概念之间至少在技术上没有界限,是互相渗透的。


其实像kmeans在分布式环境下的聚类过程很好想像,就是需要一批向量的数据,和一批随机中心点的数据,map读数据看看和哪个中心点近将key设置成最近的中心点的序号,reduce设置和k相同的个数,reduce里将每个送过来的向量计算求出新的中心点,修正老的中心点。输出向量这样就形成了一次聚类的过程然后再来一次mapreduce,循环下去知道中心点不动了聚类就结束了。


这里面主要是修正中心点需要reduce去修改或是形成新的中心点。其实reduce可以在自己的运行目录里创建临时文件然后放到HDFS里,下个循环再用 。-file 这个可以用一下

0 0
原创粉丝点击