笔记:Spark上的机器学习

来源:互联网 发布:dosbox运行windows 编辑:程序博客网 时间:2024/06/07 09:27

机器学习分类:

1)有监督学习

常用算法:回归分析和统计分类

应用场景:训练神经网络(判断网络的错误,然后调整网络去适应它)与决策树(用于判断那些属性提供了最多的信息)

2)无监督学习

应用场景:关联规则的学习和聚类

常用算法:Apriori和k-Means算法

3)半监督学习

····

一些机器学习算法:

1)回归算法

试图采用对误差的衡量来探索变量之间的关系

最小二乘法,逻辑回归,逐步式回归,多元自适应回归样条···

2)基于实例的算法

新数据与样本数据作对比来寻找最佳匹配。

KNN,LVQ,SOM

3)正则化方法

4)决策树学习

根据数据的属性采用树状结构简历决策模型,通常用来解决分类和回归问题。

分类及回归树····

5)贝叶斯学习

基于贝叶斯定理,用于解决分类和回归问题。

朴素贝叶斯算法,····

6)基于核的算法

把输入数据映射到一个高阶的向量空间,有些分类或者回归问题更能很好的解决。

SVM,····

7)聚类算法

按照中心点或者分层的方式对输入数据进行归并。

k-means,···

8)关联规则学习

通过寻找最能够解释数据变量之间关系的规则,来找出大量的多元数据集中有用的关联规则。

Apriori算法

SPARK MLlib

特性:

1)机器学习算法一般有很多迭代计算的过程,在多次迭代后获得足够小的误差或者足够收敛才会停止。spark基于内存的计算模型擅长做迭代计算。

2)spark的通信机制:Akka和Netty,通信效率高。

3)基于RDD构建起来的Spark MLlib和SparkSQL,Spark Straming,GraphX等子框架无缝的共享数据和操作

Spark将机器学习算法都分成了两个模块:

训练模块:通过训练样本输出模型参数

预测模块:利用模型参数初始化,预测测试样本,输出并测值


 

0 0
原创粉丝点击