笔记：Spark上的机器学习

来源：互联网发布：dosbox运行windows 编辑：程序博客网时间：2024/06/07 09:27

机器学习分类：

1）有监督学习

常用算法：回归分析和统计分类

应用场景：训练神经网络（判断网络的错误，然后调整网络去适应它）与决策树（用于判断那些属性提供了最多的信息）

2）无监督学习

应用场景：关联规则的学习和聚类

常用算法：Apriori和k-Means算法

3）半监督学习

····

1)回归算法

试图采用对误差的衡量来探索变量之间的关系

最小二乘法，逻辑回归，逐步式回归，多元自适应回归样条···

2）基于实例的算法

新数据与样本数据作对比来寻找最佳匹配。

KNN，LVQ，SOM

3）正则化方法

4）决策树学习

根据数据的属性采用树状结构简历决策模型，通常用来解决分类和回归问题。

分类及回归树····

5）贝叶斯学习

基于贝叶斯定理，用于解决分类和回归问题。

朴素贝叶斯算法，····

6）基于核的算法

把输入数据映射到一个高阶的向量空间，有些分类或者回归问题更能很好的解决。

SVM，····

7）聚类算法

按照中心点或者分层的方式对输入数据进行归并。

k-means，···

8）关联规则学习

通过寻找最能够解释数据变量之间关系的规则，来找出大量的多元数据集中有用的关联规则。

Apriori算法

特性：

1）机器学习算法一般有很多迭代计算的过程，在多次迭代后获得足够小的误差或者足够收敛才会停止。spark基于内存的计算模型擅长做迭代计算。

2）spark的通信机制：Akka和Netty，通信效率高。

3）基于RDD构建起来的Spark　MLlib和SparkSQL，Spark Straming,GraphX等子框架无缝的共享数据和操作

Spark将机器学习算法都分成了两个模块：

训练模块：通过训练样本输出模型参数

预测模块：利用模型参数初始化，预测测试样本，输出并测值

0 0