笔记:Spark上的机器学习
来源:互联网 发布:dosbox运行windows 编辑:程序博客网 时间:2024/06/07 09:27
机器学习分类:
1)有监督学习
常用算法:回归分析和统计分类
应用场景:训练神经网络(判断网络的错误,然后调整网络去适应它)与决策树(用于判断那些属性提供了最多的信息)
2)无监督学习
应用场景:关联规则的学习和聚类
常用算法:Apriori和k-Means算法
3)半监督学习
····
一些机器学习算法:
1)回归算法
试图采用对误差的衡量来探索变量之间的关系
最小二乘法,逻辑回归,逐步式回归,多元自适应回归样条···
2)基于实例的算法
新数据与样本数据作对比来寻找最佳匹配。
KNN,LVQ,SOM
3)正则化方法
4)决策树学习
根据数据的属性采用树状结构简历决策模型,通常用来解决分类和回归问题。
分类及回归树····
5)贝叶斯学习
基于贝叶斯定理,用于解决分类和回归问题。
朴素贝叶斯算法,····
6)基于核的算法
把输入数据映射到一个高阶的向量空间,有些分类或者回归问题更能很好的解决。
SVM,····
7)聚类算法
按照中心点或者分层的方式对输入数据进行归并。
k-means,···
8)关联规则学习
通过寻找最能够解释数据变量之间关系的规则,来找出大量的多元数据集中有用的关联规则。
Apriori算法
SPARK MLlib
特性:
1)机器学习算法一般有很多迭代计算的过程,在多次迭代后获得足够小的误差或者足够收敛才会停止。spark基于内存的计算模型擅长做迭代计算。
2)spark的通信机制:Akka和Netty,通信效率高。
3)基于RDD构建起来的Spark MLlib和SparkSQL,Spark Straming,GraphX等子框架无缝的共享数据和操作
Spark将机器学习算法都分成了两个模块:
训练模块:通过训练样本输出模型参数
预测模块:利用模型参数初始化,预测测试样本,输出并测值
- 笔记:Spark上的机器学习
- spark学习笔记-spark上做kaggle的机器学习分类任务
- spark上的scala学习笔记
- spark机器学习笔记:(四)用Spark Python构建分类模型(上)
- 机器学习(三)--- spark学习笔记
- Spark机器学习的主要内容
- spark机器学习MLlib笔记(1)
- Spark机器学习笔记(2)--构建基于Spark的推荐引擎
- Spark机器学习笔记2--设计机器学习系统
- spark机器学习笔记:设计机器学习系统
- Coursera上的Andrew Ng《机器学习》学习笔记Week1
- Coursera上的Andrew Ng《机器学习》学习笔记Week2
- Spark机器学习笔记1--Spark Python编程入门
- spark机器学习笔记:(一)Spark Python初探
- Spark的学习笔记
- Spark MLlib(上)--机器学习及SparkMLlib简介
- Spark MLlib(上)--机器学习及SparkMLlib简介
- 基于Spark的机器学习经验
- jquery中使用append添加html导致onclick事件失效
- 运行时类型信息RTTI
- the item width must be less than the width of the UICollectionView minus the section insets left and
- 这是我的第一篇CSDN博客
- Spark:利用Eclipse构建Spark集成开发环境
- 笔记:Spark上的机器学习
- BAT某大型公司的电话面试
- ubuntu 使用过程中可能遇到的问题,和所需要用到的情况设置
- linux下查看文件和文件夹大小
- 适配器模式
- Java快速排序
- Java中instanceof详解
- 数据结构-快速排序-划分算法
- leetcode 题解 || Remove Nth Node From End of List 问题