Spark机器学习的一些概念整理
来源:互联网 发布:c语言中表示等于什么 编辑:程序博客网 时间:2024/05/17 21:51
(文章主要来自于学习整理,好记心不如烂笔头,先记上后面再完善,欢迎大家指正交流)
监督式学习:使用有标签的训练数据(也就是已知结果的数据点)进行学习,对训练样本集外的数据进行标记(分类)预测,训练样本的标记(分类)是已知的,因此岐义性低。
无监督式学习:使用没有标签的训练数据(也就是已知结果的数据点)进行学习对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。训练标记(分类)是未知的,因此岐义性高。聚类就是典型的无监督学习
分类算法:
分类算法是一类监督式机器学习算法,它根据已知标签的样本来预测其它样本所属的类别,分类与回归是监督式学习的二种主要形式,监督式学习指算法尝试使用有标签的训练数据(也就是已知结果的数据点)根据对象的特征预测结果,分类与回归的区别在于预测的变量的类型:在分类中,预测的变量是离散的(也就是一个有限集中的值,叫做类别);比如:垃圾邮件与非垃圾邮件,在回归中,预测的变量是连续的,比如:根据年龄与体重预测一个人的身高
线性回归:
线性回归指用特征的线性组和来预测输出值
逻辑回归:
逻辑回归是一种二元分类方法,用来寻找一个分隔阴性与阳性示例的线性分隔平面
决策树:
决策树以节点树的形式表示,每个节点基于数据的特征作出一个二元决定(比如:这个人的年龄是否大于20?),而树的每个叶子节点则包含一种预测结果(例如:这个人是否会买一个商品?),决策树的吸引力在于模型本身容易检查,既可以进行分类也可以进行回归,一组决策树的组合称为随机森林,
聚类:
聚类是一种无监督式学习算法,用于将对象分到具有高度相似性的聚类中,主要用于数据探索以及异常检测
协同过滤:
协同过滤是一种根据用户对各种产品的交互与评分来推荐新产品的推荐系统技术,只需要输入一系列用户/产品交互记录:无论是“显式”的交互(例如:在购物网站上进行评分)还是“隐式”的(例如用户访问了一个产品的页面但没有对产品评分)交互都可以,仅仅根据这些交互,协同过滤算法就能够知道那些产品之间比较相似以及那些用户之间比较相似,然后做出推荐
过度拟合(overfitting)问题,阅读:http://blog.csdn.net/xuxurui007/article/details/9259903
- Spark机器学习的一些概念整理
- 机器学习整理的一些概念
- 机器学习概念整理
- 机器学习概念整理
- Spark学习之一-Spark的概念机器发展简史
- 机器学习的类型和一些概念
- 关于机器学习的一些概念
- 机器学习中的一些概念
- 机器学习中的一些概念
- 机器学习中的一些概念
- 机器学习的概念
- 机器视觉的一些概念
- 整理&收藏的一些机器学习比较好的博客
- Java的一些概念整理
- [机器学习]机器学习笔记整理04-术语概念解释
- 机器学习领域中的一些概念
- Spark机器学习的主要内容
- spark配置环境的一些重要概念
- Unity3d在IOS与安卓系统接入Admob广告教程
- mybatis动态sql
- SQL笔记
- 【HDU】5906 Square Revolution【后缀数组+RMQ求LCP+并查集+扫描线+树状数组】【求以某个点为开始或者结尾的最短AA形式串的长度】
- 关于OkHttp设置Content-Type问题
- Spark机器学习的一些概念整理
- C++中的C_str()函数用法
- 李行统计学习,习题8.1
- 【Hibernate】Hibernate分表的实现--老古董留存
- 搭建Dobbux环境的步骤
- hdu 2077 汉诺塔IV
- ThreadPoolExecutor使用介绍
- 国庆小骑行
- WEB前端 | JS基础——(4)数组、二维数组和this