Python与机器学习(三)

来源:互联网 发布:网络执法官绿色版 编辑:程序博客网 时间:2024/05/22 07:08

监督学习

  • 概念:
    • 利用一组带标签的数据,学习从输入到输出的映射,然后将这种映射关系应用到未知数据上,达到分类或回归的目的。
    • 分类:当输出是离散的,学习任务为分类任务
    • 回归:当输出是连续的,学习任务为回归任务
  • 分类学习
    • 输入:一组有标签的训练数据,标签表明了这些数据的所属类别
    • 输出:分类模型根据这些训练数据,训练自己的模型参数,学习出一个适合这组数据的分类器,当有新数据需要进行类别判断,就可以将这组新数据作为输入送给学好的分类器进行判断。
  • 分类学习——评价
    • 训练集:用来训练模型的已标注数据,用来建立模型,发现规律
    • 测试集:也是已标注数据,通常做法是将标注隐藏,输送给训练好的模型,通过结果与真实标注进行对比,评估模型的学习能力。
  • 评价分类器的指标:
    • 准确率:预测对的/所有
    • 精确率
    • 召回率:是针对原来的样本而言的,它表示的是样本中的正例有多少被预测正确了。
  • sklearn提供的分类函数包括
    • k近邻
    • 朴素贝叶斯
    • 支持向量机
    • 决策树
    • 神经网络模型
  • 分类算法的应用
    • 金融
    • 医疗诊断
    • 欺诈检测
    • 网页分类

回归分析

  • 回归概念:
    *统计学分析数据的方法,目的在于了解两个或多个变数之间是否相关、研究其相关方向与强度,并建立数学模型以便观察特定变数来预测研究者感兴趣的变数。回归分析可以帮助人们了解在自变量变化是因变量的变化量。一般来说,通过回归分析我们可以有给出的自变量估计因变量的条件期望。
  • 线性回归函数
    • 普通线性回归函数
    • 岭回归
    • Lasso
  • 应用举例
    • 股票趋势预测
    • 交通流量预测

三个基本分类模型

K近邻分类器(KNN)

  • 定义:
    • 通过计算待分类数据点与已有数据集中的所有数据点的距离。取距离最小的前K个点,根据“少数服从多数”的原则,将这个数据点划分为出现次数最多的那个类别。

决策树

  • 定义:
    • 决策树是一种树形结构的分类器,通过顺序询问分类点的属性决定分类点最终的类别。通常根据特征的信息增益或其他指标,国建一颗决策树。在分类时,只需要按照决策树中的结点依次进行判断,即可得到样本所属类别。
    • 实质:
      • 决策树本质上是寻找一种对特征空间上的划分,旨在构建一个训练数据拟合的好,并且复杂度小的决策树。

朴素贝叶斯

  • 定义
    • 朴素贝叶斯分类器是一个以贝叶斯定理为基础的多分类的分类器。
    • 对于给定的数据,首先基于特征的条件独立性假设,学习输入输出的联合概率分布,然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。
  • sklearn库实现了三个朴素贝叶斯分类器
    • 高斯贝叶斯分类器
    • 针对多项式模型的朴素贝叶斯分类器
    • 针对多元伯努利模型的朴素贝叶斯分类器
  • 评价:
    • 朴素贝叶斯是典型的生成学习方法,由训练数据学习联合概率分布,并求得后验概率分布。
    • 朴素贝叶斯一般在小规模数据上表现很好,适合进行多分类任务。

线性回归

  • 定义
    • 线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法