Python与机器学习（三）

来源：互联网发布：网络执法官绿色版编辑：程序博客网时间：2024/05/22 07:08

监督学习

概念：
- 利用一组带标签的数据，学习从输入到输出的映射，然后将这种映射关系应用到未知数据上，达到分类或回归的目的。
- 分类：当输出是离散的，学习任务为分类任务
- 回归：当输出是连续的，学习任务为回归任务
分类学习
- 输入：一组有标签的训练数据，标签表明了这些数据的所属类别
- 输出：分类模型根据这些训练数据，训练自己的模型参数，学习出一个适合这组数据的分类器，当有新数据需要进行类别判断，就可以将这组新数据作为输入送给学好的分类器进行判断。
分类学习——评价
- 训练集：用来训练模型的已标注数据，用来建立模型，发现规律
- 测试集：也是已标注数据，通常做法是将标注隐藏，输送给训练好的模型，通过结果与真实标注进行对比，评估模型的学习能力。
评价分类器的指标：
- 准确率：预测对的/所有
- 精确率
- 召回率：是针对原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。
sklearn提供的分类函数包括
- k近邻
- 朴素贝叶斯
- 支持向量机
- 决策树
- 神经网络模型
分类算法的应用
- 金融
- 医疗诊断
- 欺诈检测
- 网页分类

回归概念：
*统计学分析数据的方法，目的在于了解两个或多个变数之间是否相关、研究其相关方向与强度，并建立数学模型以便观察特定变数来预测研究者感兴趣的变数。回归分析可以帮助人们了解在自变量变化是因变量的变化量。一般来说，通过回归分析我们可以有给出的自变量估计因变量的条件期望。
线性回归函数
- 普通线性回归函数
- 岭回归
- Lasso
应用举例
- 股票趋势预测
- 交通流量预测

定义：
- 决策树是一种树形结构的分类器，通过顺序询问分类点的属性决定分类点最终的类别。通常根据特征的信息增益或其他指标，国建一颗决策树。在分类时，只需要按照决策树中的结点依次进行判断，即可得到样本所属类别。
- 实质：
  - 决策树本质上是寻找一种对特征空间上的划分，旨在构建一个训练数据拟合的好，并且复杂度小的决策树。

定义
- 朴素贝叶斯分类器是一个以贝叶斯定理为基础的多分类的分类器。
- 对于给定的数据，首先基于特征的条件独立性假设，学习输入输出的联合概率分布，然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。
sklearn库实现了三个朴素贝叶斯分类器
- 高斯贝叶斯分类器
- 针对多项式模型的朴素贝叶斯分类器
- 针对多元伯努利模型的朴素贝叶斯分类器
评价：
- 朴素贝叶斯是典型的生成学习方法，由训练数据学习联合概率分布，并求得后验概率分布。
- 朴素贝叶斯一般在小规模数据上表现很好，适合进行多分类任务。

阅读全文

0 0