分类和预测 2

来源：互联网发布：动态规划最短路径java 编辑：程序博客网时间：2024/05/02 03:10

预测是构造和使用模型评估无样本类，或评估给定样本可能具有的属性或值空间。

预测和分类的异同

1. 相同点

两者都需要构建模型

都用模型来估计未知值

预测当中主要的估计方法是回归分析

线性回归和多元回归

非线性回归

2. 不同点

分类法主要是用来预测类标号（分类属性值）

预测法主要是用来估计连续值（量化属性值）

1. 评估分类法的准确性

导出分类法后，再使用训练数据评估分类法，可能错误的导致乐观的估计
保持方法:
给定数据随机划分为2个集合，训练集（2/3）和测试集（1/3）
训练集导出分类法，测试集对其准确性进行评估
随机子选样：保持方法的一个变形，将保持方法重复k次，然后取准确率的平均值
k-折交叉确认
初始数据被划分为k个不相交的，大小大致相同的子集S1, S2, Sk
进行k次训练和测试，第i次时，以Si做测试集，其他做训练集
准确率为k次迭代正确分类数除以初始数据集样本总数

2. 提高分类法的准确性
Bagging技术和boosting技术都通过将T个学习得到的分类法C1, C2, ..., CT组合起来，从而创造一个改进的分类法C*
Bagging技术
对训练集S进行T次迭代，每次通过放回取样选取样本集St，通过学习St得到分类法Ct
对于未知样本X，每个分类法返回其类预测，作为一票
C*统计得票，并将得票最高的预测赋予X

Boosting技术
每个训练样本赋予一个权值
Ct的权值取决于其错误率