《数据挖掘概念与技术》学习笔记第7章(7/10)分类和预测

来源：互联网发布：阿里云主机价格编辑：程序博客网时间：2024/04/28 03:21

分类

第一步，建立一个模型，描述预定的数据类集或者概念集。

第二步，使用模型进行分类。

补充说明：

1 数据类集或者概念集还可以被称为样本、实例、对象。

2为建立模型而被分析的数据类集称为训练数据集。

3 这是一种有指导的学习，而在聚类中，使用的是无指导的学习。

对分类方法进行评估

可以采用的评估标准包括：预测的准确率、速度、强壮性、可伸缩性、可解释性。

判定树的可伸缩性

大部分判定树算法都把训练样本限制在了内存中，然而包含数以百万计样本的非常大的训练集是很普通的。因此，这一限制就制约了算法的可伸缩性。目前针对此问题的的改进算法是SLIQ和SPRINT，核心解决之道是预排序

贝叶斯分类

算法实现(以后单独写出)

其它分类方法

k-最邻近分类

基于案例的推理(case-based reasoning)

遗传算法

粗糙集方法

模糊集方法

预测

一般认为，如果预测结果是离散值，则应该叫做分类。

如果预测结果是连续值，则应该叫做预测。

预测的方法

线性回归：使用最小二乘法

多元回归

非线性回归