《数据挖掘概念与技术》学习笔记第7章(7/10)分类和预测

来源:互联网 发布:阿里云主机 价格 编辑:程序博客网 时间:2024/04/28 03:21

分类

第一步,建立一个模型,描述预定的数据类集或者概念集。

第二步,使用模型进行分类。

补充说明:

1 数据类集或者概念集还可以被称为样本、实例、对象。

2为建立模型而被分析的数据类集称为训练数据集。

3 这是一种有指导的学习,而在聚类中,使用的是无指导的学习。

对分类方法进行评估

可以采用的评估标准包括:预测的准确率、速度、强壮性、可伸缩性、可解释性。

  

判定树的可伸缩性

大部分判定树算法都把训练样本限制在了内存中,然而包含数以百万计样本的非常大的训练集是很普通的。因此,这一限制就制约了算法的可伸缩性。目前针对此问题的的改进算法是SLIQSPRINT,核心解决之道是预排序

 

贝叶斯分类

算法实现(以后单独写出)

 

其它分类方法

k-最邻近分类

基于案例的推理(case-based reasoning)

遗传算法

粗糙集方法

模糊集方法

 

预测

一般认为,如果预测结果是离散值,则应该叫做分类。

如果预测结果是连续值,则应该叫做预测。

预测的方法

线性回归:使用最小二乘法

多元回归

非线性回归

 

原创粉丝点击