用于预测分析的分类与回归

来源:互联网 发布:树莓派 tensorflow 编辑:程序博客网 时间:2024/05/22 00:29

分类(classification)是这样的过程,它找出描述和区分数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象的类标号。导出模型是基于对训练数据集(即,类标号已知的数据对象)的分析。该模型用来预测类标号未知的对象的类标号。

“如何提供导出的模型?”导出的模型可以用多种形式表示,如分类规则(即IF-THEN规则)、决策树、数学公式或神经网络(见图1.9)。决策树是一种类似于流程图的树结构,其中每个结点代表在一个属性值上的测试,每个分支代表测试的一个结果,而树叶代表类或类分布。容易把决策树转换成分类规则。当用于分类时,神经网络是一组类似于神经元的处理单元,单元之间加权连接。还有许多构造分类模型的其他方法,如朴素贝叶斯分类、支持向量机和k最近邻分类。


 

分类预测类别(离散的、无序的)标号,而回归建立连续值函数模型。也就是说,回归用来预测缺失的或难以获得的数值数据值,而不是(离散的)类标号。术语预测可以指数值预测和类标号预测。尽管还存在其他方法,但是回归分析(regression analysis)是一种最常使用的数值预测的统计学方法。回归也包含基于可用数据的分布趋势识别。

相关分析(relevance analysis)可能需要在分类和回归之前进行,它试图识别与分类和回归过程显著相关的属性。我们将选取这些属性用于分类和回归过程,其他属性是不相关的,可以不必考虑。

例1.8 分类与回归。假设作为AllElectronics的销售经理,你想根据对促销活动的三种反应,对商店的商品集合分类:好的反应,中等反应和没有反应。你想根据商品的描述特性,如price、brand、place_made和category,对这三类的每一种导出模型。结果分类将最大限度地区别每一类,提供有组织的数据集描述。

假设结果分类模型用决策树的形式表示。例如,决策树可能把price看做最能区分三个类的因素。该树可能揭示,除了price之外,帮助进一步区分每类对象的其他特征包括brand和place_made。这样的决策树可以帮助你理解给定促销活动的影响,并帮助你设计未来更有效的促销活动。

假设你不是预测顾客对每种商品反应的分类标号,而是想根据先前的销售数据,预测在AllElectronics的未来销售中每种商品的收益。这是一个回归分析的例子,因为所构造的模型将预测一个连续函数(或有序值)。

第8、9章将更详细地讨论分类。回归分析超出了本书的范围,更多信息在文献注释中给出。