数据挖掘学习------------------4-分类方法-6-判别分析

来源：互联网发布：百度竞价数据分析案例编辑：程序博客网时间：2024/05/22 14:19

4.6判别分析

它是根据观察或测量到的若干变量值判断研究对象如何分类的方法。

①具体来讲，就是已知一定数量案例的一个分组变量和这些案例的一些特征变量，确定分组变量和特征变量之间的数量关系，建立判别函数。

②然后便可以利用这一数量关系对其他已知特征变量信息、但未知分组类型所属的案例进行判别分组。

①分组变量的水平必须大于或等于2。

②每组案例的规模必须至少在一个以上。

③各判别变量的测试水平必须在间距测度等级以上。

④即各判别变量的数据必须为等距或等比数据。

⑤各分组的案例在各判别变量的数值上能够体现差别。

①每个判别变量不能是其他判别变量的线性组合，否则将无法估计判别函数，或者虽然能够求解，但参数估计的标准误差很大，以致参数估计统计性不显著。

②各组案例的协方差矩阵相等。在此条件下，可以使用很简单的公式来计算判别函数和进行显著性研究。

③各判别变量之间具有多元正态分布，即每个变量对于所有其他变量的固定值有正态分布。

沿用多元回归模型的称谓，在判别分析中称分组变量为因变量，而用以分组的其他特征变量称为判别变量或自变量。

判别分析的基本模型就是判别函数，他表示为分组变量与满足假设的条件的判别变量的线性函数关系。

其数学形式为：y = b0 +b1x1 + b2x2＋...+bkxk

其中，y是判别函数值，又简称判别值；xi为各判别变量；bi为相应的判别系数，表示各判别变量对于判别函数值得影响，其中b0是常数项。

①各判别变量代表了k维空间，每个案例按其判别变量值成为这k维空间中的一点。

②如果各组案例就其判别变量值有明显不同，就意味着每一组将会在这个组的位置。

③中心的位置可以用这个组别中各案例在每个变量上的组平均值作为其坐标值。

④因为每个中心代表所在组的基本位置，分析人员可以通过研究它们来取得对于这些分组之间差别的理解。

⑤这个线性函数应该能够在吧P维空间中的所有点转化为一维数值之后。

⑥既能最大限度地缩小同类中各个样本点之间的差异，又能最大限度地扩大不同类别中各个样本点之间的差异,这样才可能获得较高的判别效率。

⑦在这里借用了一元方差分析的思想，即依据组间均方差与组内均方差之比最大的原则进行判别。

①根据已掌握的、历史上每个类别的若干样本的数据信息，总结出客观事物分类的规律性，建立判别公式和判别准则。

②当遇到新的样本点时，只要根据总结出来的判别公式和判别准则，就能判别该样本点所属类型。

③判别分析按照判别的组数来区分，可以分为两组判别分析和多组判别分析。

基于4.2银行市场调查的分类器

阅读全文

0 0