SPSS MODELER支持的自动分类算法

来源:互联网 发布:济南网络服务公司 编辑:程序博客网 时间:2024/05/23 00:09

支持的算法


神经网络节点使用的模型是对人类大脑处理信息的方式简化了的模型。此模型通过模拟大量类似于神经元的抽象形式的互连简单处理单元而运行。神经网络是功能强大的一般函数估计器,只需要最少的统计或数学知识就可以对其进行训练或应用。

C5.0 节点构建决策树或规则 集。该模型的工作原理是根据在每个级别提供最大信息收获的字段分割样本。目标字段必须为分类字段。允许进行多次多于两个子组的分割。

分类和回归 (C&R) 树节点生成可用于预测或分类未来观测值的决策树。该方法通过在每个步骤最大限度降低不纯洁度,使用递归分区来将训练记录分割为组。如果树中某个节点中 100% 的观测值都属于目标字段的一个特定类别,那么该节点将被认定为“纯洁”。目标和输入字段可以是数字范围或分类(名义、有序或标志);所有分割均为二元分割(即仅分割为两个子组)。

QUEST 节点可提供用于构建决策树的二元分类法,此方法的设计目的是减少大型 C&R 树分析所需的处理时间,同时也减少在分类树方法中发现的趋势以便支持允许有多个分割的输入。输入字段可以是数字范围(连续),但目标字段必须是分类。所有分割都是二元的。

CHAID 使用卡方统计量来生成决策树,以确定最佳的分割。CHAID 与 C&R 树和 QUEST 节点不同,它可以生成非二元树,这意味着有些分割将有多于两个的分支。目标和输入字段可以是数字范围(连续)或分类。Exhaustive CHAID 是 CHAID 的修正版,它对所有分割进行更彻底的检查,但计算时间比较长。

Logistic 回归是一种统计方法,它可根据输入字段的值对记录进行分类。它类似于线性回归,但采用的是类别目标字段而非数字范围。

决策列表节点可标识子组或段,显示与总体相关的给定二元结果的似然度的高低。例如,您或许在寻找那些最不可能流失的客户或最有可能对某个商业活动作出积极响应的客户。通过定制段和并排预览备选模型来比较结果,您可以将自己的业务知识体现在模型中。决策列表模型由一组规则构成,其中每个规则具备一个条件和一个结果。规则依顺序应用,相匹配的第一个规则将决定结果。

通过贝叶斯网络节点,你可以利用对真实世界认知的判断力并结合所观察和记录的证据来构建概率模型。该节点重点应用了树扩展简单贝叶斯 (TAN) 和马尔可夫覆盖网络,这些算法主要用于分类问题。

判别分析所做的假设比 logistic 回归的假设更严格,但在符合这些假设时,判别分析可以作为 logistic 回归分析的有用替代项或补充。

The k-最近相邻元素 (KNN) 节点将新的个案关联到预测变量空间中与其最邻近的 k 个对象的类别或值(其中 k 为整数)。类似个案相互靠近,而不同个案相互远离。

使用支持向量机 (SVM) 节点,可以将数据分为两组,而无需过度拟合。SVM 可以与大量数据集配合使用,例如那些含有大量输入字段的数据集。
原创粉丝点击