《SAS编程与数据挖掘商业案例》学习笔记之十八

来源：互联网发布：淘宝卫衣店铺推荐编辑：程序博客网时间：2024/06/15 15:30

接着以前的《SAS编程与数据挖掘商业案例》，之前全是sas的基础知识，现在开始进入数据挖掘方面笔记，本文主要介绍数据挖掘基本流程以及应用方向，并以logistic回归为例说明。

一：数据挖掘综述

衡量一个数据挖掘模型价值的唯一标准就是商业目标，为达到一个商业目标，有很多种方法，只有高效解决商业目标的方法才是最牛的方法，即使是看似简单的方法，只要能高效解决商业目标，我们就认为是牛的方法；

面对海量的数据，即使是使用了最先进的工具，最复杂的算法，但是如果挖掘出来的知识是无用的，或者挖掘的结果是无法解释的，那这种挖掘也是失败的。很多人对数据挖掘都有一个误解，认为一定要使用复杂的工具和复杂的算法，其实是一种误导。

数据挖掘流程：商业理解、数据收集、数据清洗、数据特征化、数据建模、模型打分、模型验证、模型实施、模型优化

描述分析：对已经发生的现象进行分析，主要分析技术有描述性分析、数据特征化、聚类分析、孤立点分析

因果分析：寻找发生的原因，主要技术有联机分析、相关性分析、回归分析、关联分析、因子分析

分类和预测：

主要分类技术：决策树、判别分析、贝叶斯分类、logistic回归分析、神经网络、支持向量机等

预测技术有：多元线性回归分析、广义线性回归分析、非线性回归分析、神经网络分析

二：商业目标：

1、评价活动的效果：比较分析

通过开展工作组和控制组进行比对。

2.特征分析

比如要分析高价值客户的特征，通过特征化数据（均值、方差、极值）、相关性度量（相关系数、卡方值、基尼系数、熵）、聚类分析、因子分析等发现表面的和潜在的数据特征。

3.市场细分

市场细分由业务主导，而不是技术主导。细分结果一定要以易于开展营销活动为目的。

4.响应

提高某个营销活动的响应度

5.风险

风险控制指标通常包括：资产负债情况、信用记录、工作稳定性、收入、教育程度、家庭人口结构

风险模型的建立在技术上类似于响应模型，但对于业务上有很大的区别，比如定义目标变量上，风险模型可能有很多因素决定，一个比较常见的定义：拖欠额度超过某一数值，并逾期超过3个月的客户作为风险客户（目标变量值为1，其余情况为0）

6.流失

重点在于流失目标变量的定义；

7.提升销售和交叉销售

数据挖掘商业应用的最高原则是：“效率、效果”

3.需求文档

需求文档包括三部分

项目计划文档（ppt）

商业目标、

技术目标、

计划内容、

项目路线图、给出分析团队如何实施项目的明确时间表和每一阶段的任务

资源：是每一个项目阶段所需要的参与项目人员

方法论设计文档（word）

是解决商业需求的技术文档，是一个解决方案，最核心的内容是组合不同的算法，并给出最终能达到的理论目标

变量需求文档（excel）

4.建模流程图

《SAS编程与数据挖掘商业案例》学习笔记之十八

5.logistic建模及结果详解

商业应用领域，logistic回归是应用最广泛的预测模型，神经网络存在过度拟合的嫌疑，而决策树可能存在预测结果的不稳定性，并且在大数据的情况下决策树存在失灵现象，因此logistic回归相对于另外两个是一个适度的模型，再加上输出结果有很好的解释性，应用很广泛

logistic变换：logit(p)=ln(p/1-p) 然后再与自变量进行线性拟合

logistic回归中，因变量y服从二项分布或多项分布，而线性回归分析中y是服从正态分布

logistic回归中不存在线性回归中的残差项，

logistic回归采用MLE（最大似然估计），而线性回归分析采用的是LSE（最小二乘估计）

LSE的原理是假设残差独立同分布，然后构造样本函数，使得因变量的观测值和模型估计值之间的离差平方和最小。

MLE的原理，是构造似然函数，对于二值型的logistic回归来说，服从二点分布，

评价模型好坏的指标：

1）拟合优度

拟合优度是衡量预测值和观测值之间的总体一致性，但是在评价模型时，实际上测量的是预测值和观测值之间的差别，实际上是模型预测的“劣度”，即拟合不佳检验，常用的指标是HL(hosmer-lemeshow)和IM(information measures)

HL是一种类似于皮尔逊-卡方统计量的指标，对应的统计假设H0是预测值概率和观测值之间无显著差异，因而如果HL有较大的P值，则接受原假设，说明统计结果不显著，因而，不能拒绝关于模型拟合数据很好的假设，即模型很好的拟合了数据。可以通过调用lackfit选项命令实现

IM指标中比较显著的是AIC和SC，AIC越小标示拟合模型越好，sc是对aic指标的一种修正，与AIC同向作用

2）卡方统计

卡方统计监测的是模型中所包含的自变量对因变量有显著的解释能力，在多元线性回归和ANOVA中，常用F检验达到目的，在logistic中用似然比检验，相当于F检验，在sas输出结果中就是likelihood ratio对应的值，

注:卡方值和拟合优度是两个完全不同的概念，前者度量的是自变量和因变量的ODDS自然对数线性相关，而后者度量的是预测值和观测值之间的一致性，所以，最好是模型卡方统计性显著而拟合优度统计性不显著。

3）预测准确性

预测准确性问题是：检验所有x变量到底能解释多少Y变量的波动

RSQUARE：Y变异中被解释的比例，

C统计量：度量的是观测值和条件预测概率之间的相对一致性；

指标越高，表示预测概率与观测反应变量之间的关联越密切。

总结如下：

统计量

趋势

作用

sas命令

备注

C统计量

越大越好

度量的是观测值和条件预测概率之间的相对一致性

自动输出

似然比卡方

越大越好

类似于F检验，度量回归平方和，自变量对因变量的显著解释能力

自动输出

P值越小越好

AIC

越小越好

类似于多远回归残差平方和

自动输出

RSQUARE

越大越好

Y变异中被解释的比例

RSQ

HL统计量

越小越好

度量观测值与预测值总体的一致性

LACKFIT

P值越大越好

商业实战中，一般考虑前两种，因为logistic回归是一个分类模型，目标变量的值只是一个分类标示，因而更关注观测值和预测值之间的相对一致性，而不是绝对一致性，因而分析师更关注于模型预测概率值的排序，而lift图也正是从概率排序结果得到的。

应用举例和输出结果的解释

Proc logistic data=lg.remission desc; *按目标变量降序输入建模数据集

model remiss =cell smear infil li blast temp

/ selection=stepwise

slentry=0.3 slstay=0.35 details lackfit stb; *设置进入阈值和保留阈值，并输出详细结果，输出HL统计量，输出标准化数

据后的模型参数

output out=pred p=phat; *设置预测概率变量为phat

Run;

在输出结果association of predicted probabilities and observed responses中最后一列的C统计量，一般大于0.7以上就可以用该模型

0 0