逻辑回归在个人信用评估模型上的运用

来源：互联网发布：centos yum pdo mysql 编辑：程序博客网时间：2024/04/29 21:12

摘自《逻辑回归在个人信用评估模型上的运用》——胡滨

一、逻辑回归模型的概念

非线性概率模型，又称逻辑模型（Logistic Regression），其基本形式为一种非线性函数——逻辑函数：

其中，为采取某选择的概率，为自变量。这个函数具有我们希望的良好性质，它的图形是一条S型曲线。

我们可以把左端整体看作一个变量，于是便有线性回归模型：

逻辑回归模型作为一种概率模型，可用于预测某事件发生的概率，主要解决二值变量的预测或分类问题。

二、模型所解决的问题

生活中面临着许多二值（dichotomous）变量，需要去判断它的归属。所谓二值变量，是指仅取两个值的变量，可以赋予任何两个不同的记号，一般用0和1标记。

判断二值变量的归属问题，要基于概率论和统计的知识。

假定有一个二值变量y，仅取0和1两个值，我们研究的对象是probability＝P(y=1)，简记为p＝P(y=1)。

个人信用评估领域，在已知影响消费者信用品质的各种预测指标（也称中间变量）后，需要预测申请人的信贷风险概率（或申请人的“好”与“坏”）。

申请人的“好”与“坏”（outcome flag）用y表示，y=1 表示“坏”，y=0表示“好”，现在要预测 P(y=1)。

三、模型的形式

假定有 s个开发样本，他们的预测指标X1,X2…Xn以及二值结果记号y已知，数据结构如下表所示：

逻辑回归模型的数据结构

有了上面的开发样本以后，我们就可以建立逻辑回归模型了。

把具有下面形式的模型称为逻辑回归模型：

其中：p＝P(y=1)是我们感兴趣的二值变量中 y=1发生的概率，是需要预测的。 X1, X2…Xn 是影响 y=1发生的 n 个预测变量。B0,B1,…Bn是我们需要估计的模型参数。

四、模型的解释

1、p＝P(y=1)的计算

我们建立逻辑回归模型的最终目的是为了预测P(y=1)，通过对开发样本数据的建模，待估计出 B0,B1,…Bn后，根据上面的模型表达式，对其进行简单的数学变换，就可以得到：

2、模型的预测和解释

现在有一个新的观测，他的预测变量 X1,X2,..Xn的值已知，我们把这些值带入上式就可以得到该观测的 P(y=1)。

五、模型应用研究举例

某银行在探讨消费者有关风险因素的研究中，收集了一批信贷客户的样本数据，现从中随机抽取1000例数据作为示例进行逻辑回归分析：

某银行样本数据

其中，i 表示样本编号；x1表示checking-支票；x2表示property-资产；x3表示duration-持续时间；x4表示history-信贷历史；x5表示saving-存款；y表示信用的好坏（‘好’y=1；‘坏’y=0）。借助于SAS软件，得到模型的参数估计值如下：

举例模型的参数估计值

于是我们可以得到 p＝P(y=1)的计算公式。现在有一个新的申请者，他的各种指标分别为：x1=1,x2=3,x3=48,x4=2,x5=1，带入上式，得到他成为“坏”账户的概率为0.754。

0 0