逻辑回归在个人信用评估模型上的运用

来源:互联网 发布:centos yum pdo mysql 编辑:程序博客网 时间:2024/04/29 21:12

摘自《逻辑回归在个人信用评估模型上的运用》——胡滨

一、逻辑回归模型的概念

    非线性概率模型,又称逻辑模型(Logistic Regression),其基本形式为一种非线性函数——逻辑函数:


    其中, 为采取某选择的概率, 为自变量。这个函数具有我们希望的良好性质,它的图形是一条S型曲线。
   

    我们可以把左端整体看作一个变量,于是便有线性回归模型:

      

    逻辑回归模型作为一种概率模型,可用于预测某事件发生的概率,主要解决二值变量的预测或分类问题。

二、模型所解决的问题

    生活中面临着许多二值(dichotomous)变量,需要去判断它的归属。所谓二值变量,是指仅取两个值的变量,可以赋予任何两个不同的记号,一般用0和1标记。

    判断二值变量的归属问题,要基于概率论和统计的知识。

    假定有一个二值变量y,仅取0和1两个值,我们研究的对象是probability=P(y=1),简记为p=P(y=1)。

    个人信用评估领域,在已知影响消费者信用品质的各种预测指标(也称中间变量)后,需要预测申请人的信贷风险概率(或申请人的“好”与“坏”)。

    申请人的“好”与“坏”(outcome flag)用y表示,y=1 表示“坏”,y=0表示“好”,现在要预测 P(y=1)。

三、模型的形式

    假定有 s个开发样本,他们的预测指标X1,X2…Xn以及二值结果记号y已知,数据结构如下表所示:

逻辑回归模型的数据结构

      

    有了上面的开发样本以后,我们就可以建立逻辑 回归模型了。

    把具有下面形式的模型称为逻辑回归模型:

      

    其中:p=P(y=1)是我们感兴趣的二值变量中 y=1发生的概率,是需要预测的。 X1, X2…Xn 是影响 y=1发生的 n 个预测变量。B0,B1,…Bn是我们需要估计的模型参数。

四、模型的解释

    1、p=P(y=1)的计算

    我们建立 逻辑 回归模型的最终目的是为了预测P(y=1),通过对开发样本数据的建模,待估计出 B0,B1,…Bn后,根据上面的模型表达式,对其进行简单的数学变换,就可以得到:

      

    2、模型的预测和解释

    现在有一个新的观测,他的预测变量 X1,X2,..Xn的值已知,我们把这些值带入上式就可以得到该观测的 P(y=1)。

五、模型应用研究举例

    某银行在探讨消费者有关风险因素的研究中,收集了一批信贷客户的样本数据,现从中随机抽取1000例数据作为示例进行逻辑回归分析:

某银行样本数据

      

    其中,i 表示样本编号;x1表示checking-支票;x2表示property-资产;x3表示duration-持续时间;x4表示history-信贷历史;x5表示saving-存款;y表示信用的好坏(‘好’y=1;‘坏’y=0)。借助于SAS软件,得到模型的参数估计值如下:

举例模型的参数估计值

      

    于是我们可以得到 p=P(y=1)的计算公式。现在有一个新的申请者,他的各种指标分别为:x1=1,x2=3,x3=48,x4=2,x5=1,带入上式,得到他成为“坏”账户的概率为0.754。

0 0