信用评分

来源:互联网 发布:外星人学物理2淘宝网 编辑:程序博客网 时间:2024/04/29 20:17

1、业务初期:无信贷表现样本,总结人为经验,形成层次分析法(AHP),建立信用评分。

ID3用信息增益选择属性,偏向选择取值多的属性,产生许多小而纯的子集,甚至有的子集只含有一个样本,这样的决策树没有实际意义!

C4.5用信息增益比例最大者作为分裂属性,选择值较多且均匀分布的属性。

决策树过程中可以考虑进误分类损失矩阵。


2、逻辑回归中sparsity是: (percentage of zero coefficients) ,参数C越大,sparsity越小,模型越free

3、ks_2samp检验指定的两个数列是否服从相同分布:

from scipy.statsimport ks_2samp
beta=np.random.beta(7,5,1000)
norm=np.random.normal(0,1,1000)
ks_2samp(beta,norm)
#>>>(0.60099999999999998, 4.7405805465370525e-159)

先分别使用beta分布和normal分布产生两个样本大小为1000的数列,使用ks_2samp检验两个数列是否来自同一个样本,假设:beta和norm服从相同的分布。

最终返回的结果,p-value=4.7405805465370525e-159,比指定的显著水平(假设为5%)小,则我们完全可以拒绝假设:beta和norm不服从同一分布。

4、数据清洗:去重、缺失值、异常值、格式

5、WOE转换时评分卡特有的过程

6、模型:准确、稳健、简单、有意义

7、征信模型中,最期望得到的信用分数分布是正态分布




0 0