信用评分

来源：互联网发布：外星人学物理2淘宝网编辑：程序博客网时间：2024/04/29 20:17

1、业务初期：无信贷表现样本，总结人为经验，形成层次分析法（AHP），建立信用评分。

ID3用信息增益选择属性，偏向选择取值多的属性，产生许多小而纯的子集，甚至有的子集只含有一个样本，这样的决策树没有实际意义！

C4.5用信息增益比例最大者作为分裂属性，选择值较多且均匀分布的属性。

决策树过程中可以考虑进误分类损失矩阵。

2、逻辑回归中sparsity是： (percentage of zero coefficients) ，参数C越大，sparsity越小，模型越free

3、ks_2samp检验指定的两个数列是否服从相同分布:

from scipy.statsimport ks_2samp

beta=np.random.beta(7,5,1000)

norm=np.random.normal(0,1,1000)

ks_2samp(beta,norm)

#>>>(0.60099999999999998, 4.7405805465370525e-159)

先分别使用beta分布和normal分布产生两个样本大小为1000的数列，使用ks_2samp检验两个数列是否来自同一个样本，假设：beta和norm服从相同的分布。

最终返回的结果，p-value=4.7405805465370525e-159，比指定的显著水平（假设为5%）小，则我们完全可以拒绝假设：beta和norm不服从同一分布。

4、数据清洗：去重、缺失值、异常值、格式

5、WOE转换时评分卡特有的过程

6、模型：准确、稳健、简单、有意义

7、征信模型中，最期望得到的信用分数分布是正态分布

0 0