互联网金融时代下机器学习与大数据风控系统

来源：互联网发布：全民淘宝客能挣钱吗编辑：程序博客网时间：2024/05/22 14:13

机器学习在互联网金融行业中的应用

在企业数据的应用的场景下，人们最常用的主要是监督学习和无监督学习的模型，在金融行业中一个天然而又典型的应用就是风险控制中对借款人进行信用评估。因此互联网金融企业依托互联网获取用户的网上消费行为数据、通讯数据、信用卡数据、第三方征信数据等丰富而全面的数据，可以借助机器学习的手段搭建互联网金融企业的大数据风控系统。
除了在放贷前的信用审核外，互联网金融企业还可以借助机器学习完成传统金融企业无法做到的放贷过程中对借款人还贷能力进行实时监控，以及实时对后续可能无法还贷的人进行事前的干预，从而减少因坏账而带来的损失。以点融网为例，经过这两年的发展，我们积累了很多用户的借款还款信息，这为我们提供了高质量的模型训练样本，也为我们搭建点融的大数据自动化审批系统奠定了坚实的基础。除了自动化审批系统外，后续我们将在用户还款能力实时监控，标的有效组合，资产的合理配置等方面进行发力。
目前互联网金融企业以及第三方征信公司在信用评估这方面比较常用的架构是规则引擎加信用评分卡。说到信用评分卡，最常用的算法就是Logistic Regression，这也是被银行信用卡中心或金融工程方面奉为法宝的算法。的确，Logistic Regression因其简单、易于解释、开发及运维成本较低而受到追捧。然而互联网中获取的用户的数据维度较多，以离散或分类属性变量居多，且缺失数据较多，在这种情况下，Logistic Regression的适应性会较差。而且规则引擎和信用评分卡模型分开的模式，有时会因为规则引擎里面某些规则过强而拒绝掉很多优质客户。比如，某人因学生时代的助学贷款在刚毕业时未能及时偿还而发生过逾期，按现有银行审批规则是无论现在怎样，申请信用卡时一律拒绝。因此比较好的改进方法是，将规则引擎作为一系列弱的分类器，与信用卡评分分类器一块构成强的分类器模型。在这方面，GBDT将是一个不错选择。
GBDT(Gradient Boosting Decision Tree)又叫MART(Multiple Additive Regression Tree),该模型不像决策树模型那样仅由一棵决策树构成，而是由多棵决策树构成，通常都是上百棵树，而且每棵树规模都较小（即树的深度会比较浅）。模型预测的时候，对于输入的一个样本实例，首先会赋予一个初值，然后会遍历每一棵决策树，每棵树都会对预测值进行调整修正，最后得到预测的结果。
GBDT在被提出之初就和SVM一起被认为是泛化能力（generalization）较强的算法。近些年更因被广泛应用于搜索排序以及推荐中而引起大家的关注，如Yahoo, Ebay等大型互联网公司就采用过GBDT进行搜索排序。在国内，我在携程工作时就曾应用GBDT算法对客人进行酒店noshow和延住的预测，为公司每年带来千万的收入，该项目是携程技术驱动业务发展的典型代表。
GBDT作为一种boosting算法，自然包含了boosting的思想，即将一系列弱分类器组合起来构成一个强分类器。它不要求每个分类器都学到太多的东西，只要求每个分类器都学一点点知识，然后将这些
学到的知识累加起来构成一个强大的模型。

0 0