数据挖掘分类器在保险业务中的应用

来源:互联网 发布:知道mac地址有什么用 编辑:程序博客网 时间:2024/05/17 04:53

  保险是一项风险业务,保险公司的一个重要工作就是进行风险评估,风险评估对保险公司的正常运作至关重要,保费和保单的设计都需要进行比较详细的风险分析。在利用数据挖掘工具进行风险分析时,通常可以利用决策树的方法,在保险公司建立的保单及索赔信息数据库的基础上寻找保单中风险较大的领域,从而得出一些实用的控制风险的规则,指导保险公司的工作。

  保险公司的投资组合数据库包含用户购买的保单集合。保单用来确保一个标定物的价值不会失去。当标定物遭到损失或丢失时,要根据保单进行索赔。一个保单在一定的时间内有效,其有效时间被称为风险期。在任一时间,投资组合数据库中的保单所承担的风险都是不同的。

  保险公司成功的一个关键因素是在设置具有竞争力的保费和覆盖风险之间选择一种平衡。保险市场竞争激烈,设置过高的保费意味着会失去市场,而保费过低又会影响公司的赢利。保费通常是通过对一些主要的因素(如人寿保险中投保人的身体健康状况、汽车保险中车辆的类型等),进行多种分析和经验判断来确定。由于投资组合的数量很大,分析方法常常是粗略的。而数据挖掘提供了进行保险投资组合数据库分析的环境。

一、构造决策树

  决策树方法起源于概念学习系统(CLS:Concept Learning System),然后发展了ID3 方法并达到高峰,最后又演化为能处理连续属性的C4.5。有名的决策树方法还有CART 和Assistant。
  决策树构造的输入是一组带有类别标记的数据,构造的结果是一棵二叉或多叉树。二叉树的内部节点(非叶子节点)一般表示为一个逻辑判断,如形式为(ai = vi ) 的逻辑判断,其中ai 是属性,vi 是该属性的某个属性值;树的边是逻辑判断的分支结果。多叉树(ID3)的内部节点是属性,边是该属性的所有取值,有几个属性值,就有几条边。树的叶子节点都是类别标记。

  构造决策树的方法是采用自上而下的递归构造。以多叉树为例,它的构造思路是:如果训练数据集合中的所有数据是同类的,则将之作为叶子节点,节点内容即是该类别标记,否则,根据某种策略选择一个属性;按照属性的各个取值,把数据集合划分为若干子集合,使得每个子集上的所有数据在该属性上具有同样的属性值;然后再依次递归处理各个子集。这种思路实际上就是“分而治之”(Divide -and -conquer)的道理。二叉树的原理与此类的差别仅在于要选择一个好的逻辑判断。

  为进行风险分析,选取索赔金额作为目标属性,其他属性作为独立变量。所有保单被划分为两类,即有索赔的和无索赔的,将索赔金额转换为“是否索赔”(值为1 或0),而后利用数据集合来生成一个完整的决策树。在生成的决策树中可以建立一个规则基。一个规则基包含一组规则,每一条规则对应决策树的一条不同路径,这条路径代表它经过节点所表示的条件的一条连接。

二、决策树分类器在保险业务中的应用

  SGI 公司的数据挖掘工具MineSet 中提供了决策树分类器和选择树分类器,进行数据挖掘工作。下面我们介绍如何用MineSet 工具的分类器对某市的医疗保险数据进行数据挖掘。
  该医疗保险数据库由个人信息表、单位信息表、一定时间段( 月) 内索赔单据表等数据表组成。各表信息如表1 ~3 所示。




  数据挖掘工作包括下面几个步骤:

  1 .数据整理

  选用的医疗保险数据是由社会保障部门提供的原始数据。通常来说,MineSet 不方便对这样的数据直接进行处理。在进行数据挖掘工作之前,需要进行前期的数据整理工作,比如根据直观经验去除数据中的冗余信息,像个人姓名、单位名称、投保日期等;统计一定时间段内个人进行医疗保险索赔的次数(因为个人是否索赔是我们最关心的信息)。

  具体而言,在个人信息表的基础上,根据单位编号检索单位编号表,获取该投保人的单位信息;根据个人保险号检索某月索赔单据表,累计该投保人索赔次数。经过数据整理工作,得到一张描述该月内个人索赔信息的数据表格,如表4 所示。


  2 .数据分析

  在MineSet 中,给出一个数据集中的一些属性,分类器可以预测出某一个特定的属性。

  把被预测的属性叫做标签(Label),用于预测的其他属性叫做描述性属性(Descriptive attributes)。MineSet 可以从一个训练集中自动地生成分类器。这个训练集由数据库中在给定描述性属性的基础上标签已经被给定的记录集组成。在生成分类器后,可以利用它来对数据集中不包含标签属性的记录进行分类。标签的值可以用分类器来预测。

  在分析保险业务时,投保人是否索赔是我们最关心的信息。对于上面的数据集,我们把属性“是否索赔”作为标签属性。其他信息如个人保险号、单位名称等根据经验判断属于不相关信息,可以在开始正式数据挖掘工作时去除;“是否索赔”属性是直接根据“索赔次数”属性得出的,因此“索赔次数”属性和“是否索赔”属性有一定的重复性,在这个比较简单的应用中也可以去除。这样,这个应用中的描述性属性包括“年龄”、“全年工资总额”、“单位性质”、“地区编号”四个字段。该月索赔信息的整个数据集作为训练集。

  3 .数据挖掘

  首先应用MineSet 的“列重要性”数据挖掘方法得出描述性属性中对标签属性的影响程度最大的列,从而避免经验判断的主观性。“列重要性”给出的结果是描述性属性中对标签属性影响最大的三个属性,在上述表中是“年龄”、“全年工资总额”、“单位性质”三个字段。

  选择“决策树”数据挖掘方法,选定“Classifer and Error"(分类及错误率评估)模式,并对交叉纠错方法涉及到的一些参数进行设置后,运行程序,就可以得到有关该保险数据集的一棵决策树, 如图1 所示。

  4 .挖掘结果分析理解

  MineSet 给出的是一棵在各节点分别根据描述性属性做决策的二叉树。将鼠标移到节点上,图上部的文本框将给出该节点的详细信息。连接各节点的连线上标明决策条件。在根节点,可以从屏幕上看到,训练集记录总数为6401,其中不索赔人数为5377,所占百分比为84.00 %;索赔人数为1024,所占百分比为16.00 %。

  决策树给出的第一个选择条件为年龄。这是我们根据经验常识也可能得出的结论,即年龄大的人可能身体要差一些。但是具体到多大岁数算“年龄大”,我们很难给出准确的数字化的结论。MineSet 工具利用统计学方法,可以对这些问题进行量化。在本例中,我们可以看到,56 岁是一个分界线。年龄小于56 岁的,在根节点的左分支,总人数为4140,其中不索赔人数为3742,占90.39 %;索赔人数为398,占9.61 %。而在右分支,年龄在56 岁以上的,总人数为2261,其中索赔人数为626,占27.69 %,所占百分比例显著上升。

  本应用中的决策树给出了年龄在56 岁以上的投保人数据的详细分析情况,因为在这批数据中,我们所关心的索赔问题出现的概率更大;如果对年龄在56 岁以下投保人数据感兴趣,则可以利用MineSet 提供的数据过滤功能,以(年龄<56)作为过滤条件,得出需要的训练集,在该训练集上应用决策树挖掘方法,生成需要的决策树图。

  在根节点的右子树中,我们可以看出索赔情况的其他一些规律。比如,下一个分支条件为“全年工资总额”。可以想像,年收入高的投保人可能更有条件在健身、保健等方面投资,而年收入相对低的投保人可能对保健考虑得少一些,所以年收入的高低对医疗保险的索赔情况产生较大的影响是可信的。

  再如,“单位类别”也是右子树中的分支条件,在其他条件相同的情况下,单位类别为企业单位的投保人索赔可能性远远低于单位类别为事业单位的投保人,结合我国医疗保险实施的具体情况,我们可以给出这样的解释:该市医疗费用的支付方法与投保人单位类别有关;企业单位投保人负担医疗费用中的较大部分,保险部门负担较小的部分;而事业单位投保人所要负担的费用占总医疗费用的比例要低得多,保险部门负责支付较大部分。在实际情况中,企业单位的投保人考虑到需要自己支付较多的费用,很多可看可不看的病很可能就不上医院了。

  根据决策树和投保人的详细信息,我们可以预测出在将来的一段时间内索赔概率的大小,并根据索赔可能性大小相应地调整某类投保人保单的费用标准。比如,一个年龄为58 岁,在企业单位工作、全年工资总额为1.2 万元的投保人,在二叉树中依次沿各分支走下去,我们可以预测他索赔的概率为9.84 %,相对而言较小,可以考虑降低这一类投保人的保单费用。而一个年龄为59 岁,在事业单位工作,全年工资总额为9500 元的投保人,根据决策树预测索赔概率为37.56 %,大大高于训练集中的平均索赔概率,则可以考虑适当提高这类投保人的保单费用。

三、选择树分类器在保险业务中的应用

  选择MineSet 的“选择树”数据挖掘方法,选定“Classifer and Error"模式,并对一些参数进行设置后,运行程序,我们可以得到有关该保险数据集的一棵选择树,如图2 所示。
  选择树图的基本原理和分析方法与决策树图是相同的,只是选择树图提供了更多的选择分支。比如在本例中,从选择树图的根节点出发可以选择“年龄”、“全年工资总额”、“单位类别”、“地区编号”等四个不同的分支;如果我们在医疗保险领域拥有丰富的经验,则可以根据自己的经验选择不同的分支,而不像决策树图中那样只能被动地根据决策树图给出的判断条件在二叉树中进行检索。

  虽然生成选择树的代价比决策树要大(运算量大,时间更长)。但选择树有两个显著的优点:

  1、可理解性更强。选择节点提供了几种可能的选择。当你在树中浏览时,你可以选择你认为最容易理解的或在具备一定的背景知识的基础上确认更利于作出预测的分支。
  2、更高的准确性。在很多情况中,选择树比决策树更准确(更低的错误率),就像在股票投资中分散投资以降低风险一样,综合使用多项选择通常可以作出更稳定、风险更小的分类预测。 

原创粉丝点击