e家数据挖掘_总结报告

来源：互联网发布：南师大心理测评软件编辑：程序博客网时间：2024/06/05 10:57

总结报告

一.商业理解总结

在商业报告中所定义的商业目标是根据已有的铜陵地区客户数据建立关于e家客户响应规则集，通过该规则集来观察非e家客户的分布状态，预测潜在的e家客户，对针对性营销提供决策支持。

通过数据挖掘我们得到了一个决策树模型和规则集，其中决策树用来展示每个字段下记录的数量以及e8客户和非e8客户占到该条件下总的客户的百分比，给人以直观清晰的展现；规则集则是用于预测潜在客户的一套规则，规则中将客户的基本属性和消费属性进行细分，满足一定细分条件下的客户成为e8用户的可能性要比其他客户高的多，则将满足该条件或则条件组下的客户定义为潜在客户，对这些潜在客户进行针对性营销的成功概率要比其他客户成功率高，但是这只是通过分析发现的结论，必需在实践中才能够更好的检验这些挖掘出来的规则集是否合适，并适当的调整这些规则集的数据参数甚至是属性。

建立的e家客户响应规则集合，是能够有效的预测潜在客户的，在施行针对性营销过程很明显发现在预测潜在用户前后的营销效率和营销成功率有明显的提高，这些假设成功与否的判别标准不是通过计算机的模拟结果来评价的，而是通过真正的营销活动来记录营销成功率来反映的，我们现在能做的只是通过更多的数据来检验规则集，从统计学原理来看，抽样数据量越大越能反映真实的情况，所挖掘得到的规则集越能模拟现实状况，由此来完善规则集。

二.数据挖掘过程总结

根据产生的模型和变量重要性，回归到数据探索阶段，重新审视影响e8客户的相关变量，可以考虑加入客户行业属性，以及将变量重要性中的主要费用BBD_FEE,IN_AREA_FEE两个费用进行细分重新建立数据源。

在实际重新探索中发现，BBD_FEE属性细分中的宽带套餐费用为空，实际上汇总的宽带总费用就可以表示这以费用的意义了，不需要在细分；对于IN_AREA_FEE属性可以细分为市话费和接入费用两个属性作进一步分析。

除了上述的属性细分和加入客户行业属性外，还需要对客户更多的属性进行挖掘，但是在挖掘中还是掺杂着很大的人为因素，在接下来的二次挖掘中，可以加入需要分析的所有属性，限定在20个以下，通过神经网络来预测这些字段的权重值，然后再用这些权值值大的6-7个字段用C5.0模型进行训练建模，生成的规则集考虑到的客户属性更多，更加完备。

三.数据挖掘结果总结

需要获得客户很多的基本资料，收入以及家庭人员状况，在费用方面的数据有很大部分的缺省，在统计分析中都假设为0，但是实际情况不会这样，这样的假设实际上是改变的铜陵地区客户的真实的费用情况，改变了统计数据的分布情况，得出的规则集不能反应真实情况，因此在接下来的工作中需要用真实数据来完善客户的各项费用，尽量做到完备数据集。

该模型建立的数据基础是非政企客户，也就是说所有的政企客户不适合该模型，该模型只是针对家庭用户，因此对于满足该模型生成的规则集的家庭用户可以实行针对性营销，而真正意义上的商业评价，正是需要通过实行针对性营销的得到的成功率来反应模型本身的正确性，这才合符我们实践是检验真理的唯一标准这一原则。

四.心得

本次工作从撰写项目计划到最后的总结报告，都是按照CRISP-DM数据挖掘参考模型来进行的，按照规范的流程来做事是这次工作中一个很大的收获，当然也有在经过2天奋战后整理出一个基本的数据源表的欣喜，虽然说在后面的数据挖掘中还是发现了这个基本表中所取字段的很多不合理之处，但毕竟是一个最初的尝试性工作，也为后面的二次挖掘做一个基本的准备。

在这次工作中，最大的体会就是数据挖掘中所取的变量对各种不同业务的重要性，也就是说在针对不同业务进行数据挖掘时候，我们所取的客户属性是大相径庭的，追本溯源还是那句话，数据挖掘的任务就是从数据中发现模式，一种数据模型只是合适一种特定的业务需求，因此这就要求数据挖掘人员对业务知识的熟悉程度是相当高的，这也是我以后需要进一步加强的。

在完成这次数据挖掘工作之后，我对整个数据挖掘流程有了更进一步的了解，对数据挖掘子系统也有了一些自己的想法（我不知道原先有没有数据挖掘子系统这种叫法，这里我只是设想把数据挖掘系统作为一个单一的功能模块）；数据挖掘子系统功能模块分为一下几个部分：

1.确定具体业务：客户获取，客户保持，交叉销售，客户分群，异常行为分析（恶意呼入）等；

2.尝试性确定变量：客户基本信息，客户消费信息等；该部分很大程度需要BI人员凭借自己的经验和过去已有的模型来确定；

3.确定算法模型：分类，回归，聚类，关联，序列等；

4.输出模式：基于不同的模型按照业务需求输出各种模式；

5.将得到的模式应用于商业，施行针对性的营销；

6.记录营销反馈率和成功率，分析原因；

7.二次挖掘，重新回到步骤2进行变量确定；

通过这次工作我发现在数据挖掘过程中最重要的还是在于确定变量这一步，但是恰好是这一步又带有很大的人为因素在里面，也就是需要资深的业务人员和BI人员来完成，而不是研发人员能做的好的，因此希望能够提供一个业界（电信业，金融，证劵，银行，链锁卖场等）专用的平台，不论是基于web也好或是其他方式能供BI人员交流，经验汇总，避免错误的数据挖掘的和重复的二次挖掘。

五.项目回顾

到此回顾2周来所做的工作，按照CRISP-DM的流程亲自动手做了e8潜在客户挖掘这个项目，收获很大。原有的零零碎碎的一些知识点都整合了起来，对PL/SQL的使用更加熟练，用spss_clementine来建立模型到评估分析真正让我感到了数据挖掘技术的强大。

从撰写项目计划书开始，让我对项目计划的重要性有了更加深刻的体会，项目的进展安排，具体工作落实到每天，真正做到了落到实处；

商业理解是整个项目的第一步，因为商业智能都是针对具体的业务来展开其智能型分析和数据挖掘的，在对该项目的商业理解中，确定了商业目标和商业成功标准提供了项目评估的标准，确定了数据挖掘工具和具体的挖掘算法；

数据理解和数据准备是作为数据挖掘数据的基础，数据理解是在熟悉e8业务的基础上对影响e8客户的相关属性做筛选，筛选出最初需要的字段，这个时候筛选的字段不能用来作为最终的数据分析，而是在后面的数据探索和数据准备阶段不断反复的探索和重新筛选，实际中也证实这一个反复的重要性，最初筛选的字段有过2次大的改动，并且在最终建立模型后，输出的变量关键性中发现仍然有3个变量竟然对e8客户不敏感，需要重新审视数据，这也正说明了数据挖掘是一个不断挖掘探索的过程。

建模就是实现数据挖掘，在建模之初，也经过了大量的数据分析，真正在建模的时候才发现clementine自身已经集成的建模组件已经做的相当的完善，比我自己简单的归纳分段要科学合理的多，遂放弃了自己数据分析，通过C5决策树模型生成模式决策树与规则集，其置信度高达99%，完全不需要我来修改其中的参数值，并且反映出来的变量重要性对重审数据提供了依据；

输出的决策树展示图能直观的反应每一属性条件下客户的流向数量和所占百分比，而规则集则是用来判定客户是否能成为e8客户的一组条件集合，由于是用完备数据集训练的模型，其置信度达99%。