创新谈-段云峰

来源:互联网 发布:ubuntu 14.04 163 源 编辑:程序博客网 时间:2024/06/07 01:50
创新性应用:
本人主持设计、完成的中国移动数据仓库项目,具有如下一些方面的创新性:
1) 国际上首次提出了分级式数据仓库理论
针对移动通信数据规模大、变化快的特点,中国移动提出并实现了分级式数据仓库体系结构,设计了分级式数据仓库的构建方法,并解决了相关的技术、业务难题。
2)建设了国际上最大的数据仓库系统
基于分级式数据仓库理论,中国移动建成了世界上最大的数据仓库,目前容量约为1614TB。
3)国内首次设计并完成了面向移动通信行业的数据仓库逻辑模型
移动通信数据包含了来自计费、客服、网管等各类异构数据资源的复杂数据,这些复杂数据之间还包含着繁琐的业务逻辑关系。针对移动通信数据资源和业务逻辑关系的特点,中国移动提出了面向移动通信数据仓库的统一建模方法,并在经营分析系统中实现了统一建模机制。
4)国内首次大规模采用了OLAP、数据挖掘等先进技术
我们根据中国移动经营分析系统数据的特点,把数据仓库划分为八大主题域:客户、帐务、资源、服务、客服、营销、服务使用、结算。同时紧密结合目前的市场经营活动和市场部门的需求,选定了客户分析等九大经营分析主题。这些经营分析主题反映了目前中国移动通信市场上比较有代表意义的一些经营分析业务的需求,也提供了比较丰富的业务应用。
5)国内首次提出并实现了数据仓库的数据质量管理体系
我们在结合移动通信数据特点的基础上,针对数据质量的过程性特点,提出有针对性的数据质量保障方法,提出了在分级数据仓库系统中数据质量的管理流程,并从业务统一和方便实现的角度,提出了进行实际的数据质量检查时所应遵从的原则。
6)国内首次建立了数据仓库建设、应用体系
我们在国内首次大规模地应用了数据仓库技术,构建了完整的抽取、转换和加载(ETL)、存储、分析、挖掘过程,并建立了完整的业务应用体系。

在业务应用领域,第一次广泛地提供了基于客户分析等九大OLAP主题分析和部分数据挖掘业务应用。很多业务应用带来了显著的经济效益,例如:
1.降低成本:
例如重入网分析,就是在数据仓库系统中构建重入网客户识别的分析模块,从每月的新增客户中识别出重入网客户,并通过对重入网客户的入网渠道、入网政策、消费行为、欠费情况等进行多角度的定性定量分析,寻找诱发客户网内互转的原因和可控点,制定有效措施,控制离网率,不断提高营销效果。
该业务应用的经济效益情况如下:

节约成本计算依据(浙江省温州2月份):减少重入网用户带来的卡费16.7325万元+减少重入网用户带来的渠道佣金30.5550万元+减少前台开户服务成本8.6000万元+减少BOSS系统运算和存储空间33.4650万元+减少号码资源占用22.3100万元+减少弃卡欠费22310万元=113.8935万元,温州占全省节约成本的1/5,所以仅浙江省就可节约成本约569.4675*12=6833.61万元,推广到全国,可节约成本约130,000万元。

2.增加收入:
客户离网分析中,即在数据仓库中,通过数据挖掘技术找出即将离网的电信行业客户,然后分析其离网的有关特征,并根据分析的结果,针对性地进行离网挽留活动。
有关的经济效益分析如下:
仅山西移动通信有限责任公司以前拥有约400万用户,离网率约为12%,在进行客户离网分析以后,离网率下降到大约4%,按ARPU为70元计算,客户离网分析一项就可增加收入400*(12%-4%)*70*12=26880万元(人民币),推广到全国,每年可增加收入约800,000万元。

行业借鉴经验:
通过在中国移动的数据仓库项目过程中,积累了如下一些方面的经验:
1.数据仓库的人才培养十分重要
在数据库领域,人才的价值十分重要,同样的数据,如果没有专家的分析可能就是废物,不会有任何含义;而如果经过专家的分析,可能得出很多的意想不到的结论。例如美国零售领域的“啤酒和尿布的例子”,通过分析用户购买的产品清单,发现很多人在买尿布的同时,也购买啤酒,通过将两种商品的相近布局,提升了两种产品的销售额。因此,人才队伍的培养,对于数据库领域的发展,具有十分特殊的作用。目前而言,国内已经初步培养了数据仓库领域的技术人才,但集中在数据仓库工具的使用和数据仓库的建设等专业领域,而在数据仓库应用领域,人才十分匮乏。

2.数据仓库项目是企业的“一把手”工程
数据仓库涉及到企业的各个方面,与企业管理的业务流程和组织机构都有十分密切的联系,如何保障数据仓库的数据质量,如何确保数据仓库的分析效果能够对企业发挥真正的价值等等方面,都需要企业内部的管理架构和业务流程进行相应的调整,因此在管理方面,需要“一把手”领导进行相关的调整工作。

3.国际上数据仓库在理论研究方面仍有不足
目前,国际上数据仓库热衷于研究数据挖掘新的算法等方面的工作,而在海量数据仓库体系结构设计方面仍显不足。在业务应用领域,与实际的行业业务应用结合也仍显不足,很多内容仍认需要在具体实践过程中进行总结和积累。因此,有必要加强国内在数据仓库领域的业务、技术研究内容。

4. 数据仓库系统的数据标准化问题十分关键
数据仓库不仅是技术问题,涉及很多的业务问题,因此数据标准化问题十分关键。需要通过制定详细的指标解释,明确各种数据指标的定义和要求,并通过大量培训工作,确保数据仓库从业人员熟悉掌握这些数据要求。



5.数据质量是数据仓库中的长期关键问题
数据质量是数据仓库中的长期和关键问题。根据业务要求,设定了数据指标间的很多监控业务规则,通过一些关键的算法,判断一些上报数据的准确程度,及时发现问题并纠正问题。

应用难点技巧:

1.数据仓库中的元数据建设应该遵循CWM国际标准
在建设数据仓库的过程中,元数据是个重要的环节,而目前在国际的标准中,经过大量的比较分析过程,CWM标准是最适合选用的。涉及了元数据的各个方面的内容,对国内元数据的研究和系统建设提供了重要的参考依据。

2.针对数据质量管理,需要建立有关的稽核机制
针对数据仓库的数据质量问题,有必要建立一种数据稽核机制,对数据从业务层面进行检查,确保数据能够准确地应用到各个领域和环节中。

3.海量数据仓库的体系架构设计十分重要
在处理中国这种世界上少有的海量数据过程中,有关的系统架构方面的研究十分重要,在没有相关理论指导的情况下,需要自己在实践中进行摸索和总结,充分发挥自主创新能力。