熊辉:我是如何收获了数据挖掘的人生?

来源:互联网 发布:如何建立网络销售平台 编辑:程序博客网 时间:2024/05/19 19:15

http://www.china-cloud.com/yunjishu/shujuzhongxin/20140212_23068.html

主讲人:熊辉

主持人:赵国栋

承办:中关村大数据产业联盟

熊辉先生是美国罗格斯—新泽西州立大学罗格斯商学院管理科学与信息系统系副系主任,终身教授。主要研究领域包括:数据挖掘、大数据、商务智能、移动计算,和信息安全。获得2009罗格斯大学最高学术奖。还应邀连续参与组织国际顶级会议(如KDD, ICDM,ICML,ICDE和SDM),并担任国际会议组织委员会委员/主席。他目前还担任IEEE Transactions on Knowledge and Data Engineering (TKDE)和Knowledge and Information Systems(KAIS)副编辑,中国计算机学会通讯专栏编委,和中国计算机学会大数据专委。

以下为分享实录全文:

我的背景比较特殊,我是计算机系的博士,也是在美国第一个从计算机系博士毕业直接拿到商学院教职的中国人。因为大数据应用的成败依赖于技术和领域两方面的能力,我有机会处在一个比较独特的位置就计算机技术和商业应用的结合,谈一点我个人对大数据粗浅的认识。

1995年,我本科毕业的时候,正逢深圳下海创业大潮, 就去了深圳。工作半年后,第一次感觉到人生的苦闷彷徨。于是大量阅读中国历史,哲学,兵书。开始重新思考人生的发展方向。当时给自己定的未来职业必须满足三个要求:

1)是自己真正感兴趣的职业; 2)个人价值会随着年龄而增长; 3) 不论国家经济的兴衰,职业都必须有很高的安全保障。

当时正好数据挖掘概念出来,并幸运的了解到这个概念。马上有种说不出来的亲切的感觉,数据挖掘就应该是自己的终身职业。数据挖掘这个职业就满足自己定的三个要求。

首先,我对历史,兵书,算命感兴趣。数据挖掘做的事情就是从历史预测未来,从不确定性中寻求确定性,从复杂多变的事物中寻找规律。这些都是自己平常兴趣所在。

其次,个人体会,从事数据挖掘实践多了,人会变得更聪明,判断会更准确。经验积累多了,个人价值自然会随着年龄的增长而提升。比如,我现在的咨询费就比2005年高了许多,因为更有经验,做事更高效。(编者注:熊老师本科学的自动化专业)

最后,因为整个人类社会的发展越来越依赖信息技术,对数据挖掘专业人才的需求只会越来越大。同时,数据挖掘这个专业对人才的全面性要求很高,数据挖掘人才需要有很强的领域知识和技术知识。中国教育的学科划分,客观导致培养出来的人才很难跨界。换句话说,要想做好这个行业,门槛是很高的。所以,优秀的数据挖掘人才职业保障性是很高的。其实在古代就有很多数据挖掘的高手,像刘伯温,赵列文等。

数据挖掘这个概念地提出就是要解决海量数据的分析问题。那么,现在为什么提出新的大数据概念?其根本原因是数据驱动性应用的井喷式发展并产生很多新的应用要求。现在很多的应用,比如高频数据交易和网络社交媒体,产生的数据不但量大,而且处于不断动态变化过程中。打个比方,以前我们是在清晰的小溪中捕鱼,现在我们是在湍急浑浊的长江中捕鱼。解决这些新型大数据应用需要我们有及时观察,及时分析,和及时解决问题的能力。

数据挖掘这个职业特别象医生。来自不同领域的具有不同特性的数据就象医生所面对具有不同病症的病人。和医生一样,数据挖掘人才必须要从实践中成长。实际上,我的科研总是和实践紧密结合,我的很多科研问题都是从实践中产生的。谈几点体会:

1) 最难的是问题提炼,换句话说,怎么从一个实际应用场景发现一个有价值的问题。这需要很强的领域知识,要能够深入到商业流程中去发现商业的痛点,并有能力把实际的商业痛点抽取成一个数学问题。举个例子,我们给一个美国500强大企业做B2B市场分析,其目的就是要发现有价值新客户,挖掘现有客户,并缩短签合同的时间。这些是真正的商业需求,但如何转化成数据挖掘问题?因为现在全新的,微观化的数据收集手段,我们有机会对人,整个商业流程进行细节化的观察,并加以分解,可以找到不efficient环节,把不efficient变efficient了,整个商业流程更高效。

2) 对于多数数据挖掘项目, 最花时间和精力的是Feature Engineering。很多预测项目的成败不在乎模型,在乎提取合适的特征。在很多情况下,特征提取要求对领域充分了解。像医生看病一样,有很多经验的东西在这里。我通常做项目有70-80%的时间在了解数据,进行数据预处理

3)Instance Selection在很多情况下至关重要,数据不是越多越好,是合适的数据越多越好。很多数据本身不是噪声,但和我们要分析的问题不是很相关,在这种情况下需要做合理的数据裁剪。其实,说到大数据的“大”字有不少误解。大是个相对的概念,有很多应用,只是单位时间内要处理的数据量超过了现有的计算能力。比如说,高频交易,我们可能需要在一毫秒处理1M的数据。1M并不大,但问题是时间要求realtime。

4)在建模之前还需要了解数据的特性,比如噪声度,稀疏度,和数据的分布。这就象医生在选取治疗手段之前必须要了解病人的病症。

最后,我想说的是,人生就是个数据挖掘过程。人整个的一生由几个关键点组成,在每个关键点,我们都需要根据自己掌握的信息进行决策。

互动内容:

Q1:数据去伪存真,在数据挖掘中是不是工作占比很高?经验是不是分析能力的决定因素?

A:这个问题好。我们现在各行各业都在拼命收集数据,很多的是垃圾数据,现在数据的单位价值密度在不断下降。数据挖掘就象医生给病人看病,SAS的病人和普通感冒的病人有很多共同病症,我们的任务是要找出可以帮助我们区分的特征。

关于未来,我提出一个概念叫做信息阶级论。因为大数据意识和数据挖掘技术的普及,会造成人类社会更大的信息不对称。未来阶层(贫富差距)很大一部分因素是因为对信息资源掌握的不同造成的。在很多领域,对信息资源的掌握可以造成高维打低维的局面。就好象有武器代差的二战,勇敢的波兰骑兵对德国坦克集群,会是简单的屠杀。

Q2:怎么鉴别什么数据是真数据什么数据是伪数据呢? By 刘东华

A:和具体应用相关,比如,做具体的市场预测问题,你可能有很多数据,来源不同,质量不同,我的经验是,当数据量充分的时候,质量不高的数据宁可舍弃不用。

Q3:在中国,传统制造企业占比很高,也是重要经济支柱,数据挖掘对传统制造业会有什么大的价值牵引?熊老师有什么好的建议? By 邢艳凯:

A:人类整个的历史发展都在追求标准化,标准化可以提高生产效率,对传统制造业供应链管理是数据挖掘可以大力帮助的领域。题外化,人类在追求标准化,任何被标准化的行业都被夕阳化,工作机会就会减少

@邢艳凯:认同熊老师的观点,中国制造业最缺乏的就是标准!

@柚子:还有经济预测领域

A:经济预测是个好例子,表面看很多数据都可以用来预测经济,但对中国的数据,可能只有发电量,钢产量,铁路运输等少量指标是质量可靠的数据,所以用克强指数看经济更靠谱。

大数据的发展还带来了人类解决问题方式的重心转移。东方长期以归纳法为见长,也就是一种BOTTOM-UP的解决问题方式,西方长期以演绎推理见长,是一种TOP-DOWN的方式。在近代至现代,演绎推理占了上风,所以西方文明高度发展。但是数据驱动解决问题方式的产生,让归纳法思维又有机会走在前面。

Q4: 国内哪些组织在数据挖掘方面比较强? By赵国栋

A:数据挖掘充满dynamics,目前中国的暴富机会还是比美国多不少,随着以后制度越来越完善,中国的暴富机会越来越少。很多的暴富都是因为信息不对称造成的。中国现阶段存在很多制度性信息不对称,每一次制度的制定或变化,都催生出一批暴富的点子和机会。美国更多是技术性信息不对称,就是通过数据挖掘的手段形成信息不对称,从而在竞争中产生势能差,可以形成以绝对优势打击绝对劣势的局面。当然,中国在朝技术性信息不对称大步前进。

因为信息平台和信息意识的城乡差别,农村的孩子在信息化这块被甩开大了,在竞争中的劣势越来越大,最可怕的是农村的信息意识完全没跟上。所以未来的阶层客观上会是由于对信息资源的掌握不同而造成的。所以,在教育层面应该努力缩小城乡的信息鸿沟。

未来社会的发展趋势在加快,财富轮转速度在加快,从富到贫,从贫到富,从弱到强,从强到弱都比以前更快速转化。会是一种螺旋式上升,后面新城代谢越来越加速,hold不住的都会被甩出去。富过三代的一定要培养好的家族信息制度。

评论:现在是企业信息重置的时代,挖掘运营数据水平的高低将拉开企业的差距,而且一旦有了大哥,可能就会变成独生子!By 邢艳凯:

Q5:请问美国用大数据进行投资分析领域都有哪些模式?如果是您,您会重点在哪些领域进行数据挖掘?By 雨醉天堂

A: 因为未来是无线网的时代,所以看好基于无线网的应用,比如,室内导航,V2V车联网,智能家居

Q6: 哪些公司或者组织在数据挖掘领域走的比较靠前?中国的.  By 赵国栋

A:按照美国的规律,拥有数据的,又有经济实力的公司会孕育大批数据挖掘人才. 美国是FLAGM+咨询公司+金融公司有大批数据挖掘人才. 不过美国很多新的startup都是数据驱动的。

Q7: 对中关村数据产业联盟的建议 By 赵国栋

A:联盟建成四大库:智库,案例库,问题库,数据库,并形成共享,利益共享的机制,就可以长治久安

Q8: 谁能做好中国食品安全领域的,预测工作,如何做? By:林春雨

A:要依靠大众力量。食品安全领域,随着手机终端智能化,未来可以靠老百姓收集水的质量,食品的质量,所以制造相应传感器,和简单测试方法,并形成群众化收集手段是关键


0 0
原创粉丝点击