韩家炜:数据挖掘第一人

来源:互联网 发布:怎么优化群排名 编辑:程序博客网 时间:2024/05/18 02:50
韩家炜
韩家炜
本报记者 王静
在走进美国伊利诺伊大学香槟分校之前,不曾听过“韩家炜”这个名字。当记者向学生们表示,有时间很想拜访这里几位华裔科学家时,学生们立刻推荐:“你应该去见见韩家炜。”
“他有"数据挖掘第一人"之称,是伊利诺伊大学香槟分校具有国际影响力的著名科学家,我们很多学生都选了他的课。”
“我上个月去听了韩家炜教授的讲座,果然是学术大牛,分析问题一针见血,讲述道理深入浅出,原先对数据挖掘领域许多一知半解的问题都豁然开朗。”一个园艺设计专业的中国留学生介绍。
记者立刻从网上查询,键入“韩家炜”。维基百科上有这样的介绍:韩家炜,现为美国伊利诺伊大学香槟分校计算机系教授,美国计算机协会会士和IEEE会士。1949年出生于中国上海,1979年毕业于中国科技大学,1985年获美国威斯康星麦迪逊大学博士学位,2009年成为国际电气电子工程师学会麦克道尔奖(the McDell Award)得主。著有Data Mining:Concents and Techniques(《数据挖掘:概念和技术》)。
除了著作和授课教程外,网上没有任何有关他的报道。
抱着试一试的想法,记者查到了韩家炜的电子邮箱,并发出了拜访愿望。没料,第二天打开邮箱就收到了回复。他将参加学生毕业典礼仪式,届时可以在计算机系大楼找到他。
绿地上的敬意
春夏之交的北美大地,气温起伏变化无常,乍暖还寒。此时正值毕业季,身穿学士、硕士或博士服的学生们,一个个满脸笑容,三五成群忙着在图书馆、教学楼、体育馆、实验室等各处留影。
接近中午11点,计算机系博士毕业典礼开始。在宽敞的计算机系大楼,记者很快发现了韩家炜。他身着白色衬衣,手举半杯红酒,正在旋转楼梯后轻声与人交谈。
记者走向前去自我介绍后,他立刻找到了一张靠窗的小桌,让记者一起坐下来,招呼着不妨先进行自助午餐,边吃边谈。
但刚刚拉开话题,几个身穿博士长袍的学生就走了过来,要求与他合影,记者只好在一旁等候。一拨照完,又一拨前来,韩家炜无法拒绝。还有一批博士约十余人,干脆将韩家炜请出了大楼,选了一块草地,以大楼为背景,先集体合影,然后一个接一个地单独与他照相后,才让他回到小桌来。
他所在计算机系现在有400多名研究生,仅去年和今年他本人有十多个学生毕业,有的去了其他大学任职,有的去了公司。这些学生,最近几天陆续从各地飞回学校参加毕业典礼,他不能不听命。
但不等记者提出第二个问题,采访再一次被打断:来访者是一名中国学生,带着其父母一起到来。为了感谢,他们带着几件自己动手做的小礼物赠送给了韩家炜。聊了一阵后,全家与韩家炜合影后才作罢。
显然,不同肤色的学生对韩家炜都心怀敬意。
从计算机到大数据
韩家炜的《数据挖掘:概念和技术》一书目前已第三次印刷出版,是国内外数据挖据领域的经典教材,记者不禁对他如何走上科研而感到好奇。
“我在"文革"期间读高中,本科没学习理工科。恢复高考后,直接报考了中国科技大学的研究生,也仅读了一年。1978年邓小平访美,中美7月建交,我8月份来美国学习。”他简单地回忆起自己走过的路。
他介绍,中国改革开放初期没有计算机,而美国在上世纪70年代初各大学开始成立的计算机系,大多从数学或电机系分离而来。他留学之前的威斯康星麦迪逊大学也是刚刚才建立了计算机系。读博士期间,韩家炜才确定研究方向考虑到研究方向的发展前景问题,最初他做计算机数据库的专家系统,随后又选择了关联数据库作研究。
如今,做数据挖掘是因为网络数据愈来愈多,信息愈来愈丰富,且多样化。而其中有意义的知识是什么呢?
韩家炜说,数据—信息—知识是一个自然而然的过程,他们的研究是把其中挡路的东西从机器里挖掘出来,这就是一个研究方向。“网络平常是人与人的联系,数据挖掘可以让人与其他东西联系起来,有人有物,这样比较容易找到系统性的准确的知识。”
他进一步举例,如研究人员的工作,有论文、作者、关键词等,如果把论文里关键词等全部连起来,可能有成千上万个数据。那么,这个领域有多少分支,如何演化,就很容易发现了。再如电影,有导演、评价等,如都能连起来,就能统一,很容易抓住知识。
技术前沿者的挑战
一直站在技术前沿的韩家炜,是否也会遇到挑战?
“主要困难在于有的数据涉及隐私,有些组织有保密性,如何保证不泄密,这是最大的挑战。”他坦承。
就学术而言,目前关于数据的挖掘,若数据量大,则有效率提高的问题;若数据比较少,尚要了解深层次的内容。如何把知识挖出来,有很多需要研究的问题。
他认为,目前数据挖掘领域主要需要解决的问题并不少。
数据挖掘尚缺乏统一的理论支持;随着分析的数据越来越复杂,所需要关注的维度也越来越多,而对于性能的要求也越来越高;目前的数据挖掘针对数据的处理通常都是不考虑时间序列的,但是对于许多有时限的交易数据,需要考虑时间维度的影响;目前的数据挖掘技术还仅仅只能从简单数据中挖掘较简单的逻辑;网络技术的广泛应用对于数据挖掘技术提出了新的要求,大量的数据存在于网络云中,需要新的方法支持;分布式挖掘是解决大型数据挖掘的必由之路,而基于agent的智能系统能够降低人工的参与度;针对特定领域的数据挖掘问题,例如针对生物领域的基因挖掘,以及针对环境方面的自然因素挖掘有待拓展;数据挖掘虽然有许多方法,但是尚缺乏统一的流程管理;对于动态的、非平衡的、成本敏感的数据,目前尚缺乏良好的处理方法。
为了迎接这些挑战,韩家炜每年都招收中国学生,他们都是百里挑一的报考人数达200名,而能够成为他学生的仅有约4人。不过,这些伊利诺伊的中国留学生知道,想成为他的学生不容易,但只要选他的课,就有机会学习他的思维和方法,也同样很开心。
《中国科学报》 (2013-06-21 第7版 学人)

原文地址:http://tech.hexun.com/2013-06-21/155376037.html

0 0
原创粉丝点击