我想问问数据挖掘的前途!

来源:互联网 发布:python gui编程 编辑:程序博客网 时间:2024/05/16 19:11

曾经和行业中几个老师也曾讨论过这个问题。
有个老师说数据挖掘还只是实验室的东西。对于此观点他认为数据挖掘的工具还都是比较专业化的,一般人很难应用,使用当前的数据挖掘工具需要比较深厚的基本功。也就如同操作系统的发展中dos时代,到达普及化的xp系统还需要一个过程。
有的老师认为数据挖掘在国内国外现在都算过气的技术,因为数据挖掘本身是一个边缘学科,很少有自己的特有的技术点。而其主要相关技术人工智能,统计学等要想有新的突破比较困难。对于数据挖掘的工具开发研究要想做出来容易,但是要想做好就比较难了。
我自己肯定数据挖掘的前景,要不也不会搭建一个共同探讨的论坛。

对于数据挖掘前景的讨论我曾想做个数据分析的实质性东西,现在只是个雏形,在论坛里你也可以找到参考一下。

以下是曾经在小百合上和往友探讨的内容:
[本篇全文] [回复本文] [本篇作者: nohau] [本篇人气: 160]
发信人: nohau (踩高跷的鸟), 信区: DataMining
标  题: [合集]请大家给个建议做网络通信还是数据挖掘,更有前途?
发信站: 南京大学小百合站 (Thu Apr 15 16:23:48 2004)

Weastwind (西风) 于Wed Apr  7 19:59:23 2004)
提到:

请大家给个建议做网络通信还是数据挖掘,更有前途?网络通信现发展正火,究竟未来的

网络会发展到什么样的程度呢?可向什么样的方向做呢?数据挖掘无疑是一个非常新的研

究方向,可究竟能否在短短的几年内发展起来,形成像今天的电信一样火呢?大家给个建

议吧?


miningboy (C海S田,九九不息||找矿男孩) 于Thu Apr  8 09:20:37 2004)
提到:

看自己的兴趣



rsl (barbarian) 于Thu Apr  8 09:30:33 2004)
提到:

我做了数据挖掘,进了通信设备制造企业,没用上呀


nohau (踩高跷的鸟) 于Thu Apr  8 09:42:47 2004)
提到:

你如果是指你进了华为,中兴,lucent,nortel这样的企业的话,数据挖掘并非完全没
有用武之地,现在的通信设备稳定性并不是很高,像nortel,lucent这样的公司制造的设
备也经常会出现各种各样的问题,华为和中兴更加不用提了,因此通信设备的质量预测
尤为重要,据我所知在nortel有一个专门的组在做通信软件的质量预测,而且发表不少
文章,效果也不错。你如果想继续挖掘的话,质量预测也是一个很好的方向。



rsl (barbarian) 于Thu Apr  8 11:52:06 2004)
提到:

中兴华为也没看见用DM,做3G设备去了,内部各部门,没有看见DM的应用。


nohau (踩高跷的鸟) 于Thu Apr  8 13:03:19 2004)
提到:

所以我只提到nortel有,华为和中兴还没有到这个层次吧



dequator (不辣丁~我爱南开) 于Fri Apr  9 12:46:11 2004)
提到:

不是说数据挖掘目前主要的应用领域就是金融、零售业和通信业吗?



jueww (觉) 于Sat Apr 10 14:32:50 2004)
提到:

好天真啊。。。



OneRoad (大嘴小生) 于Sun Apr 11 20:46:35 2004)
提到:

觉得数据挖掘和具体的对象关系很大,是很偏应用的一个学科

在国外发展的还算不错,但是在国内暂时还不怎么样

毕竟国内的很多行业的信息化程度还不是很好,数据不是很容易获取

另外数据的可信度也值得商榷,中国很多的行业,比如金融,通讯等等

他们的决策过程往往受到很多的政府干预,即使收集到很好的信息也并非能起到作用

据我所知,电信部门正在开发一个很大的数据挖掘系统,投资不小,但是还是作为

试点,如果不是很成功,电信部门很可能放弃数据挖掘这一块。

因此觉得还是网络通讯好一点



easehawking (以鹰行猎) 于Sun Apr 11 23:14:02 2004)
提到:

Have a look at Knowledge Plane, which uses machine learning appoach to control
, diagnose, protect and configure internet based on data from nodes of the net
work.


jueww (觉) 于Mon Apr 12 13:02:49 2004)
提到:

这种东西,即使成功,也没什么用处吧。。。
中国的这些行业只有垄断,没有竞争。
除非竞争到白热化,DM不可能得到真正重视。




nohau (踩高跷的鸟) 于Mon Apr 12 19:18:37 2004)
提到:

兄台,这样说很打击我的信心啊,呵呵:)



jueww (觉) 于Mon Apr 12 21:46:50 2004)
提到:

没办法。。。有谁对我说这种DM的所谓应用前景,我就浑身不舒服。。。



OneRoad (大嘴小生) 于Mon Apr 12 21:52:18 2004)
提到:

事实就是如此,实验室接到一个石油数据挖掘的项目

原来以为可以做出不少东西,直到半年后才知道一切都是闹剧

根本就没有什么石油数据,石油局的人和我们说,数据都在那里

两栋楼那么高的屋子,都是磁带,如果导到电脑里面,等你们毕业的时候

还差不多,你们就搞点算法研究巴,随便研究什么都可以

真是痛心啊,为了向上级邀功,还打着高科技的幌子



nohau (踩高跷的鸟) 于Tue Apr 13 12:56:17 2004)
提到:

数据挖掘在实际应用中的确是有很多问题,这两年数据挖掘的研究看似很火爆,但是真正
成熟的应用少之又少,大部分的researcher还是在做算法的改进,在UCI的数据集上不停的
测试它们的性能,很多researcher为了要显示自己learner的优越性而制造出适合自己lea
rner的数据集来跟别人的learner进行比较,还记得上次龙星数据挖掘的课,讲到聚类算法
的时候,还特意强调了一下提出一个新算法的流程:首先要看别人的聚类算法对什么样的
数据集有缺陷,因为不可能有一种算法对所有的数据集都有同样好的性能,所以肯定可以
找到这样的数据集D,使别人的算法在D上的聚类效果极差;然后根据D的特点设计一个聚类
算法可以避免别人的算法在D上的缺陷,于是一篇paper就形成了。可是这样的paper对于数
据挖掘这门学科的发展到底有没有哪怕一丁点作用呢,数据挖掘本来应该是跟实际应用联
系的很紧密的学科,可是现在的researchers倒是好像极力想要把它变成一个空中楼阁。在
实际应用中,这些提出来的各种各样的算法的改进根本就没有用处,它们只在指定的数据
集上能够显示出较好的性能。

当然,现在无论国外还是国内的大学都有论文的压力,大家为了能够按时完成任务,也只
好做一些这样的paper,尤其是我们国内,很多学校的博士生由于论文压力不能按时毕业的
不在少数,但是作为一个miner,我认为在做研究的时候也要多考虑一下这个算法到底实用
不实用,到底有没有(paper之外的)意义。虽然数据挖掘的应用还有很长的路要走,还很
不成熟,但是我们这些miner首先不应该丧失对它的信心,如果我们在做的人都认为自己在
做的是虚无飘渺,不切实际的东西,那别人又该怎么看待这门学科,怎么看待我们?



studydm (HAMMER_SHI) 于Tue Apr 13 13:49:05 2004)
提到:

还以为你真的失去信心了。 :(
个人很看好DM前景。
其实我也能找出权威的支持声音:
一份最近的Gartner报告中列举了在今后3~5年内对工业将产生重要影
响的五项关键技术,其中KDD和人工智能排名第一。
同时,这份报告将并行计算机体系结构研究和KDD列入今后5年内公司
应该投资的10个新技术领域:宽带、无线、Linux、内容管理、实时分析、
数据挖掘、安全、中间件、认证技能、商业智能以及知识管理。
(我也就刚才才知道ERP也是由Gartner提出定义的)
为什么国外能实现企业或者说行业的DM而中国不能呢?我觉得首先这是作为
研究人员的我们应该反思的问题。或许曾经我们的先行者做了一些挂羊头卖狗肉
的事才让我们现在落入尴尬的境地。哪为什么我们现在不能尽我们自己的努力去
改变现状呢?楼上有个朋友说出关于 石油 的案例,我觉得首先受指责的是你们!
(对不起,或许重了些,我只对事不对人,请见谅!)
按照我的看法你们不具备数据挖掘开发的环境。
我始终觉得数据挖掘只是决策支持系统的一个子模块(现在只是由于人们急功近利
而让他们裸体现而已,现在的他如同OS发展时期的dos系统),而决策支持系统开发
需要系统设计分析人员中有行业专家领导,开发初期用户根本不知道自己需要什么,
也不清楚他能得出什么结论,需要设计和开发人员做出一个原始的模型进一步和用户探
讨,
此过程反复进行直到用户满意为止。至于说到项目需要的时间问题我觉得应该不是什么
问题,
作为用户他们也可以衡量工作量的,或许是你们为了出论文而怕浪费时间。开发人员自
己都没
信心何况用户?
说到中国行业垄断的现状,就我知道的安徽移动去年7月份就开始做数据挖掘了,移动和
联通不是
竞争性质的么?至于其他行业如保险,零售等暂时主要是涉及商业隐私问题,但是如果
行业竞争
激烈或者数据安全性有保证(由大公司或者内部员工操作)他们还是乐于使用的。



jueww (觉) 于Tue Apr 13 14:34:46 2004)
提到:

可怜啊。。。又一个被骗的好孩子。。。
所以老板跟你说一个前景光明的方向的story时,眼睛放大点,你们老板的三寸巧舌,即然
能把所谓的专家都打动,把项目接来。。。诱惑诱惑小孩子就显得太easy了。^_^



imcsee (imcsee) 于Tue Apr 13 14:39:42 2004)
提到:

人工智能在3到5年内就严重影响工业了?看不出来,
不过倒是认为在很长的一段时间内,ai都是需要解决来影响工业的。就是一直解决不好吧
:)


jueww (觉) 于Tue Apr 13 14:41:44 2004)
提到:

你说得是真正做事情的人的做法,不是出PAPER用的。。。
其实机器学习整个领域都是这样的,在很多情况下,数据只能靠自己一个一个的挑。。。

不过你所谓的数据挖掘环境也没必要,搞出漂亮的东西来也不一定要买别人价格昂贵的软
件才行的,关键是踏踏实实的搞。

另外我看gartner这个报告是炒作,或者说工业味道太浓了,我没看出DM和BI有什么不一样
。。。




OneRoad (大嘴小生) 于Wed Apr 14 03:30:58 2004)
提到:

其实我们学生还是很想做点东西的
可是有些事情真的不是我们能决定的,呵呵,无论是企业还是老师都只想
做点面子上的事情,他们就根本不想给数据,无论给他们多少时间,企业
根本就不想花钱去整理数据,他们要的只是给上级交代自己投入多少科研经费
国家的钱总是要巧立名目用掉的,否则以后就申请不到这么多,
花多少钱能办多少事,这个只有烧钱的人明白,反正DM他们不懂,他们上级更不懂
国家也不懂。

现在有待健全的东西还很多,不是DM的问题,也不是科研人员的问题,
不是某一方面的问题,而是很多方面的问题。

这位兄弟对我的看法,我可以理解,我也有同感,但是用我们老师的一句话
来说就是“你们还太年轻”,呵呵,有些事情真的不是想象的那么简单

DM在国内确实还在起步阶段,环境还不成熟,恐怕现在银行,通讯搞的有点像样
的也就是CRM之类。3-5年后或许能好点,国外炒的怎样热,那是国外,可是
国内就是国内,人的观念需要转变,这要一个过程。我师兄刚毕业,应聘了很多
单位,包括很多大公司,比如yahoo等等,可是面试做报告的时候,大家都有听
天书的感觉,虽然很多公司都抢着要他,可是那不是因为DM。现在国内也有一些大
公司(研究院不算)开始注意DM,比如方正,可是还是没有什么气候,中关村有不少
小公司开始做DM,可是据师兄说,实在没有什么科研实力,牛人太少,没什么意思。

DM是一个很偏应用的学科,可是国内对基于信息的决策这方面还做的远远不够,
外企可能还好点,国企真的是太多表面文章,大家还是清醒一些好。

对于发文章来说,DM还是比较好发的,一个是新,另外无论是PR,ML,AI,DB,都可以
投,而且也比较容易唬人,投个核心什么的,简直和灌水一样,因为国内真的没有多少人
懂,说实话,国内的DM有点被炒起来的感觉,特别是在高校里,很多老师都有DM的方向
可是真正懂的,实在是不多,起码就我了解的一些老师真的是在追风。



jueww (觉) 于Wed Apr 14 09:18:16 2004)
提到:

说得真好。
我想,模式识别还是有些地方在搞的,比较实在点。另外那帮炒股票的很可能真的有动力
去做预测模型。
无论做什么,只要是合作,总要有个商业模式,这个模式应该兼顾各利益方的利益,同时
各利益的主要利益和待完成的目标是一致的,这样才可能进行真正的合作。
如果一个方向必须合作,但又没有明确的商业模式,最好不要去做。否则自己做得很累,
而且让别人也很为难。
技术创新很重要,但创造新的商业模式,可能更要紧些。
在花自己钱的机构中,这种模式比较容易实现,但在靠拨款的机构中,就往往不是这么回
事了。





fervvac (高远) 于Wed Apr 14 12:56:04 2004)
提到:

My view is that research should target at a higher level than applications.
Jian's seemingly pragmatic idea does have its positive sides: in terms of
research, I dont think there will be a one single theory/solution that
works well for all cases. Proposing solutions to address cases that none of
the previous papers work well _is_ contributing to the field by improving
the state of the arts. In terms of application, people who implement the
methods can use certain heuristics to invoke the most appropriate method
for a given dataset.

Perhaps more importantly, by doing several such "delta" researches, one
might get some feeling of the real challenges in the field and learn how to
do quality research. These are essential if he is going to work on a
ground-breaking theory/solution in that field, unless he is a genius, :)

BTW, it is not at all easy to publish DM papers at good conferences in the
database field.



jueww (觉) 于Wed Apr 14 14:19:34 2004)
提到:

不过灌水也要花时间,灌水时间多了,真正做实验的时间就少了。。。
而且很多比较水的论文的结论都是骗人的,容易误导别人,对这些我总是很可恶的,

而且如果不从学术上的进步考虑,而是从学科前途考虑,搞一个像DM这样的四不象方向有
误后来者的前途。做偏理论或偏应用都可以出成果,但做一个缺少数据源、缺少领域专家
的自动学习应用系统,就搞笑了。何况还有各种方面层出不穷的说法骚扰你。。。所谓的
成功故事刺激你。。。呵呵






sgyzfr (sgyzfr) 于Wed Apr 14 19:11:57 2004)
提到:

很长见识呀。建议斑竹置顶

原创粉丝点击