数据挖掘是什么

来源:互联网 发布:nodejs array转json 编辑:程序博客网 时间:2024/05/14 22:33


浏览次数:340次 2008年05月05日 薛峰的博客 字号: 大 中 小
分享到:QQ空间新浪微博腾讯微博人人网豆瓣网开心网更多1
起,以增加销售;保险公司想知道购买保险的客户一般具有哪些特征;医学研 究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助。

  对于以上问题,现有信息管理系统中的数据分析工具无法给出答案。因为无论是查询、统计还是报表,其处理方式都是对指定的数据进行简单的数字处理,而不能对这些数据所包含的内在信息进行提取。随着信息管理系统的广泛应用和数据量激增,人们希望能够提供更高层次的数据分析功能,从而更好地对决策或科研工作提供支持。

  正是为了满足这种要求,从大量数据中提取出隐藏在其中的有用信息,将机器学习应用于大型数据库的数据挖掘(Data Mining)技术得到了长足的发展。

  数据挖掘,也可以称为数据库中的知识发现(Knowledge Discover Database,KDD),是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。
数据库中的知识发现是一个多步骤的处理过程,一般分为:
问题定义了解相关领域的有关情况,熟悉背景知识,弄清用户要求。
数据提取根据要求从数据库中提取相关的数据。


  数据预处理主要对前一阶段产生的数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据进行填补。


  数据挖掘运用选定的知识发现算法,从数据中提取出用户所需要的知识,这些知识可以用一种特定的方式表示或使用一些常用的表示方式。

知识评估将发现的知识以用户能了解的方式呈现,根据需要对知识发现过程中的某些处理阶段进行优化,直到满足要求。

  由此可见,数据挖掘只是数据库中知识发现的一个步骤,但又是最重要的一步。因此,往往可以不加区别地使用KDD和数据挖掘。一般在研究领域被称作数据库中知识发现的,在工程领域则称之为数据挖掘。

二、数据挖掘能做什么?

  数据挖掘所涉及的学科领域和方法很多,以下四种是非常重要的发现任务。

  数据总结其目的是对数据进行浓缩,给出它的紧凑描述。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。

  分类其目的是学会一个分类函数或分类模型(也称作分类器),该模型能把数据库的数据项映射到给定类别中的某一个。

  聚类是把一组个体按照相似性归类,即"物以类聚"。它的目的是使属于同一类别的个体之间的距离尽可能地小,而不同类别的个体间的距离尽可能地大。 
  关联规则是形式如下的一种规则,"在购买面包和黄油的顾客中,有90%的人同时也买了牛奶"(面包+黄油+牛奶)。关联规则发现的思路还可以用于序列模式发现。用户在购买物品时,除了具有上述关联规律,还有时间或序列上的规律。

三、前途光明的数据挖掘技术

  随着KDD在学术界和工业界的影响越来越大,国际KDD组委会于1995年把专题讨论会更名为国际会议,在加拿大蒙特利尔市召开了第一届KDD国际学术会议,以后每年召开一次。近年来,KDD在研究和应用方面发展迅速,尤其是在商业和银行领域的应用比研究的发展速度还要快。

  目前,国外数据挖掘的发展趋势其研究方面主要有:对知识发现方法的研究进一步发展,如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和提高;传统的统计学回归法在KDD中的应用;KDD与数据库的紧密结合。在应用方面包括:KDD商业软件工具不断产生和完善,注重建立解决问题的整体系统,而不是孤立的过程。用户主要集中在大型银行、保险公司、电信公司和销售业。国外很多计算机公司非常重视数据挖掘的开发应用,IBM和微软都成立了相应的研究中心进行这方面的工作,此外,一些公司的相关软件也开始在国内销售,如Platinum、BO以及IBM。


  国内从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。所涉及的研究领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。目前进行的大多数研究项目是由政府资助进行的,如国家自然科学基金、863计划、"九五"计划等,但还没有关于国内数据挖掘产品的报道。

一份最近的Gartner报告中列举了在今后3~5年内对工业将产生重要影响的五项关键技术,其中KDD和人工智能排名第一。同时,这份报告将并行计算机体系结构研究和KDD列入今后5年内公司应该投资的10个新技术领域。

  可以看出,数据挖掘的研究和应用受到了学术界和实业界越来越多的重视。进行数据挖掘的开发并不需要太多的积累,国内软件厂家如果进入该领域,将处于和国外公司实力相差不很多的起跑线上,并且,现在关于数据挖掘的一些研究成果可以在Internet上免费获取,这更是一个可以利用的条件。我们希望数据挖掘能够引起国内实业界更多的重视,同时也希望能够有更多的国内软件厂商进入该领域,一起促进数据挖掘技术在中国的应用。

原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 夏天肛门周围皮肤发炎怎么办 直肠息肉手术后便秘怎么办 痔疮手术后肛门洞怎么办 痔手术后肛门有个洞怎么办 直肠上长了瘤怎么办 上嘴唇没有唇峰怎么办 拉屎厕所堵了怎么办啊 小孩一拉屎就哭怎么办 上火裆部有肿块特别疼怎么办 狗狗拉屎拉不出来怎么办 肛裂大便带血怎么办 辣椒不小心弄丁丁上怎么办 小鸡躺着不动还呼吸怎么办 老人身体不舒服不敢去检查怎么办 金毛上火鼻子干怎么办 狗鼻子干裂结壳怎么办 小狗吐了没精神怎么办 狗狗又吐又拉怎么办 孕妇嘴干鼻子干怎么办 狗狗打了针皮肤变硬怎么办 狗狗得了狗瘟怎么办 金毛得了犬瘟怎么办 泰迪身上起皮怎么办 狗狗鼻子干了怎么办 泰迪生病鼻子干怎么办 痔疮手术后肛门狭窄怎么办 乳腺导管扩张奶头疼怎么办 3月的宝宝要扩肛才拉便便怎么办 怀孕期间肛门长痔疮怎么办 射精后检查尿液发现蛋白尿怎么办 铁距孔被小孩拿体温计塞了怎么办 肛门长了个息肉怎么办 不小心吃了虫卵怎么办 孕妇做四维宝宝不配合怎么办 孕妇四维小孩不配合怎么办 孕妇吃了甜酒酿怎么办 屁股疼的不能动怎么办 小孩打针后手臂疼痛怎么办 屁股打针的地方疼怎么办 眼底坏了怎么办怎么治 大疆无人机飞丢了怎么办