数据挖掘概念

来源:互联网 发布:java实现发送邮件 编辑:程序博客网 时间:2024/06/05 14:41

人们对于数据的拥有欲是贪婪的,特别是计算机网络技术和存储技术的发展加速了人们收集数据的范围和容量。这种贪婪的结果导致了“数据丰富而知识贫乏”现象的产生。说来惭愧,我的硬盘里有一个18GB的资料文件夹,里面都是本人长期收集的电子书,涵盖了计算机科学与技术的各个领域,但是至今绝大多数都是没有看过的。数据是具体的,知识是一种概念、规则、模式和规律;数据不能直接对我们产生帮助,只有从中产生了知识才能帮助我们进行预言和决策。

所谓数据和知识,可以举一个简单的例子,高中会做一个胡克定律的物理实验,测量出来的弹力和形变就是数据,通常这些数据有很多,而从这些数据中寻找规律进而发现的胡克定律就是知识了。有了胡克定律我们就可以根据以前的数据来推测未来的实验数据了。

计算机领域的数据挖掘就是从数据发现知识的过程。

一般来说数据挖掘所需要的数据是保存在数据仓库里的。数据仓库其实是一个数据库,它向用户提供用于决策支持的当前和历史数据。但是数据仓库和传统的操作性数据库又有很大的区别,表1列出了它们的一些不同。

                                         表1 操作性数据库和数据仓库的区别

 

操作性数据库

数据仓库

用户

操作人员、低层管理人员

决策人员、高级管理人员

功能

日常操作性事务处理

分析决策

设计目标

面向应用

面向主题

数据特点

当前的、最新的、细节的、二维的与分立的

历史的、聚集的、多维的、集成的与统一的

存取规模

通常一次读或写数十条记录

可能读取百万条以上记录

工作单元

一个事务

一个复杂查询

用户数

通常是成千上万个用户

可能只有几十个用户

数据库大小

通常在GB级

通常在TB级


简单地说,数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,通常用于辅助决策支持。

谈到数据挖掘,就必须提到另一个名词:数据库中的“知识发现”(Knowledge Discovery in Database, KDD)。这两个术语含义基本相同,在现今的文献中,这两个术语经常不加区别地使用着。有人认为数据挖掘的范围更广泛一些,因为数据挖掘系统的数据源非常丰富,不仅可以是数据库,还可以是Web数据、文本数据等多种数据组织形式中挖掘知识。但是换个角度讲,即使是Web挖掘恐怕也离不开利用数据库技术来组织和存储抽取的数据。而维基百科对二者关系的解释是数据挖掘是KDD的一个步骤,它把KDD分为五个步骤:1.数据选择;2.数据预处理(数据清洗等);3.数据转换;4.数据挖掘;5.模式生成及评估。既然大家对二者的区别都没有一个公论,那我们也没必要继续为这个问题而较真了。

数据挖掘是一个多学科交叉的研究领域,融合了数据库技术、人工智能、机器学习、统计学、知识工程、面向对象方法、信息检索、高性能计算、数据可视化等最新技术的研究成果。作为计算机学科的研究人员,可能主要关注的是数据挖掘的方法。根据挖掘方法进行分类,可以分为:

  • 机器学习方法。
  • 统计方法。
  • 聚类分析方法。
  • 神经网络方法。
  • 遗传算法方法。
  • 数据库方法。
  • 近似推理和不确定性推理方法。
  • 基于证据理论和元模式的方法。
  • 现代数学分析方法。
  • 粗糙集或模糊集方法。
  • 集成方法等。

有时候做事总需要一个契机,由于选了数据挖掘的课,就到图书馆借了两本数据挖掘方面的书来看,现在总算是了解个大概。实验室是做存储的,看起来自己的研究方向也和数据挖掘打不着关系,但是再一琢磨,做体系结构的人经常需要分析系统负载的trace,从而发现规律帮助设计一个好的tradeoff。这是不是也可以看成是一种数据挖掘呢?只不过目前这个挖掘的过程可能比较粗糙,没有形成一个系统的方法,更多的是靠研究人员的直觉。

最后给出计算机学会推荐的数据库和数据挖掘领域的顶级期刊和会议,以供参考。

  • ACM Transactions on Database Systems,TODS
  • ACM Transactions on Information and Systems,TOIS
  • ACM Transactions on Knowledge Discovery from Data,TKDD
  • IEEE Transactions on  Knowledge and Data Engineering,IEEE TKDE
  • VLDB Journal,VLDBJ 
  • ACM Conference on Management of Data,SIGMOD
  • ACM Knowledge Discovery and Data Mining,SIGKDD
  • ACM SIGMOD Conference on Principles of DB Systems,PODS
  • IEEE International Conference on Data Engineering,ICDE 
  • International Conference on Research and Development in Information Retrieval,SIGIR
  • International Conference on Very Large Data Bases,VLDB

参考文献:

[1] 毛国君等。数据挖掘原理与算法。清华大学出版社。

[2] 韩慧等。数据仓库与数据挖掘。清华大学出版社。

[3] http://en.wikipedia.org/wiki/Data_mining

[4] 计算机学会推荐期刊和会议,http://www.ccf.org.cn/sites/ccf/biaodan.jsp?contentId=2567518742937


原创粉丝点击