1.数据挖掘概念笔记——引论

来源:互联网 发布:万达怎么了知乎 编辑:程序博客网 时间:2024/05/12 10:53

1.数据挖掘概念笔记——引论

欢迎转载,转载请标明出处:http://blog.csdn.net/notbaron/article/details/50390514       

  最近蛤蟆从公司借了一本书,书名《数据挖掘:概念与技术》作者:Jiawei Han。

         感觉不错,读之并记之。

         章节也是按照书中章节来,此处只是笔记,记录一些重要的概念和核心的思想。

       为什么要进行数据挖掘?

         答:需要是发明之母——柏拉图;

                   信息时代每天产生的数据海量,不得不需要从中进行挖掘。

      数据挖掘有什么用?

         答:可以将大型数据集转化成知识。

         此外,数据挖掘是信息技术的进化。

         信息技术从数据收集、数据库创建、数据管理(包括数据存储和检索)到高级数据分析(数据仓库和数据挖掘)前进。

         数据挖掘技术包括数据清理、数据继承和联机分析处理(OLAP)

       什么是数据挖掘?

         答:从数据中挖掘知识,也有人把数据挖掘视为数据中的知识发现(KDD)

         不过知识发现包括以下几个步骤:

a)        数据清理

b)        数据集成

c)        数据选择

d)        数据变换

e)        数据挖掘

f)         数据评估

g)        知识表示

       可以挖掘哪些数据?   

         答:对于挖掘的应用,最基本形式是数据库数据、数据仓库数据和事务数据。

         可以挖掘什么类型的模式?

         答:数据挖掘功能,包括特征化与区分,频繁模式、关联和相关性挖掘,分类与回归,聚类分析,离群点分析。数据挖掘功能用于指定数据挖掘任务发现的模式,一般而言,这些任务可以分为两个:描述性和预测性。

       需要什么技术?

         答:统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算和许多应用领域的大量技术。

         当然每个技术展开都是一个庞大的分支。但是不是说搞数据挖掘就需要懂得所有的技术的。根据需求需要不同的技术。

       应用场景?

当前比较成功和流行的应用例子:商务智能和搜索引擎。

         商务智能技术提供商务运作的历史、现状和预测视图。

         搜索引擎全方位地使用各种数据挖掘技术,包括爬行、索引和搜索。

主要问题?

         挖掘方法、用户交互、有效性与可伸缩性、数据类型的多样性、数据挖掘与社会。

 

 

 

 

0 0
原创粉丝点击