数据挖掘(学习笔记)-初识数据挖掘

来源:互联网 发布:python 线程池 编辑:程序博客网 时间:2024/05/16 06:41

恩~开始自学数据挖掘~加油加油~

 

1.为什么进行数据挖掘?

现实是:数据爆炸,知识贫乏

现实的弊端:数据过量,真假难辨,安全难保证,信息形式多样统一处理困难

我们希望:如何将商业数据->商业信息

 

2.数据挖掘涉及什么学科和领域?

数据库+统计学+可视化+高性能计算+人工智能+机器学习 

 

3.什么是数据挖掘?

数据特点:量,不完全,噪声,模糊,随机

挖掘目的:数据中找未知的,有用的知识

书籍:《Knowlege Discovery and Data Mining》
KDD涉及领域:数据库领域+人工智能领域

 

4.数据挖掘相关概念的理解? 

数据挖掘:归纳推理。用于发现模式。任务是:发现关系+发现规则+预测
联机分析(OLAP):演绎推理。用于验证模式。 决策支持领域 数据挖掘前,找到对于问题域变量,异常数据,互相影响的变量 更好理解数据
知识发现:数据库管理系统,机器学习分析,挖掘数据后的知识
信息处理:查询。不反映复杂模式。
专家系统: 过分依赖专家,分析结果有错误,耗时长

其他相似概念:KDD,知识点提取,数据分析,模式分析,数据考古,数据捕捞

 

 

 

 

 

 

5.数据挖掘的数据来源?
关系数据库,数据仓库,事务数据库

 

6.高级的数据库有什么?

面向对象数据库,空间数据库,时间数据库,时间序列数据库,文本数据库,多媒体数据库,异种数据库,www数据库

 

 

 

 

 

 

 

 

 

7.数据挖掘过程阶段?

粗分:数据整理,数据挖掘过程,结果的解释和评估
细分:数据预处理,数据收集,数据描述,数据选择,数据质量评估,数据清理,合并整合,构建元数据,加载数据库,维护数据库

 

 

 

 

 

 

 

 

 

 

8.数据挖掘的应用有?

用户流失,聚类用户(为产品找潜在用户),关联规则,原因分析,日志分析(医疗日志,网站日志),行为探测(欺诈探测),关联推荐

  

 

内容来源:http://wenku.baidu.com/view/72943100bed5b9f3f90f1c8b.html