大型数据库的分析技巧-前言

来源:互联网 发布:淘宝怎么买东西最便宜 编辑:程序博客网 时间:2024/06/07 13:20

其实就是数据挖掘(data mining).目标是从大量的具有复杂结构的数据中,通过一定的方法高效的获取目标数据或者根据原有数据作出推测,判断.举两个例子:

1.错误定位(Fehlerlokalisierung) 没有绝对不会出错的软件,但调试不仅费时而且十分昂贵.通过数据挖掘则可以实现错误自动定位.(具体例子还没看懂,懂了再补)

2.预测维护(PredictiveMaintenance) 给机器配置测量设备,如感知器.感知器获取机器信息并以离散的持续的方式讲信息发送给分析设备,从而对机器工作情况进行预测.

Data mining 的几个重要的问题:

1.聚类(Clustering):就是从大量对象中,识别出具有相似属性的对象,并把他们分别归纳为一组.

2.关联(Association):在超市购里,一般买牛奶的人会再买鸡蛋.这就是关联.一点要注意关联并不一定是对称的.

3.分类(Klassifikation):偷懒.注意Overfitting.

这是前言,就不多解释了.特别注意Clustering和Klassifikation别弄混了.我也分不大清,诚心希望这博客是可以改的.

前言就这么多吧.下面是以后将继续更新的内容:

1.统计学基础(statistische Grundlage)

2.信息学基础(Informatik Grundlagen:Raeumliche Indexstrukturen)

3.分类(Klassifikation)

4.数据分析方法评价(Evaluation von Datenanalysetechniken)

5.关联规则(Association Rules)

6.聚类(Clustering)

7.菜鸟侦查(Outlier Detection) //菜鸟灵感来自鸟叔

                                                     //认真你就输了

8.统计建模(Statistische Modellierung)

9.Ensembles

10.Support Vector Machines  //后俩个依情况再定


吾日三省:

1.Data mining 于现代生活中有那些应用?

2.Clustering和Klassifikation有什么区别,给出他们各自的实际应用?

3.什么是Overfitting?

0 0