数据库开发（17）数据与仓库与数据挖掘

来源：互联网发布：淘宝项链编辑：程序博客网时间：2024/04/28 03:55

1、数据库查询语言不适合对数据执行详细的统计分析。

2、数据仓库：

是一个将从多个数据源中收集来的信息以统一模式存储在单个站点上的仓储（或归档）。一旦收集完毕，数据会存储很长时间，允许访问历史数据。给用户提供了一个单独的、统一的数据接口，易于决策支持查询的书写。

3、1）何时和如何收集数据：

在收集数据的源驱动架构中，数据源连续的（发生事务处理时）或周期性地传输新信息。在目标驱动架构中，数据仓库周期地给数据源发送需要新数据的请求。

2）使用何种模式：

单独构造的各个数据源很可能具有不同模式。

3）数据转换和清理：

对数据的纠正和预处理任务称作数据清理。

4）如何传播更新：

数据源中关系的更新必须传播到数据仓库。

5）汇总何种数据：

通常只维护由关系上的聚集得到的汇总数据，而不是维护整个关系，这样就可以回答许多查询。

4、抽取：从源收集数据。加载：把数据装入仓库中。

5、在面向列的存储中，关系的每个属性存储在单独的文件中，来自相邻元组的值存放在文件中连续的位置上。

6、数据挖掘：泛指半自动地分析大型数据库以发现有用模式的处理过程。

通常具有人工的成分，包括预处理数据使之成为算法可接受的形式，以及将发现的模式进行后期处理，以找出其中有用的异常模式。

7、关联是描述性模式的一个例子。聚类是这种模式的另一个例子。

8、分类：

给出属于某个类之一的项，并给出项的过去实例以及它们所属的类，问题是预测一个新项所属的类。因为新实例的类是未知的，所以必须使用该实例的其他属性来预测它所属的类。

创作分类器的过程开始于数据样本，称作训练集。

9、决策树分类器：

使用一棵树：每个结点有一个相关联的类，每个内部结点有一个与其相关联的谓词（或函数）。

构造决策树分类器最通用的方法是贪心算法，它从根开始递归地向下构造树。

10、回归：

处理的是值的预测，而不是类的预测。

分类的质量的度量：正确性。召回率。准确性。特异性。

11、关联规则：

一条关联规则一定有一个相关的个体总数：该个体总数由一个实例集构成。

规则有相关的支持度和相关的置信度。

12、聚类：

是指在给定数据中找到点的簇的问题。

13、文本挖掘：将数据挖掘技术应用到文本文档中。

数据可视化：系统帮助用户检查大量的数据，并以可视化的方式发现模式。

0 0