1.1关于数据挖掘

来源:互联网 发布:淘宝店卖什么好呢 编辑:程序博客网 时间:2024/06/16 04:45

一、数据挖掘是什么?

    从技术层面讲,数据挖掘指从大量数据中提取潜在有用的信息和知识的过程。

    从商业层面讲,数据挖掘是一种对大量业务数据进行抽取、转换、分析和建模处理,并从中提取辅助商业决策的关键数据的商业信息处理技术。

二、数据挖掘与传统传统数据分析方法的区别

    传统的数据分析方法是例如查询、报表、联机应用分析等的分析方法

    数据挖掘得到的信息具有三个基本特性:先前未知、有效、实用。

    数据挖掘的主要目标是:提高决策能力,能在过去的经验基础上预言未来的趋势等。

    数据挖掘与传统分析方法本质上的区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识的;而传统分析方法则是对现有数据进行有明确要求的数据分析处理

三、数据挖掘的对象

    (1)关系数据库

    (2)数据仓库

        数据仓库:面向主题的、集成的、相对稳定的、反应历史变化的数据集合

        用途:用于支持管理决策,联机分析处理

    (3)事务数据库

        通常,每个纪录代表一个事务,一个事务由唯一的标识号和组成该事物的项目列表组成

    (4)空间数据库

        空间数据库是指在关系型数据库内部对地理信息进行物理存储

        存储的数据:对象的空间拓扑特征、非空间属性特征、对象在时间上的变化

        常见数据类型:地理信息系统、遥感图像数据、医学图像数据

        特点:数据量庞大、空间数据模型复杂、属性数据和空间数据联合管理,应用范围广

    (5)时态数据库和时间序列数据库

        都存放与时间有关的数据

        时态数据库通常存放时间相关的属性值,时间序列数据库存放随时间变化的值序列

    (6)流数据

        流数据是连续的、有序的、变化的、快速的、大量的输入数据

        应用场合·:网络监视、网页点击流、股票市场、流媒体

        特点:数据实时到达、数据到达次序独立、数据规模宏大且不能预知其最大值、数据再次提取代价大

    (7)多媒体数据库

        构造多媒体数据立方体

        多媒体数据库的多特征提取

        基于相似性的模式匹配

    (8)文本数据

        无结构类型:大部分文本资料和网页

        半结构类型:XML数据

        结构类型:图书馆数据

    (9)万维网数据

        WEB结构挖掘

        WEB使用挖掘

        WEB内容挖掘

四、数据挖掘任务

    预测任务:分类、回归、离群点检测

    描述任务:聚类分析、关联分析、演化分析、序列模式挖掘

    (1)分类分析

        通过分析示例数据库中的数据为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用此分类规则对其他数据库中的记录进行分类·

       应用:受众分析、风险分析、生物科学

    (2)聚类分析

        聚类分析试图找出数据集中的共性和差异,并将具有共性的对象聚合在相应的类中,帮助决定哪些组更有意义

        应用:客户细分、定向营销、信息检索

 

聚类

分类

监督(指导)与否

无指导学习

(没有预先定义的类)

有指导学习

(有预先定义的类)

是否建立模型或

训练

否,旨在发现空间实体的属性间的函数关系。

是,具有预测功能


    (3)回归分析

        确定两种或两种以上变数间相互依赖的定量关系的一种分析方法

        应用:风险分析、作文自动评分

    (4)关联分析

        发现特征之间的相互依赖关系,通常是从给定的数据集中发现频繁出现的模式知识(关联规则)

        应用:市场营销、事务分析

    (5)离群点检测

        发现与众不同的数据

        应用:商业欺诈行为自动检测、网络入侵检测、金融欺诈检测、嫌疑人调查

    (6)演化分析

        对随时间变化的数据对象的变化规律和趋势进行建模描述

        应用:商品销售的周期性分析

    (7)序列模式挖掘

        分析数据间的前后序列关系

        应用:客户购买行为模式预测、WEB访问模式预测、疾病诊断、网络入侵检测



原创粉丝点击