数据挖掘笔记(1)——概论、类型

来源:互联网 发布:定时开关机软件 编辑:程序博客网 时间:2024/05/21 02:19

概论

定义

       海量数据  自动或半自动   有用规律

应用场景

       不能清晰地定义问题

       数据是否有价值

       性价比是否合适

学习方式

       监督学习: 有分类和评价机制,如 Classification 、Numeric Prediction; 

       无监督误差:没有明确的分类和评价,如Cluster Analysis;

       半监督学习:通过对已有数据学习得出模型,再使用未知数据对该模型进行泛化,提高其覆盖范围。

数据挖掘与以下关系

知识发现:

    是知识发现的一部分

机器学习:

    属于人工智能,借助人的经验提高机器的智能

OLAP:

    和数据库结合紧密,偏统计分析; 而数据挖掘发现数据内部之间的关系,可以作为数据挖掘的验证手段;统计是基于假设对数据进行验证, 挖掘不知道自己发现什么。

CRM:

是数据挖掘的应用

数据仓库

可实现数据的预处理,和数据挖掘无必然联系

功能

预测

         有明确的类定义

Classification

        根据类定义判断未知数据属于那个类。类似于方程给出x求y值。

       类是有清晰定义,而且是离散的

        评价:准确度

Numeric Prediction

       预测数值而不是类,数据是连续的

        常用方法:回归分析

       某些分类技术也可用于数值预测,如 决策树、神经元网络方法等。

        评价:均方根误差

数据集使用方式:

        分成三块,一个是训练集(从该数据得出模型);一个是调整集(对模型进行调整);一个是测试集(判断模型是否准确)。其中训练集和调整集来自同一数据集,使用交叉验证、随机取样的方法进行划分,测试集是新数据

关联

Frequent Pattern

        目标数据中反复出现的联系,如频繁结构模式、频繁序列模式、频繁项集(销售)

       评价: 支持度: 联系在所有样本出现的比例, P(x Uy);  置信度:联系在有一方出现时的条件概率   P(x | y)

分析

         没有明确的类定义

Concept Description

        从数据中发现一般特征,并根据这些特征定义概念

        数据特征化:对某一类数据特性的汇总,如什么是优质客户

        数据区分 :目标数据的一般特性和非此类数据进行对比

Cluster Analysis

         将目标数据分成相似对象,没有类的定义,需要根据数据建立类

         相似性: 内部相似最大化; 类之间相似最小化

         评价:很难

         方法: k-mean; 基于密度估计

Outlier(离群点) Analysis

         与一般模型不一致的点,有可能是噪声和意外

         方法: 统计、距离、密度、偏差

         如果在NumericPrediction中多半认为是噪声,而如果该点比较重要,认为是意外

         评价:代价

       数据集:直接在数据集上构造模型

Trend Evolution Analysis

发现规律或趋势,包括数据流挖掘、时间序列挖掘、序列模式挖掘

       数据流: 对实时的数据流发掘,如摄像头

       时间序列:有时间特征,如股票趋势

       序列模式:如dna序列

原创粉丝点击