电子商务复习笔记六:数据挖掘概述

来源:互联网 发布:ubuntu安装libapu 编辑:程序博客网 时间:2024/05/16 06:11

复习要点:数据挖掘基本概念、核心任务

数据挖掘

简单来说,数据挖掘指从数据中挖掘知识。详细的说法是:从大量数据中寻找其规律的技术,是统计学、数据库、和人工智能等技术的综合,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程

数据挖掘四大核心任务

关联分析

某种事物发生时其他事物也会发生,这种联系称之为关联,是指两个或多个变量取值之间出在的一类重要的可被发现的某种规律性
用来发现数据中强关联特征的模式
关联规则的表示形式:
R:X->Y ,其中,X及Y是两个不相交的集合(项集),即X,YI(X,Y是I的子集)且X Y= (X交Y为空集)
X称为规则的前提或者前项,Y称为结果或后项。
交易(事务):每一条购买记录称为一个交易。
项集:包含一个或多个项的集合。
支持数:一个项集在所有交易中出现的次数。

规则度量标准:
规则的支持度:s(X->Y)=同时包含X和Y的交易数/总交易数
规则的置信度:c(X->Y)=同时包含X和Y的交易数/包含x的交易数

关联规则的挖掘方法

  • 设定最小支持度和置信度的阈值:minsup和minconf
  • 目标:support>=minsup&&confidence>=minconf
  • 找出所有的频繁项集
  • 由频繁相机产生强关联规则

Apriori算法

分类与预测

分类:用于预测离散的目标变量,通过分析一个类别已知的数据集的特征来建立一组模型,该模型可用以预测类别未知的数据项的类别,主要方法包括分类规则、决策树、贝叶斯分类、人工神经网络、支持向量机等等。

预测:用于预测连续的目标变量,预测也是首先构建模型,再通过模型来预测未知值,主要方法是回归(Regression),包括线性回归、多元回归和非线性回归等

分类预测的是类别,而非连续的数值。

分类的目的:获取分类函数或分类模型,该模型能把数据库中的数据项映射到某一个指定类别

分类可用于提取描述重要数据类的模型或预测未来的数据趋势

两个步骤:

  • 创建模型
    根据一个类别已经确定的训练集创建模型
  • 使用模型
    用创建的模型预测未来或者类别未知的记录(测试集)

KNN算法(K最近邻法)

聚类分析

聚类分析:无监督的分类,是指把一组数据分成不同的“簇 ”,每簇中的数据相似而不同簇间的数据则距离较远。
相似性可以用用户或者专家定义的距离函数加以度量
好的聚类方法应保证不同类间数据的相似性尽可能小,而类内的数据相似性尽可能大
特点:一种无监督的分类法,没有预先指定的类别。

K-means算法(K均值算法)

异常检测

又称为:偏差分析或离群点分析。
离群点:异常对象,属性值铭心啊偏离期望的或常见的属性值。
应用于欺诈检测、入侵检测、医疗检查等。

常用方法:

  • 基于模型的技术(概率分布模型)
  • 基于邻近度的技术(基于距离的离群点检测技术)
  • 基于聚类的技术(点到最近质心的距离)
  • 基于密度的技术
原创粉丝点击