数据挖掘概述
来源:互联网 发布:淘宝先锋ss商家入口 编辑:程序博客网 时间:2024/05/29 19:30
数据挖掘
绪论
什么是数据挖掘
是从大量数据中挖掘有趣模式和知识的过程。可以挖掘的数据类型
- 数据库数据
- 数据仓库
- 事务数据
- 其他类型数据
时间相关(股票)、空间(地图)、超文本和多媒体(视频和音频)等
可以挖掘的模式类型
总体分类:- 预测任务
- 描述任务
细分: - 类/概念描述:特征化和区分
- 挖掘频繁模式、关联和相关性
- 用于预测分析的分类和回归
- 聚类分析
- 离群点分析
使用技术
- 统计学
- 机器学习
- 数据库系统和数据仓库
- 信息检索
数据挖掘的主要问题
- 挖掘方法
- 挖掘各种新的知识类型
- 挖掘多维空间中的知识
- 跨学科
- 提升网络环境下的发现能力
- 处理不确定性、噪声或不完全数据
- 模式评估和约束指导的挖掘
- 用户界面
- 交互挖掘
- 结合背景知识
- 特定的数据挖掘和数据挖掘查询语言
- 数据挖掘结果的表示和可视化
- 有效性和伸缩性
- 算法的有效性和伸缩性
- 并行、分布式和增量挖掘算法
- 数据库类型的多样性。
- 处理复杂的数据类型
- 挖掘动态的、网络的、全球的数据库
- 数据挖掘与社会。
- 对社会的影响
- 保护隐私数据
- 挖掘方法
认识数据
- 数据对象和属性类型
数据集由数据对象组成。一个数据对象代表一个实体。- 属性
属性是一个数据字段,表示数据对象的一个特征。属性、维、特征和变量可以互换使用。 - 属性的类型
- 标称属性 值是一些符号或事务的名称,每个值代表某种类别、编码或者状态,因此又被看做是分类的。也可以被看做是枚举的。
- 二元属性 只有2个类别或状态。0,1。
- 序数属性 可能的值之间具有有意义额序,但相继值之间的差是未知的。
- 数值属性 是可度量的量,用整数或实数值标识。
- 区间标度 属性用相等的单位尺度度量
- 比率标度 属性是具有固定零点的数值属性
- 离散属性与连续属性 离散属性具有有限或者无限可数个值
- 属性
数据的基本统计描述
基本统计描述可以用来识别数据的性质,凸显哪些数据值应该视为噪声或离群点。中心趋势度量:均值、中位数和众数
均值是加权算术均值
中位数是有序数据值的中间值
众数是集合中出现最频繁的值度量数据散步:极差、四分位数、方差、标准差和四分位数极差
极差是最大值和最小值的差。
把数据分布划分为4个相等的部分,使得每部分表示数据分布的四分之一,这3个点称为四分位数。
第一个和第三个四分位数之间的距离称为四分位数极差。
方差是各个数据分别与其平均数之差的平方的和的平均数
标准差是方差的算术平方根。
标准差的单位和测量值的单位是一样的,而方差的单位是其平方,所以一般使用标准差.数据的基本统计描述的图形显示
- 度量数据的相似性和相异性
数据预处理
- 数据质量3要素
- 准确性
- 完整性
- 一致性 格式、时间等不一致
- 时效性
- 可信性
- 可解释性 反映数据是否容易理解
- 主要任务
- 数据清理 保证数据的质量
- 数据集成 合并多个数据库、数据立方体或者文件
- 数据归约 得到数据集的简化表示
- 数据变换 规范化、数据离散化和概念分层
- 数据清理
- 缺失值
- 忽略元组 每个属性缺失值百分比很大时,性能差
- 人工填写 数据量大时不适用
- 使用一个全局常亮填充缺失值
- 使用属性的中心度量填充缺失值
- 使用与给定元组属同一类的所有样本的属性均值或中位数
- 使用最可能的值填充 贝叶斯形式化方法
方法6是最流行的策略
- 噪声数据
- 分箱 用周围的值来光滑有序数据值
- 用箱均值光滑
- 用箱中位数光滑
- 用箱边界光滑
- 回归 用一个函数拟合数据来光滑数据
- 离群点分析 通过聚类来检测离群点
- 分箱 用周围的值来光滑有序数据值
- 数据清理作为一个过程
使用关于数据性质的元数据、ETL工具等进行数据清理 - 数据集成
合并多个数据存储的数据 - 实体识别问题 使用元数据来避免模式集成错误
- 冗余和相关分析
- 一个属性如果能由另一个或一组属性导出,则这个属性可能是冗余的。有些冗余可以被相关分析检测到。
- 标称数据的卡方检验
- 数值数据的相关系数、协方差
- 元组重复
- 数据值冲突的检测与处理
- 数据规约
- 维规约 减少所考虑的随机变量或属性个数
- 小波变换
- 主成分分析
- 属性子集选择
- 数量规约 用替代的、较小的数据标识替换原数据
- 数据压缩
- 有损的
- 无损的
- 小波变换 保留近似的压缩数据
- 主成分分析 搜索k个最能代表数据的n维正交向量
- 属性子集的选择
- 回归和对数线性模型
- 直方图
- 聚类
- 抽样
- 数据立方体聚集
- 数据变换与数据离散化
- 数据变换策略概述
在数据变换中,数据被变换或统一成适合挖掘的形式,主要策略包含如下几种:- 光滑 去除数据中的噪声
- 属性构造 由给定的属性构造新的属性并添加到属性集中。
- 聚集 对数据进行汇总或者聚集
- 规范化 将数据按比例缩放,使之落入一个特定的小区间。
- 离散化 属原始值用区间标签或概念标替换
- 由标称数据产生概念分层
- 聚集:将2个或者多个对象合并成单个对象。
- 抽样:选择数据对象子集进行分析。
- 维归约:通过创建新属性,将一些旧属性合并在一起来降低数据集的维度。
- 特征子集选择:仅使用特征的一个子集来降低维度。
- 特征创建:由原来的属性创建新的属性。
- 离散化和二元化:某些分类算法,要求数据是分类属性形式。
- 变量变换:对变量的所有值进行转换。
- 缺失值
- 相似性和相异性
- 相似性:两个对象相似程度的数值度量
- 相异性:两个对象差异程度的数值度量
探索数据
- 汇总统计
- 频数和众数:特定数据集中每个值出现的频率叫频数,众数是具有最高频率的值。
- 均值和中位数
- 极差和方差:极差表示最大散步(最大值-最小值),标准差是方差的平方根。
分类:基本概念、决策树与模型评估
- 定义
分类任务就是通过学习得到一个目标函数f,把每个属性x映射到一个预先定义的类标号y。
目标函数也称分类模型。
分类模型可以用于以下目的。- 描述性建模。可以作为解释性的工具,用于区分不同类中的对象。
- 预测性建模。用于预测未知记录的类标号。
- 解决分类问题的一般方法
- 首先,需要一个训练集。有类标号已知的记录组成
- 建立分类模型
- 将模型运用于检验集,应用模型。
关联分析:基本概念和算法
- 定义
给定事务的集合T,关联规则发现是指找出支持度大于等于minsup并且置信度大于等于minconf的所有规则,其中minsup和minconf是对应的支持度和置信度阀值。由关联规则作出的推论并不必然蕴含因果关系,只是表示规则前件和后件明显的同时出现。 - 术语
- 项集 包含0个或者多个项的集合。包含k个集合称为k-项集。空集不包含任何项。
- 支持度计数 σ(X)包含特定项集的事务个数。
- 支持度 s(X->Y)=σ(x∪y)/N N表示事务总数,支持度确定给定数据集的频繁程度。
- 置信度 c(X->Y)=σ(x∪y)/σ(X) 确定Y在 包含x的事务中出现的频繁程度。
- 关联规则挖掘任务一般方法
- 频繁项集产生。发现满足最小支持度阀值的所有项集。
- 规则的产生。从上一步发现的频繁项集中提取所有高置信度的规则,这些规则称为强规则。
- 频繁项集的产生
确定每个候选项集的支持度计数。计算所有候选项集需要进行o(事务数×候选项集数×事务最大宽度)次比较。
降低产生频繁项集的计算复杂度方法。- 减少候选项集的数目。先验原理
- 较少比较次数。
先验原理 - 定义
如果一个项是频繁的,则它的所有子集一定也是频繁的。相反,如果项集非频繁,则它的所有超集也一定是非频繁的。一个项集的支持度不会超过它的子集的支持度,称为支持度度量的反单调性。
- 规则的产生
将项集Y划分成2个非空子集X和Y-X,使得X->Y-X满足置信度阀值。
聚类分析:基本概念和算法
- 定义
根据在数据中发现的描述对象及其关系的信息,将数据对象分组。组内相似性越大,组间差别越大,聚类就越好。
聚类分析属于非监督分类,不需要人工采集地物样本点数据。 - 不同的聚类类型
- 层次的与划分的
划分聚类简单地将数据对象划分成不重叠的子集。
层次聚类是嵌套簇的集族,组织成一棵树。 - 互斥的、重叠的与模糊的
- 完全的与部分的
完全聚类将每个对象指派到一个簇。
部分聚类数据集中某些对象可能不属于明确定义的组。(比如噪声,离群点)
- 层次的与划分的
- 聚类方法
- K均值 试图发现用户指定个数的簇。
- 凝聚的层次聚类
- DBSCAN 是一种基于密度的聚类算法。
0 0
- 数据挖掘概述
- 数据挖掘概述
- 数据挖掘概述
- 数据挖掘概述
- 数据挖掘概述
- 数据挖掘概述
- 数据挖掘概述
- 数据挖掘概述
- 数据挖掘概述
- 数据挖掘概述
- 数据挖掘过程概述
- 数据挖掘概述
- SPSS Modeler数据挖掘:数据挖掘概述
- 数据挖掘概述(又)
- 视频数据挖掘总体概述
- 数据挖掘中聚类算法概述
- 数据挖掘系列之二:数据挖掘概述
- 数据挖掘技术及其应用现状概述
- c和c++中NULL和0的区别
- 三星Remote Control开发遇到的坑
- yii2之登录表单
- Processing 练习(5)- Random bubbles fade out!!
- linux查看某个端口号的所有连接状态
- 数据挖掘概述
- 决策树
- Winform背景图片添加与图片大小自适应
- python统计日志ip
- OC实战: ARC 下使用 Block 实现链式语法
- python scrapy爬虫
- 超声波模块
- python学习笔记---类的方法与普通方法的区别
- 零基础学python-11.5 真值测试与if...else...三元表达式