数据挖掘笔记(二)
来源:互联网 发布:淘宝网是怎么盈利的 编辑:程序博客网 时间:2024/04/29 16:32
数据挖掘笔记(二)
数据挖掘的定义:
(1) 技术层面上:数据挖掘是从大量数据中提取潜在有用的信息过程。(潜在:以前所不了解的)
(2) 从商业层面:对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据。
备注:判断是否有意义不是从人的角度主观去判断(认为自己没用就是没意义的是错误的),应该从定义角度去判断,对公司、商店利益的角度。
判断下列活动是否数据挖掘。
(1) 根据性别划分公司的顾客。(否,原因:这是没有多大意义的)
(2) 根据可赢利性划分公司的顾客。(否,原因:属于统计销售额,哪位顾客购买多少钱,对公司是否有利,而如果改用数据挖掘去预测模型,才是数据挖掘)
(3) 计算公司总销售额。(否,原因:属于统计)
(4) 按学生的标识号对学生数据库排序。(否,原因:仅仅是简单的查询任务)
(5) 预测摇一对骰子的结果。(否,原因:骰子的一面的概率是六分之一,两个骰子是 1/6 * 1/6= 1/36)
(6) 使用历史记录预测某公司未来的股票价格。(是,是属于数据挖掘,有预测未来,同时是分类或回归中的回归分析,因为确定相互以来定量关系,还有一个连续的数值(股票价格),所说的分类得出模型是只有一个值,分类是离散数值,预测是“是”还是“否”,。)
(7) 检测病人心率的异常变化。(是,从正常的心率模型,区分这个病人是否正常还是异常)
(8) 检测地震活动的地震波。(是)
(9) 提取声波的频率。(否,没有预测未来的)
属性(也称为特征、维或字段)是指一个对象的某方面性质或特征,一个对象通过若干属性来刻画。
属性分为:标称、序数、区间和比率。
定性(或分类的):标称(区分对象的,如颜色、性别、标号等,没有实际意义)、序数(提供足够的信息,区分对象的序,有等级的,如成绩等级、学生成绩等级、光亮度等级)。
定量(或数值的):区间(属性之间的差值是有意义的,如日历日期、摄氏温度)、比率(属性之间的差值和比率都是有意义的,如长度、时间、和速度)。
数据集特性:维度、稀疏性和分辨率。
数据集分为:记录数据(1.事务数据或购物篮数据,也就是购买商品构成二维表格,购买的商品是一个项,表明购买商品与否。2.数据矩阵)、基于图形的数据和有序的数据集。
数据统计特征
中心趋势度量包括:均值、中位数、众数、中列数,数据离散程度包括四分位数、四分位数极差和方差。
(1) 算术均值:直接求平均值。(1+2+3+…+100)/100.
(2) 加权算术均值:(w1x1+w2x2+…wnxn)/(w1+w1+…+wn)。一般算分子,分母和(权值和一般为1,权值看重视程度).
(3) 截断均值:丢弃高端和低端(p/2)%的数据,用常规方法计算均值。(如:{1,2,3,4,5,90},中位数是 (3+4)/2=3.5,截断均值:去掉1和90,(2+3+4+5)/4=3.5)
(4) 中列数:用于评估数据集中心趋势,是数据集的最大值和最小值的平均值。
(5) 中位数:如果个数是奇数,则中间值是中位数,如果是偶位数,则中间两个值的平均值是中位数。
(6) 四分位数:如 1 2 3 4…100,分为25%,50% 75%分开,第一个四分位数是25%,第二个是50%,第三个四分位数是75%。
(7) 众数:分类数据可以用众数来度量中心趋势,众数是集合中出现频率最高的值。(如:{1 1 3 5 6 9 9 9 },9出现频率最高,众数=9)
数据清理
目的:视图填充缺失值,去掉噪声并识别离群点、纠正数据中不一致的值。
(1) 缺失值处理方法:忽略元组(性能差)、忽略属性列(缺失值太多,整个数据集中忽略该属性)、人工填写缺失值(数据量大行不通)、自动填充缺失值(常数替换、均值或者众数填充默认值、可能值代替缺失值)。
(2) 噪声数据平滑方法
1. 分箱 分为中值平滑、边界平滑。一般来说,宽大越大,平滑效果越大。
例如: 排序后的字符:4 8 15 21 21 24 25 28 34 划分等深度的箱子,深度是4.则每个箱子分四个字符后:
箱子1:4 8 15 21
箱子2:21 24 25 28
箱子3:34 (只有一个数)
方法一:中值平滑:
箱子1:4 8 15 21 平均值是12
箱子2:21 24 25 28 平均值是21.5
箱子3:34 (只有一个数) 平均值是34,他自己
平滑后:
箱子1:12 12 12 12
箱子2:21.5 21.5 21.5 21.5
箱子3:34
方法二:边界平滑:
箱子1:4 8 15 21 8 和边界4更接近,8和21不接近,15和边界21更接近,15和边界4不接近。
因此平滑后应该是:4 4 21 21
箱子2:21 24 25 28 平均值是21.5
箱子3:34 (只有一个数) 平均值是34,他自己
平滑后:
箱子1:4 4 21 21 平均值是12
箱子2:21 21 28 28 平均值是21.5
箱子3:34 (只有一个数) 平均值是34,即是边界又是平均值、
2. 聚类
离群点可以被聚类检测,直观地落在簇聚合之外的值被称为异常值,通过删除离群点来平滑数据。
3. 回归
通过回归方法(线性和非线性回归)让数据适合一个函数来平滑数据。如:Y=A1X1+A2X2+…AnXn;A是系数也是常数。
数据聚合:将两个或多个数据源中的数据,存放在一个一致的数据存储设备中。
数据变换:平滑(分箱)、聚集(对数据进行汇总)、数据泛化(使用概念分层,如把年龄泛化成 儿童、少年、青年、中年、老年)、规范化、属性构造、数据离散化
- 数据挖掘笔记(二)
- 数据挖掘笔记(二)
- 数据挖掘笔记(二)
- 数据挖掘学习笔记(二)
- 《数据挖掘导论》学习笔记(二)
- 数据挖掘学习笔记二
- 【数据挖掘笔记二】认识数据
- 数据挖掘学习笔记之人工神经网络(二)
- 数据挖掘学习笔记之人工神经网络(二)
- 数据挖掘学习笔记(二)C4.5
- 数据挖掘笔记二【转】numpy
- 数据挖掘(二)分类
- 数据挖掘导论 (二)
- 数据挖掘整理(二)
- 数据挖掘学习(二)
- 数据挖掘笔记(一)
- 数据挖掘笔记(一)
- 数据挖掘笔记(1)
- Qt C++ 并发,并行,多线程编程系列1 什么是并发
- flex弹性布局
- 关于开发中使用writeToFile时的注意事项
- 释疑の作业分割的理解
- python文件和目录操作方法大全
- 数据挖掘笔记(二)
- java锁机制
- java对Map按照key排序
- 3.表操作&&事务
- javaWeb开发入门
- CTS测试步骤和命名
- GIT ssh登录 The authenticity of host 192.168.0.xxx can't be established. 的问题
- JDBC——思维导图总结2
- sass 的ruby安装全过程。