数据挖掘笔记(二)

来源:互联网 发布:淘宝网是怎么盈利的 编辑:程序博客网 时间:2024/04/29 16:32

数据挖掘笔记(二)

数据挖掘的定义:

1         技术层面上:数据挖掘是从大量数据中提取潜在有用的信息过程。(潜在:以前所不了解的)

2         从商业层面:对大量业务数据进行抽取、转换、分析和建模处理,从中提取辅助商业决策的关键性数据。

 

备注:判断是否有意义不是从人的角度主观去判断(认为自己没用就是没意义的是错误的),应该从定义角度去判断,对公司、商店利益的角度。

 

判断下列活动是否数据挖掘。

(1)        根据性别划分公司的顾客。(否,原因:这是没有多大意义的)

(2)         根据可赢利性划分公司的顾客。(否,原因:属于统计销售额,哪位顾客购买多少钱,对公司是否有利,而如果改用数据挖掘去预测模型,才是数据挖掘)

(3)         计算公司总销售额。(否,原因:属于统计)

(4)        按学生的标识号对学生数据库排序。(否,原因:仅仅是简单的查询任务)

(5)         预测摇一对骰子的结果。(否,原因:骰子的一面的概率是六分之一,两个骰子是 1/6 *  1/6= 1/36

(6)         使用历史记录预测某公司未来的股票价格。(是,是属于数据挖掘,有预测未来,同时是分类或回归中的回归分析,因为确定相互以来定量关系,还有一个连续的数值(股票价格),所说的分类得出模型是只有一个值,分类是离散数值,预测是“是”还是“否”,。)

(7)        检测病人心率的异常变化。(是,从正常的心率模型,区分这个病人是否正常还是异常)

(8)         检测地震活动的地震波。(是)

(9)         提取声波的频率。(否,没有预测未来的)

 

属性(也称为特征、维或字段)是指一个对象的某方面性质或特征,一个对象通过若干属性来刻画。

 

属性分为:标称、序数、区间和比率。

 

定性(或分类的):标称(区分对象的,如颜色、性别、标号等,没有实际意义)、序数(提供足够的信息,区分对象的序,有等级的,如成绩等级、学生成绩等级、光亮度等级)。

 

定量(或数值的):区间(属性之间的差值是有意义的,如日历日期、摄氏温度)、比率(属性之间的差值和比率都是有意义的,如长度、时间、和速度)。

数据集特性:维度、稀疏性和分辨率。

数据集分为:记录数据(1.事务数据或购物篮数据,也就是购买商品构成二维表格,购买的商品是一个项,表明购买商品与否。2.数据矩阵)、基于图形的数据和有序的数据集。

 

数据统计特征

中心趋势度量包括:均值、中位数、众数、中列数,数据离散程度包括四分位数、四分位数极差和方差。

 

(1)         算术均值:直接求平均值。(1+2+3+…+100)/100.

(2)         加权算术均值:(w1x1+w2x2+…wnxn)/(w1+w1+…+wn)。一般算分子,分母和(权值和一般为1,权值看重视程度).

(3)         截断均值:丢弃高端和低端(p/2)%的数据,用常规方法计算均值。(如:{1,2,3,4,5,90},中位数是  (3+4)/2=3.5,截断均值:去掉1和90,(2+3+4+5)/4=3.5)

(4)         中列数:用于评估数据集中心趋势,是数据集的最大值和最小值的平均值。

(5)         中位数:如果个数是奇数,则中间值是中位数,如果是偶位数,则中间两个值的平均值是中位数。

(6)         四分位数:如 1 2 3 4…100,分为25%,50%  75%分开,第一个四分位数是25%,第二个是50%,第三个四分位数是75%。

(7)         众数:分类数据可以用众数来度量中心趋势,众数是集合中出现频率最高的值。(如:{1 1 3 5 6 9 9 9 },9出现频率最高,众数=9)

 

数据清理

目的:视图填充缺失值,去掉噪声并识别离群点、纠正数据中不一致的值。

(1)         缺失值处理方法:忽略元组(性能差)、忽略属性列(缺失值太多,整个数据集中忽略该属性)、人工填写缺失值(数据量大行不通)、自动填充缺失值(常数替换、均值或者众数填充默认值、可能值代替缺失值)。

(2)        噪声数据平滑方法

1.   分箱 分为中值平滑、边界平滑。一般来说,宽大越大,平滑效果越大。

例如:  排序后的字符:4 8 15 21 21 24 25 28 34 划分等深度的箱子,深度是4.则每个箱子分四个字符后:

箱子1:4 8 15 21

箱子2:21 24 25 28

箱子3:34  (只有一个数)

 

方法一:中值平滑:

箱子1:4 8 15 21  平均值是12

箱子2:21 24 25 28  平均值是21.5

箱子3:34  (只有一个数)  平均值是34,他自己

 

平滑后

箱子1:12  12  12 12

箱子2:21.5  21.5  21.5  21.5

箱子3:34 

 

方法二:边界平滑:

箱子1:4 8 15 21  8 和边界4更接近,821不接近,15和边界21更接近,15和边界4不接近。

因此平滑后应该是:4 4 21 21

箱子2:21 24 25 28  平均值是21.5

箱子3:34  (只有一个数)  平均值是34,他自己

 

平滑后:

箱子1:4 4 21 21  平均值是12

箱子2:21 21 28 28  平均值是21.5

箱子3:34  (只有一个数)  平均值是34,即是边界又是平均值、

 

2.    聚类

离群点可以被聚类检测,直观地落在簇聚合之外的值被称为异常值,通过删除离群点来平滑数据。

3.    回归

通过回归方法(线性和非线性回归)让数据适合一个函数来平滑数据。如:Y=A1X1+A2X2+…AnXn;A是系数也是常数。

 

 

 

数据聚合:将两个或多个数据源中的数据,存放在一个一致的数据存储设备中。

数据变换:平滑(分箱)、聚集(对数据进行汇总)、数据泛化(使用概念分层,如把年龄泛化成 儿童、少年、青年、中年、老年)、规范化、属性构造、数据离散化

1 0
原创粉丝点击