数据挖掘笔记（二）

来源：互联网发布：淘宝网是怎么盈利的编辑：程序博客网时间：2024/04/29 16:32

数据挖掘笔记（二）

数据挖掘的定义：

（1） 技术层面上：数据挖掘是从大量数据中提取潜在有用的信息过程。（潜在：以前所不了解的）

（2） 从商业层面:对大量业务数据进行抽取、转换、分析和建模处理，从中提取辅助商业决策的关键性数据。

备注：判断是否有意义不是从人的角度主观去判断（认为自己没用就是没意义的是错误的），应该从定义角度去判断，对公司、商店利益的角度。

判断下列活动是否数据挖掘。

（1） 根据性别划分公司的顾客。（否，原因：这是没有多大意义的）

（2）根据可赢利性划分公司的顾客。（否，原因：属于统计销售额，哪位顾客购买多少钱，对公司是否有利，而如果改用数据挖掘去预测模型，才是数据挖掘）

（3）计算公司总销售额。（否，原因：属于统计）

（4） 按学生的标识号对学生数据库排序。（否，原因：仅仅是简单的查询任务）

（5）预测摇一对骰子的结果。（否，原因：骰子的一面的概率是六分之一，两个骰子是 1/6 * 1/6= 1/36）

（6）使用历史记录预测某公司未来的股票价格。（是，是属于数据挖掘，有预测未来，同时是分类或回归中的回归分析，因为确定相互以来定量关系，还有一个连续的数值（股票价格），所说的分类得出模型是只有一个值，分类是离散数值，预测是“是”还是“否”，。）

（7） 检测病人心率的异常变化。（是，从正常的心率模型，区分这个病人是否正常还是异常）

（8）检测地震活动的地震波。（是）

（9）提取声波的频率。（否，没有预测未来的）

属性（也称为特征、维或字段）是指一个对象的某方面性质或特征，一个对象通过若干属性来刻画。

属性分为：标称、序数、区间和比率。

定性（或分类的）：标称（区分对象的，如颜色、性别、标号等，没有实际意义）、序数（提供足够的信息，区分对象的序，有等级的，如成绩等级、学生成绩等级、光亮度等级）。

定量（或数值的）：区间（属性之间的差值是有意义的，如日历日期、摄氏温度）、比率（属性之间的差值和比率都是有意义的，如长度、时间、和速度）。

数据集特性：维度、稀疏性和分辨率。

数据集分为：记录数据（1.事务数据或购物篮数据，也就是购买商品构成二维表格，购买的商品是一个项，表明购买商品与否。2.数据矩阵）、基于图形的数据和有序的数据集。

数据统计特征

中心趋势度量包括：均值、中位数、众数、中列数，数据离散程度包括四分位数、四分位数极差和方差。

（1） 算术均值：直接求平均值。（1+2+3+…+100）/100.

（2） 加权算术均值：（w1x1+w2x2+…wnxn）/(w1+w1+…+wn)。一般算分子，分母和（权值和一般为1，权值看重视程度）.

（3） 截断均值：丢弃高端和低端（p/2）%的数据，用常规方法计算均值。（如：{1,2,3,4,5,90}，中位数是（3+4）/2=3.5，截断均值：去掉1和90，（2+3+4+5）/4=3.5）

（4） 中列数：用于评估数据集中心趋势，是数据集的最大值和最小值的平均值。

（5） 中位数：如果个数是奇数，则中间值是中位数，如果是偶位数，则中间两个值的平均值是中位数。

（6） 四分位数：如 1 2 3 4…100，分为25%，50% 75%分开，第一个四分位数是25%，第二个是50%，第三个四分位数是75%。

（7） 众数：分类数据可以用众数来度量中心趋势，众数是集合中出现频率最高的值。（如：{1 1 3 5 6 9 9 9 }，9出现频率最高，众数=9）

数据清理

目的：视图填充缺失值，去掉噪声并识别离群点、纠正数据中不一致的值。

（1） 缺失值处理方法：忽略元组（性能差）、忽略属性列（缺失值太多，整个数据集中忽略该属性）、人工填写缺失值（数据量大行不通）、自动填充缺失值（常数替换、均值或者众数填充默认值、可能值代替缺失值）。

（2）噪声数据平滑方法

1. 分箱分为中值平滑、边界平滑。一般来说，宽大越大，平滑效果越大。

例如：排序后的字符：4 8 15 21 21 24 25 28 34 划分等深度的箱子，深度是4.则每个箱子分四个字符后：

箱子1：4 8 15 21

箱子2：21 24 25 28

箱子3：34 （只有一个数）

方法一：中值平滑：

箱子1：4 8 15 21 平均值是12

箱子2：21 24 25 28 平均值是21.5

箱子3：34 （只有一个数）平均值是34，他自己

平滑后：

箱子1：12 12 12 12

箱子2：21.5 21.5 21.5 21.5

箱子3：34

方法二：边界平滑：

箱子1：4 8 15 21 8 和边界4更接近，8和21不接近，15和边界21更接近，15和边界4不接近。

因此平滑后应该是：4 4 21 21

箱子2：21 24 25 28 平均值是21.5

箱子3：34 （只有一个数）平均值是34，他自己

平滑后：

箱子1：4 4 21 21 平均值是12

箱子2：21 21 28 28 平均值是21.5

箱子3：34 （只有一个数）平均值是34，即是边界又是平均值、

2. 聚类

离群点可以被聚类检测，直观地落在簇聚合之外的值被称为异常值，通过删除离群点来平滑数据。

3. 回归

通过回归方法（线性和非线性回归）让数据适合一个函数来平滑数据。如：Y=A1X1+A2X2+…AnXn;A是系数也是常数。

数据聚合：将两个或多个数据源中的数据，存放在一个一致的数据存储设备中。

数据变换：平滑（分箱）、聚集（对数据进行汇总）、数据泛化（使用概念分层，如把年龄泛化成儿童、少年、青年、中年、老年）、规范化、属性构造、数据离散化

1 0