数据挖掘里面机器学习算法的讲解2

来源：互联网发布：网页过滤软件编辑：程序博客网时间：2024/06/05 02:04

（数据挖掘原理与实战）视频

决策树：划分原则，是当前哪个属性是最大的，信息增益率。过程比较清晰。最大的优点自学习。

决策树的分类

没有办法划分，或者百分百划分，也可以控制几层，才会停止。防止过度拟合，到某个程度就停止。

对比逻辑回归。

优点：健壮性好。处理非线性。

缺点：类别太多，错误可能会增加比较快。只是根据一个字段来分类。泛化能力差（容易过度拟合）。

逻辑回归：

效果，就用实际数据就好了。

对比决策树：

优点：泛化能力较好（训练集和测试集的准确率差不多），精准高。能精确控制用户数量。

缺点：数据要求高，多重共线问题，不能处理复杂用户特征。

神经网络：

支持向量机（用的比较多）：核心就是核函数。小样本里面很好，

文本分类，图像分类，生物序列都比较好。

贝叶斯分类：

准确率不高，

k近邻：k一定是奇数，错误率很高的。K越大，就越接近贝叶斯的错误率。

数据分析入门。

数据来源要客观，这个案例人不仅仅是这几个属性，猪也一样。也不是科学方法。而且结论能解释。小例子没有结论解释性。所以不能算是数据分析，要从业务思维思考问题。不能分析出结果，就和随机结论一样了。数据分析，是严谨的分析过程。

用业务的思维去使用技术，业务为导向。

想清楚做什么，能否做，怎么做。怎么做正确，数据正确，方法正确。结论，有图，有结论。

这里有一个案例：

电信公司，给业绩好的部门发展酬金，所以为了这个业绩，为了这个酬金，就有部门自己购买这些卡的现象。用数据挖掘来分析，违规操作。

他有什么样的特征和业务表现，有什么样的数据，有什么指标反映。

发展集中，拨打号码统一，通信行为集中，基站使用少等。

数据来源：

调研，人工输入，设备采集，这种直接获取。

文档，网络上这些，就是简介获取。

多选型的题目如何编码：

需要多少的样本量。

抽样方法：

概率抽样：完全随机，分层抽样，整群抽样，等距抽样，

非概率抽样：依靠研究人员的经验。

中心极限定理。样本均值的方差等于总体方差的1/N.

点估计。就是用样本的统计量对总体的未知参数的估计。最小二乘，贝叶斯等。

区间估计。估计区间，置信度和置信限。

样本的代表性。就是抽样的方法选择。

标准差，表示差异度。

正态分布的面积比例。

样本容量大小怎么确定。（课时7，40分钟位置）。

我毛华望QQ849886241，个人博客http://blog.csdn.net/my_share

《数据挖掘学习视频》

7数据预处理

精准度，完整度，一致性，合乎时机，可信度，附加价值，可访问性。来评论数据质量。

数据清理：空缺，噪声，识别孤立点。

数据集成：数据立方体。

数据变换：规范化。

数据归约：书籍集变小，还不损失信息。

数据离散化：

空缺值处理：直接忽略（大量空缺），人工（工作量大），全局变量就是null，平均值，bayesian方法，决策树，机器学习方法推断

噪声：分箱，聚类，回归和人工。

8数据集成和变换

模式集成和数据集成。

数据集成的时候，就是多个数据源整合成一个的问题。

实体识别，就是匹配来自不同数据源的实体。比如说，有人用ID有人用NO。来表示客户的标号。但是在合并的时候，意思是一样的。比如说，10美元，也有10人民币。都可能只用10.

也有冗余数据。比如说，一个数据库用年薪，一个数据库用月薪，其实是一个，你却用了2个。

相关性分析有时候可以消除冗余。相关越大，过大就可能是冗余。

冗余：也可能由多个数据库字段表示。比如说月销量和季度销量。

数据变换：平滑是用来处理噪点。汇总，概化就是分层向上汇报比如从村---镇，可以减少数据。规范化，归一化。要不然就是从-1到1.统一到一个合适的空间。方便计算。

数据归约：目的就是减少挖掘时间。缩小海量数据就是数据归约，但是不能减少信息量。数据立方体就会数据金字塔是一样的。维度归约(不相干属性)，数据压缩（算法压缩），数值归约，离散化。但是要求归约的时间不能太长。

维归约：较少属性和维度，启发式方法，逐步向前选择，逐步向后删除，判定归纳树。

比如：逐步向前选择，由空属性集，每次添加一个最好的属性进来。

数据压缩：小波变换和主成分分析。

数值归约：通过线性回归，多元回归，直方图，聚类，选样减少数据量。比如说，数据是5,10,15这样类型的数据，就可以改变为1,2,3这样就较少数据量了。聚类呢？比如说数据1，2，3，3，4,34,37,38，可以这样，01,02,03,03，04,14,17,18前面的一代表30，就可以压缩了。

选样：抽样定理，随机抽取。分成选样。聚类选样。

9分类数据概念分成

离散化，比如说，数据是1,1.02，9,19，我们可以把1.02就可以变成1.也可以变成段落，比如说，把收入的具体数据，变成年薪10万以内的，超过10万的，15万的。就把具体数据变成很宽的数据。

概念分成，就是通过属性，来寻找更合适的属性，比如说合并。或者生成更合适的属性。减少属性就可以可能减少挖掘时间。

10，数据挖掘原语

百分之一就已经很具有代表性的。

置信度和支持度有强相关。支持度和置信度都需要有界限。

11,数据库查询语言

主要是数据库查询语言DMQL。因为大部分都是在数据库中完成的。所有需要了解这些。

12，制定数据挖掘任务

13，面向属性的归纳算法

描述性挖掘和预测性挖掘。

14，概念描述的属性相关分析

防止属性的选取不正确，所以需要属性相关分析。模糊理论，粗糙理论。信息增益。

如果相关性越强，就越没有意义。如果百分百相关，那就说这个属性可以被其他属性推倒出来。

15，类比较描述的量化分析规则

类比较性挖掘，

16，概念描述

度量中心趋势，算数平均数，中位数（不过是最耗用时间的做法），模（频率最高的数据）也很耗时间。中位数（最大值和最小的平均），百分位数是正态分布的90%的区域，就是90%位数，倾斜度。

倾斜度，就是中位数和两个位数叫IQR，如果超过1.5倍的IQR，认为是孤立点。

盒图，

和股市交易图差不多。

离散度量，方差，

直方图，分位数图，QQ图，散步图。

增量挖掘和并行挖掘。

17，关联规则

关系数据库，频繁出现模式。比如，适合捆绑销售。

根据关联规则促销。支持度和置信度。

apriori算法。

18，apriori 算法与FP树。找出大型数据库的简单的关联规则。

19，多维关联规则

支持度设置，高了，很多有用的信息消失了。如果低了，太多无用的东西都进来了。所以用递减支持度，或者是多支持度自动计算，来对比结果（耗用时间多了）。

受控层交叉单项过滤策略，是为了搜索合适的支持度。

冗余多层关联规则，就是父辈和子辈的置信度一样，那就是冗余的。

20，关联规则的元规则指导挖掘

关联规则聚类系统，

强关联规则，有时候你发现强关联规则。比如说，买电影票和看新闻的相关性。数据上相关性很强。可是单项比较，就是买电影票的人或者看新闻的人就是多。其实是无关的。因为最近有大片上映，也有一个大新闻，所以有时候是无相关的，也可能同时发生。

这里面讲了集中约束方法，避免关联进入死胡同。

21，分类和预测

建立模型--用模型分类---

准确率，速度，健壮，伸缩，可解读。

判定树归纳。

停止条件。

22，判定归纳树

贝叶斯，神经网络，回归一种预测算法，

23，聚类分析

伸缩性，不同数据，任意形状，噪声，高纬度，约束，可解释。

相异度矩阵，来表征差别。

25，电子商务与数据挖掘

内存装不下，是大数据的表现。通过相关性捆绑销售，电子商务网站结构，

网络爬虫，搜索引擎就是通过这个收集网站的。

1 0