数据挖掘笔记(2)——分类、数值预测

来源:互联网 发布:定时开关机软件 编辑:程序博客网 时间:2024/05/29 13:09

分类-主要方法

决策树

    采用贪心策略以自顶向下的分治法构造决策树。        

    1. 选择样本集的一个属性作为根节点,为该属性的每个值产生一个分支

    2. 将每个分支递归使用其他属性进行划分,仅使用真正到达这个分支的样本

    3. 如果在一个节点上的所有样本都有相同的类别,即停止该部分树的扩展

基本问题

    1. 选择属性的顺序

       ID3     Information Galm  迭代的二分器

           标准:信息增益,哪个加入的信息多(熵的减少)

           通过特征划分数据,使用特征来建立模型,贪心选择哪个特征根据该划分产生的信息量。

       C4.5    Gain Ratio    ID3的后继

       CART   Gial Index    分类与回归树  使用gini选择属性

    2. 什么时候停止

       停止条件

       产生完全树后进行剪枝

优点

    1. 结构建立原理上可信,容易让人理解

 

遗传算法:

    进化计算:模拟生物中的进化,解决优化问题,包括进化策略、进化规划、遗传策略

原则:

        进化发生在染色体级别:有机体不会进化,染色体重组变化

        倾向于更多地复制更高适应度的有机体

        种群保持多样性

解决问题: 

        解空间太大

        不要求必须最优解

        求解方法不完全知道

        需要同时优化多个参数

        难用数学形式描述

优势:

        大范围搜索可行解的有效方法

        并行计算

        能自适应问题的变化: 对不同客户提供个性化服务

步骤:

        染色体编码  

            以某种方式包含关于其表示的解的信息,如使用二元向量  

        初始化种群

            随机生成给定长度的染色体(二进制编码)种群

        适应度函数的设计

           对种群进行评估

        选择(交替)

           基于前一代迭代种群,选择适应度高的

        交叉

           对新的子代的染色体从某部分断开,进行交换

        变异

           染色体某些位置上产生突变,可防止所有解都落入局部最优解,在选择和交叉的基础上(类似于复制时的误差)

贝叶斯算法:

        利用贝叶斯公式将假设信息与样本信息综合,得到预测信息

        公式: P(c|x)=(P(x|c)P(c))/P(x)。 P(c|x)=P(c*x)/P(x)

             令C为假设,X为训练数据,P(C)和P(X)为相应概率。 P(c|x)是给定训练数据存在时,假设C存在的概率(预测概率),如给定数据时,预测股票涨的概率        

        处理离散数据

朴素贝叶斯

        使用公式预测那种假设发生的概率高。  假设属性独立(很多情况下不成立)

改进:

           引入属性选择方法(特征选择)

           放宽条件独立假设(贝叶斯网络、圆模型)

贝叶斯网络

 

扩展线性模型:

    神经元模型(Neural Network):  模拟神经元,有很大的并行性,处理线性可分问题  ,类似于线性方程,用的不多

        激活函数: 根据输入得出输出,有 阀值、分段线性、Sigmoal(带参数,用的较多,因为连续可导)

        感知器网络:单层网络,模型是一条直线

        前馈性网络:多层的,前一层的输出是后一层的输入,反向不行,用于模式识别,模型是任意线

        反馈性网络:多层的,后一层可作为前一层的输入,解决优化论

        缺点:训练比较复杂;层数和每层的个数不确定,完全依靠经验;结论可解释性差,权值中的知识难以解释; 标准BP算法只能找到局部最小值

        优点:可处理非线性数据,离散、连续和向量数据;适用于并行计算;算法鲁棒(不受影响),抗噪声数据

径向基函数网络 RBF Network

        和神经元网络的不同: 激活函数是RBF函数,在概率中符合高斯分布。 只有三层,隐含层中激活函数可以各不相同。

支持向量机: Support Vector Machines

        基于小样本;连续数值; 解决分类问题很好

        通过非线性变化进行维数增加,使得数据线性可分

 

Meta 学习(系综方法)

    把多个分类器组合在一起构成一个综合的分类器

    融合策略:

        叠加归纳法: 多个分类器的结构进行综合,并行(权重、投票)

        连机归纳法: 每个分类器对输入有个判断,同时考虑上个分类器传给它的判断,综合输出,串行

    综合策略:

        同种组合: 如不同的决策树组合

        不同种组合(可操作性差,缺乏可解释性): 如决策树和贝叶斯的组合

    学习效果好不好,要加大每个学习器的差异性

    挖掘算法和数据集合 只有和特定问题相关 才能决定好坏

SVM和图像分类

场景: 

      应用在手写体识别,人脸识别,遥感图形分类, 文本分类研究

基本思想:

      基于统计学习理论的结构风险最小化原则

      最大分界间隔思想

      线性不可分:

            基于核的方法,向高维空间的非线性映射

          引入松弛技术和惩罚因子

线性判别函数: 

        对点进行判断

优点:

        坚实的数学基础; 较好地解决小样本; 解决非线性、局部极小值

缺点:

        对于大样本运算量大; 改进: 块算法,分解算法,增量与在线训练算法

图像检索:

        图找图, 从图中提取特征向量,利用近似匹配技术,找到相应图片;

        将检索结果作为训练样本,产生分类器,利用分类器对图像库中图像进行分类,对于郑磊求出每幅图像与分类面的距离,对于距离越远的图像越接近查询样例,按距离从大到小排序