数据挖掘之从数据中学习

来源:互联网 发布:程序员的自我修养图片 编辑:程序博客网 时间:2024/05/16 12:45
  1. 生物系统以数据驱动的方式学习如何处理环境中未知的统计属性
    每个预测学习过程都包括两个阶段:
    从已知样本集中学习或估计系统中未知的相关性
    用估计得出的相关性为系统将来的输入值预测新的输出
    这两个步骤对应于两种经典的推力模型:归纳(从特殊案例或训练数据中发展处一般依赖关系或模型)和演绎(从一般模型和给出的输入值中发展出特殊的输出值案例)
  2. 估算出的模型一位置,学习函数可应用于任何地方,也就是说,学习函数适用于所有的输入值,这种全局函数的估计可能会矫枉过正,因为很多实际问题只需要为几个输入值的推断出估算结果,此时更好的方式是只为训练数据中几个重要的点估计未知函数的输出,而不是全局模型,这种方法叫做转导推理
    3.机器学习结合了人工智能和统计学,产生了许多不同的问题和解决了这些问题的算法,这些算法的目的、可用的训练集、学习策略和数据表述都各不相同
    4.归纳学习可以定义为一个过程,即用有限的系统输入输出测量值或观测值来估计未知输出的相关性和系统结构
    5.回归是一个在有干扰样本的有限数据集上估计实值函数的过程
    损耗的期望值称为风险函数(R(w))
    6.统计学习原理
    统计学习原理(SLT)是目前用于有限样本归纳学习的最佳公式化理论,统计学原理有限的描述了小样本的统计估值,明确的考虑到样本的大小,并定量的描述了模型复杂性和可用信息之间的平衡
    用一个近似函数来替换替换未知的真实风险函数,这个近似函数叫做经验风险函数,可以根据可用的数据集计算出来,这种方法叫做经验风险最小化(ERM)
    对包括ERM在内的任何归纳原则来说,渐进收敛是一个必不可少的一般属性,渐进收敛要求估计模型收敛于真实模型,或当训练样本数变大时,估计模型收敛于可行度最好的模型
    7.已知数据集的最优模型评估有两个步骤:
    选择结构的一个元素,使其有最佳复杂度
    根据在所选的结构元素中定义的近似函数集,来估计模型
    SRM通过这两个步骤,定量的描述了近似函数的复杂度和拟合训练数据的质量之间的平衡,随着复杂度的增加,最小经验风险下降,你和数据的质量提高
    要实现SRM方法,必须做到:
    计算或估计结构的任何元素Sk的VC维度
    是结构的每个元素的经验风险最小
    三种常用的优化方法:
    A: 随机逼近法(梯度下降)
    已知近似函数的参数w的初始估值,可以不断更新他的值,找出最优参数值,在每一步计算风险函数的梯度时,参数的更新值在风险(误差)函数下降最快的方向上有一个小小的变化
    B: 迭代法
    反复估计参数值w,使经验风险值在每次迭代中都下降
    C: 贪婪优化法
    当近似函数集是一些基本函数的线性组合时,使用贪婪法,最初 ,只使用近似函数的第一项,且只优化相应的参数,优化就是将训练数据集和估计模型之间差别最小化,然后保持此项不变,接着优化下一项,重复优化过程,直到找到近似函数中的每一项和所有参数w的值为止
    缺点:
    A: 初始条件的灵敏度—最终方案对近似函数的参数初始值非常敏感
    B: 停止规则的灵敏度—非线性近似函数往往有非常平坦的区域,这种区域会使一些优化算法被“堵塞”很长时间,若停止规则设计的比较拙劣,这种区域会被优化算法错当成局部极小值
    C: 多局部极小值的灵敏度
    SLT处理有限的数据集,得出了几个重要的结论:
    A: 再利用有限的信息解决归纳学习问题时,应该牢记一下带有常识性的原则:不要先解决一个较难的一般问题,作为中间步骤,对一个特定的问题感兴趣,就应该直接解决它
    B: 有限数据集的归纳学习方法有一个总则:复杂度最优的模型具有最好的性能
  3. 任何归纳学习过程都需要:
    A:一个灵活广泛的近似函数集f(X,w)
    B: 先验知识(假设)用于给潜在的方案施加约束
    C: 归纳原则或推论方法制定了要做的工作
    D: 学习方法,即已知某个近似函数
    9.学习方法的类型
    A: 有指导学习
    B: 无指导学习
    10.常见的学习任务
    A: 分类,一个学习函数,把数据项归类到某个预定义的类中
    B: 回归,把数据项映射到一个实数型的预测变量上
    C: 聚类,最常见的无指导学习任务,是一种描述性任务,设法识别一个描述数据的分类或聚类的有限组合
    D: 概括,一种典型的描述性任务,这种归纳学习过程没有老师,相关的方法是找出数据集(或子集)的概括性描述
    E: 相关性建模,一种根据训练数据集找出局部模型的学习任务,包括找出某个模型,来描述特征之间的重要相关性,或描述特定子集(没有涵盖整个数据集)中值之间的重要相关性
    F: 变化和方差检测,即异常点检测算法,发现数据集中最重要的变化
    11.数据挖掘和知识发现技术的分类
    A:统计方法,典型技术是贝叶斯推理、对数回归、方差分析和对数线性模型
    B: 聚类分析,常用的技术是分裂算法、凝聚算法、划分聚类、增量聚类
    C: 决策树和决策规则主要是人工智能所开发的一组归纳学习方法,典型的技术有CLS方法、ID3方法、C4.5算法以及对应的修剪算法
    D: 关联规则,包括的算法有购物篮分析、先验算法、WWW路径遍历模式
    E: 人工神经网络,常见的例子是带有反向传播学习和Kohomen网络(自组织特征映射模型)的多层感知机
    F:遗传算法,一种对解决男优化问题特别有用的方法,常常是数据挖掘算法的一部分
    G: 模糊推理系统基于模糊集和模糊逻辑理论,模糊建模和模糊决策在数据挖掘过程中非常普遍
    H: N为可视化方法,典型的数据挖掘可视化技术是几何学、基于图标、像素导向和分层技术
  4. 支持向量机(SVM)—拉格朗日置换
    SVM可以应用于回归,是一种监督学习算法,从有标号训练数据集中建立学习函数,,并且对样本维度的数量不太敏感
  5. SVM的要求
    A: 要求每个数据样本是实数向量
    B: 在应用SVM钱缩放所有的数字属性
    C:为SVM选择参数尤为重要
    SVM的优势:
    A:在参数数量较少时,训练过程相对容易,最终形成的模型不会是局部最优
    B: 针对高维数据,SVM方法扩展性相对较好
    C: 非传统的数据结构可以作为SVM的输入样本
    SVM的缺点:
    计算效率不高、需要通过试验方法选择“良好的”核函数
    13.KNN最近邻分类器
    KNN分类器确定局部决策边界
    KNN分类器的原则是,期望测试样本X与其所处的局部区域中的训练样本具有相同的类符号
    A: KNN分类器方法并不事先建立明确的学习模型
    B: 如果提前选择K值,并且不需要对给定的样本做预处理的话,则KNN方法不需要训练
    C:大的训练集会导致严重的效率问题
    D: 无需有关训练样本分布的先验假设
    E: 通常k选择为奇数,以免发生平局的可能性
    F: 随着属性数量的增加,欧几里德距离度量识别率会降低,因此某些情况下,采用余弦或其他度量方法比欧几里德距离度量要好
    总之,KNN分类器仅需要一个参数k、一个有标号的训练样本以及在n维空间中度量距离的方法
    压缩最近邻方法(CNN)的主要思想是选择训练数据集X的最小子集Z,采用Z替换X,新的测试样本的分类误差不会增加
  6. 模型的选择与泛化
    模型验证是验证模型在应用领域内,其行为所导致的结果是否与用户定义的目标达到令人满意的精确一致的效果
    评估模型的质量的常用方法就是预测精度
    预测未来模型的性能,不仅要求训练集合和测试集合足够充分,而且需要他们是相互独立的
    15.通常采用二次采样的方法将数据集分为训练样本和测试样本
    模型评估的基本方法是首先使用部分训练数据准备或虚席模型,然后使用剩余的样本估计该模型的预测风险
    常用的方法:
    A:二次替代方法,所有可用的数据既作为训练结合、也作为测试集合
    B: 保持方法,一般的数据或者三分之二的数据被当做训练数据,剩余的当做测试数据
    C: 留一法,采用n-1个样本用于模型训练,剩下一个样本进行评估
    D: 旋转法, 将可用样本分成P个不相交的集合,留下一个子集用于测试
    E: 引导法,基于给定的数据集合建立一些同样大小的“虚假”数据集,通常有几百个,用于定义误差率的引导评估
  7. 模型的评估
    A:误差率的计算基于检验过程中的误差计算
    B: 模型的精度AC是分类正确的检验数据集的一部分,他等于1减去误差率
    C: ROC曲线,取伪率(FAR)和弃真率(FRR)
原创粉丝点击