数据挖掘笔记(3)-从数据中学习

来源：互联网发布：天翼机顶盒没网络连接编辑：程序博客网时间：2024/05/22 01:45

从数据中学习

　　　　每个预测学习过程都包括两个主要阶段：（1）从已知样本中学习或估计系统中未知的相关性；（2）用估计得出的相关性为系统将来的输入值预测新的输出。

　　　　即归纳和演绎

　　　　转导推理：只为训练数据中几个重要的点估计未知函数的输出，而不是建立全局模型。此方法的重要应用是挖掘关联规则。

　　4.1 学习机器

　　　　机器学习结合了人工智能和统计学，一个基本任务是归纳机器学习，它从样本集中获得一般结果，用不同的技术和模型来定型。

　　4.2 统计学习原理(SLT)

　　4.3 学习方法的类型

　　　　有两种常用的归纳学习方法，叫做：（1）有指导学习（或有老师学习）；（2）无指导学习

　　4.4 常见的学习任务

　　　　数据挖掘过程成功的基础是数据的预处理和数据规约方法。下面列举其中的一些技术，来展示在该过程的开始阶段，数据挖掘的设计者有多少方法可以选择：

　　　　缩放、标准化、编码、异常点检测和去除、特征选择和构建、数据清洁和净化、数据平整、丢失数据的清以及通过取样进行案例规约。

　　　　　　分类如下：

　　　　（1）统计方法，典型技术是贝叶斯推理、对数回归、方差分析（ANOVA）和对数线性模型。

　　　　（2）聚类分析，常用技术是分裂算法、凝聚算法、划分聚类和增量聚类。

　　　　（3）决策树和决策规则主要是为人工智能所开发的一组归纳学习方法。典型的技术包括：CLS方法、ID3算法、C4.5算及其对应的修建算法。

　　　　（4）关联规则提出了一个较新的规则集，包括的算法有购物篮分析、先验算法和WWW路径遍历模式。

　　　　（5）人工神经网络，常见的例子是带有反向传播学习和Kohonen网络（自组织特征映射模型）的多层感知机。

　　　　（6）遗传算法是一种对解决难优化问题特别有用的方法，常常是数据挖掘算法的一部分。

　　　　（7）模糊推理系统基于模糊集和模糊逻辑理论。模糊建模和模糊决策在数据挖掘中非常普遍。

　　　　（8）N维可视化方法作为一种标准的数据挖掘方法，虽然使用其技术和工具可以发现有用的信息，但在文献中常常被漏掉。典型的数据挖掘可视化技术是几何

　　　　学、基于图标、像素导向和分层技术。

　　　　上面列出的数据挖掘和知识发现技术并不完整，其顺序也不代表这些方法在应用上的优先次序。迭代和交互性是这些数据挖掘技术的基本特征。同样，如果读者

　　　　有较多的数据挖掘应用经验，就会理解不依靠单个方法的重要性。在数据挖掘这个阶段，标准方法是平行应用几个能完成同一个归纳学习任务的技术。在这种情

　　　　况下，对于数据挖掘过程中的每一次迭代，必须估计和比较不同技术的结果。

　　4.5 支持向量机

　　　　支持向量机系统(SVM)，其构想包含SRM原则。SVM用于解决分类问题，但最近也开始被应用于回归(例如，预测连续性变量)问题领域中。

　　　　支持向量分类(SVC)、支持向量回归(SVR)

　　　　SVM是一种监督学习算法，它从有标号训练数据集中建立学习函数。

　　　　SVM的分类函数基于决策平面的概念，决策平面定义了样本类之间的决策边界。

　　　　证明选择的分类器是最佳的选择，主要思想是：决策边界应该尽量远离两类数据点。

　　　　SVM的主要优势进行总结：首先，与其他一些技术不同，在参数数量较少时，训练过程相对容易，最终形成的模型不会是局部最优的。同时，针对高维数

　　　　据，SVM方法扩展性相对较好，扩展性体现了分类其复杂性与精度之间的折中。非传统的数据结构(如字符串和树)可以作为SVM的输入样本，该技术不仅能够

　　　　应用于分类问题，而且可以应用于预测。SVM的缺点包括计算效率不高并且需要通过实验方法选择“良好的”核函数。

0 0