数据挖掘笔记
来源:互联网 发布:限塑令 发改委大数据 编辑:程序博客网 时间:2024/05/21 11:24
什么是数据挖掘?
数据挖掘是在大型数据存储库中,自动地发现有用信息的过程。数据挖掘技术用来探查大型数据库,发现前所未知的有用模式。数据挖掘还可以预测未来的观测结果。并非所有的信息发现任务都被视为数据挖掘,与信息检索的区别。
数据挖掘任务
预测建模,有两类预测建模任务:分类(classification)和回归(regression)。分类用于预测离散的目标变量;回归用于预测连续的目标变量。如预测花的模型。
关联分析,用来发现描述数据中强关联特征的模式。如购物篮分析。
聚类分析,旨在发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。
异常检测,任务是识别其特征显著不同于其他数据的观测值。如信用卡欺诈检测。
分类法是一种根据输入数据集建立分类模型的系统方法。分类法的例子包括决策树分类法、基于规则的分类法、神经网络、支持向量机和朴素贝叶斯分类法。这些技术都使用一种学习算法确定分类模型,该模型能够很好地拟合输入数据中类标号和属性集之间的联系。学习算法得到的模型不仅要很好地拟合输入数据,还要能够正确地预测未知样本的类标号。因此,训练算法的主要目标就是建立具有很好的泛化能力模型,即建立能够准确地预测未知样本类标号的模型。
决策树:原则上讲,对于给定的属性集,可以构造的决策树的数目达指数级。尽管某些决策树比其他决策树更准确,但是由于搜索空间是指数规模的,找出最佳决策树在计算上是不可行的。尽管如此,人们还是开发了一些有效的算法,能够在合理的时间内构造出具有一定准确率的次优决策树。这些算法通常采用贪心策略,在选择划分数据的属性时,采取一系列局部最优决策来构造决策树,Hunt算法就是一种这样的算法。Hunt算法是许多决策树算法的基础,包括ID3、C4.5和CART。
基于规则的分类法:最近邻分类器,是一种消极学习方法不需要建立模型,然而,分类测试样例的开销很大,因为需要逐个计算测试样例和训练样例之间的相似度。相反,积极学习方法通常花费大量计算资源来建立模型,模型一旦建立,分类测试样例就会很快。贝叶斯分类器,是一种把类的先验知识和从数据中收集的新证据相结合的统计原理。贝叶斯分类器的两种实现:朴素贝叶斯和贝叶斯信念网络。
神经网络
支持向量机
随机森林
聚类算法:
K均值,是基于原型的、划分的聚类技术。它试图发现用户指定个数(K)的簇(由质心代表)。K均值用质心定义原型,其中质心是一组点的均值。
- 数据挖掘笔记
- 数据挖掘笔记1
- 数据挖掘笔记
- 数据挖掘技术笔记
- 数据挖掘笔记:聚类分析
- <大话数据挖掘>笔记
- 数据挖掘笔记
- 数据挖掘笔记:Review_1
- 数据挖掘笔记:Review_2
- 大数据挖掘笔记
- 数据挖掘导论 笔记
- 数据挖掘笔记
- 数据挖掘笔记一
- 数据挖掘笔记
- oracle ODM 数据挖掘笔记
- 数据挖掘笔记(一)
- 数据挖掘笔记(二)
- 数据挖掘笔记(一)
- ASP.net--Session时间设置
- codeforces 371D
- JAVA视频笔记(day12)
- 百度地图定位SDK错误码error code 162解决办法以及定位SDKjava.lang.noclassdeffounderror
- eclipse failed to create the java virtual machine 问题图文解析
- 数据挖掘笔记
- 外部修改应用程序图标的做法
- 漏洞扫描 入门教程
- 关于VC++6.0中ClassView中类消失的问题
- some characters cannot be mapped using"ISO-8859-1 (2012-06-09 17:55:05)
- 转移概率矩阵------3Q大战背后的数学
- 食疗养生:饮食如何预防肾结石:多饮水 限草酸 巧补钙 (zz)
- C专家编程第二天
- All Latin Squares