数据挖掘中分类算法小结
来源:互联网 发布:卖家网数据监控收费 编辑:程序博客网 时间:2024/05/16 20:27
分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强调客户细分。客户类别分析的功能也在于此,采用数据挖掘中的分类技术,可以将客户分成不同的类别,比如呼叫中心设计时可以分为:呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户、其他,帮助呼叫中心寻找出这些不同种类客户之间的特征,这样的分类模型可以让用户了解不同行为类别客户的分布特征;其他分类应用如文献检索和搜索引擎中的自动文本分类技术;安全领域有基于分类技术的入侵检测等等。机器学习、专家系统、统计学和神经网络等领域的研究人员已经提出了许多具体的分类预测方法。下面对分类流程作个简要描述:
训练:训练集——>特征选取——>训练——>分类器
分类:新样本——>特征选取——>分类——>判决
最初的数据挖掘分类应用大多都是在这些方法及基于内存基础上所构造的算法。目前数据挖掘方法都要求具有基于外存以处理大规模数据集合能力且具有可扩展能力。下面对几种主要的分类方法做个简要介绍:
(1)决策树
决策树归纳是经典的分类算法。它采用自顶向下递归的各个击破方式构造决策树。树的每一个结点上使用信息增益度量选择测试属性。可以从生成的决策树中提取规则。
(2) KNN法(K-Nearest Neighbor)
(4) VSM法
(5) Bayes法
Bayes方法的薄弱环节在于实际情况下,类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们,就要求样本足够大。另外,Bayes法要求表达文本的主题词相互独立,这样的条件在实际文本中一般很难满足,因此该方法往往在效果上难以达到理论上的最大值。
(6)神经网络
神经网络分类算法的重点是构造阈值逻辑单元,一个值逻辑单元是一个对象,它可以输入一组加权系数的量,对它们进行求和,如果这个和达到或者超过了某个阈值,输出一个量。如有输入值X1, X2, ..., Xn 和它们的权系数:W1, W2, ..., Wn,求和计算出的 Xi*Wi ,产生了激发层 a = (X1 * W1)+(X2 * W2)+...+(Xi * Wi)+...+ (Xn * Wn),其中Xi 是各条记录出现频率或其他参数,Wi是实时特征评估模型中得到的权系数。神经网络是基于经验风险最小化原则的学习算法,有一些固有的缺陷,比如层数和神经元个数难以确定,容易陷入局部极小,还有过学习现象,这些本身的缺陷在SVM算法中可以得到很好的解决。
- 数据挖掘中分类算法小结
- 数据挖掘中分类算法小结
- 数据挖掘中分类算法小结
- 数据挖掘中分类算法小结
- 数据挖掘中分类算法小结
- 数据挖掘分类算法比较
- 数据挖掘分类算法比较
- 数据挖掘 - 分类算法比较
- 数据挖掘--分类--决策树--算法
- 数据挖掘分类算法详解
- 数据挖掘算法的分类
- 神经网络分类算法 数据挖掘
- 数据挖掘 算法小结 1
- 数据挖掘---分类算法之SOFM算法
- 数据挖掘算法分类别示例
- 数据挖掘算法分类别示例
- 数据挖掘算法--分类与预测笔记
- 数据挖掘--分类之决策树算法ID3
- VS 2008 MFC CString 转换 int
- iostream、printf/wprintf和中文输出
- 设计模式复习笔记(单件)
- zz Win32平台下的微软C编译器的对齐策略
- 如何当一个好的部门经理
- 数据挖掘中分类算法小结
- 催人泪下的十大经典爱情对白- -
- A + B Problem
- 看<奋斗>-----论门当户对
- 开发日志1
- 本来运行正确的程序,改成unicode就不行了 error LNK2019: 无法解析的外部符号 _WinMain@16
- 本人编程新手 如有误导请见谅
- 银行取钱手续费收取标准!--转贴
- 四六级写作便于引用的36个经典谚语