集体智慧中的常用算法

来源:互联网 发布:java web技术学几个? 编辑:程序博客网 时间:2024/03/29 17:26

贝叶斯分类器 

决策树分类器 

神经网络 

 k-最近邻 

贝叶斯分类器常用于文档处理,比如垃圾邮过滤,基于关键字的文档分类等 贝叶斯分类器需要利用样本数据进行训练 ,每个样本包含了一个特征列表和对应的分类 

以文档分类为例,所谓的特征也就是文档中出的单词 一篇包含单词java”的文档究竟是关于编程语言的,还是关于咖啡的。那么编程语言咖啡就是两个分类 

朴素贝叶斯分类器与其他方法相比最大的优势在于,它在接受大数据量训练和查询时所具备的高速度 

尤其当训练量逐渐递增时更是如此——在不借助任何旧的训练数据的前提下,每一组新的训练数据都有可能引起概率的变化 

朴素贝叶斯分类器的最大缺陷是它无法处理组合特征的情况

在线药店”  VS “在线药店

  

利用决策树进行分类非常简单,只要从树的根结点开始,对每个结点的判断条件进行检查 ,如果结点的判断条件满足,就走某个分支,否则,就走另一个分支 

决策树最为显著的优点在于,利用它来解释一个受训模型是非常容易的,而且算法将最为重要的判断因素都很好地安排在了靠近树的根部位置 

与贝叶斯分类器相比,其主要优点是它能够很容易地处理变量之间的相互影响,却不支持增量式的训练 

结点的数量非常庞大时,导致分类效率的降低 

神经网络是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型 

神经网络的主要优点是它能够处理复杂的非线性问题,并且能发现不同输入间的依赖关系 

允许增量式训练 

神经网络的主要缺点在于它是一种黑盒方法 

利用k-最近邻算法可以进行数值预测,比如针对一组给定的样本来构造价格预测模型 

工作原理是接受一个用以进行数值预测的数据项,然后将其与一组已经赋过值的数据项进行比较,从中找出与待预测数据项最为接近的若干项,并对其求均值以得到最终的预测结果 

能够利用复杂函数进行数值预测

简单易懂

k-最近邻主要的缺点在于,要求所有的训练数据都必须缺一不

遗传算法是受进化理论启发而提出的

它以一组被称为种群的随机题解开始

种群中表现最为优异的成员──即成本最低者──会被选中并通过变异或特征组合(即交叉或配对)的方式加以修改 

我们会得到一个新的种群,称之为下一代。经过连续数代之后,题解最终将会得到相应的改善 

原创粉丝点击