对数据挖掘应用的一点思考

来源：互联网发布：rds 阿里云是什么意思编辑：程序博客网时间：2024/05/21 17:09

前面的文章展示了许许多多的算法，但是这些算法哪些能用在实际中呢？对不同的情况，现在有大量的数据挖掘算法供我们选用，分类时是选择决策树，还是贝叶斯或者支持向量机，这要与要处理的情况相匹配。如果是高维数据且训练数据较少时，应当选择支持向量机比较好，或许在处理较简单的分类时，决策树可能效果比较好。可能有的时候根本无法确认哪个好，所以就有人提出集成学习的概念，既然不晓得哪个好，那就投票，通过几轮投票来决定，或者通过测试效果来设置每个分类算法的权重，等等。不失为一个好的做法。

有的时候，某些情况，现有的算法都用不上，这就需要自己去扩展，比如说贝叶斯分类算法的思想，就可以用在垃圾邮件过滤中去。

想要在各种情况都知道用数据挖掘的想法来处理，就必须对数据挖掘这个概念有较深的理解，不是套用算法就算挖掘，只要能运用挖掘的原理获取新的知识就可认为是挖掘。

有的时候事物的某些内在联系，可能想像不到，就需要挖掘，曾经我在NEC中国研究院实习时，就提出过一个，通过安装多个探测器记录人活动时红外线的变化，并通过这些记录来挖掘房间里人数的多少，人的数量多少必定会引起红外线探测器数据的变化，然而这种变化与人数肯定存在某种联系，想要知道这中的联系，我想只有通过数据挖掘的方法才能获取。虽然我的想法没有被认同，但我觉得这至少还是值得尝试下的。

现在互联网高速发展，如何对海量的数据进行挖掘是最难的一个问题，分类还好，只要一部分的训练样本，有多少数据需要分类都可以搞定。

可是关联规则呢？

现在的推荐算法里面用关联规则的恐怕很少吧，大部分都是用相异度来度量的，简单高效啊。

再说聚类算法：曾经就有人向我报怨，这些聚类算法好多都不靠谱，需要什么参数输入，我么大的数据，簇个数随便取个就行了，可是什么簇半径，什么收缩因子啊，而且我有几十G的数据怎么聚类啊？好像对于如此大的数据量确实没有什么好的算法可以适应，什么 BRITH,CURE，K均值啊，DBSCAN啊，都不行，都需要把数据都载到内存中去，有什么好方法试目以待，我现在写一了一篇文章，还在修改阶段，从理论上看是可行，程序编出来后，一直没有找到这么大的数据去测，不知道效果怎么样。