对数据挖掘应用的一点思考

来源:互联网 发布:rds 阿里云是什么意思 编辑:程序博客网 时间:2024/05/21 17:09

    前面的文章展示了许许多多的算法,但是这些算法哪些能用在实际中呢?对不同的情况,现在有大量的数据挖掘算法供我们选用,分类时是选择决策树,还是贝叶斯或者支持向量机,这要与要处理的情况相匹配。如果是高维数据且训练数据较少时,应当选择支持向量机比较好,或许在处理较简单的分类时,决策树可能效果比较好。可能有的时候根本无法确认哪个好,所以就有人提出集成学习的概念,既然不晓得哪个好,那就投票,通过几轮投票来决定,或者通过测试效果来设置每个分类算法的权重,等等。不失为一个好的做法。

   有的时候,某些情况,现有的算法都用不上,这就需要自己去扩展,比如说贝叶斯分类算法的思想,就可以用在垃圾邮件过滤中去。

想要在各种情况都知道用数据挖掘的想法来处理,就必须对数据挖掘这个概念有较深的理解,不是套用算法就算挖掘,只要能运用挖掘的原理获取新的知识就可认为是挖掘。

有的时候事物的某些内在联系,可能想像不到,就需要挖掘,曾经我在NEC中国研究院实习时,就提出过一个,通过安装多个探测器记录人活动时红外线的变化,并通过这些记录来挖掘房间里人数的多少,人的数量多少必定会引起红外线探测器数据的变化,然而这种变化与人数肯定存在某种联系,想要知道这中的联系,我想只有通过数据挖掘的方法才能获取。虽然我的想法没有被认同,但我觉得这至少还是值得尝试下的。

现在互联网高速发展,如何对海量的数据进行挖掘是最难的一个问题,分类还好,只要一部分的训练样本,有多少数据需要分类都可以搞定。

可是关联规则呢?

现在的推荐算法里面用关联规则的恐怕很少吧,大部分都是用相异度来度量的,简单高效啊。

再说聚类算法:曾经就有人向我报怨,这些聚类算法好多都不靠谱,需要什么参数输入,我么大的数据,簇个数随便取个就行了,可是什么 簇半径,什么收缩因子啊,而且我有几十G的数据怎么聚类啊?好像对于如此大的数据量确实没有什么好的算法可以适应,什么 BRITH,CURE,K均值啊,DBSCAN啊,都不行,都需要把数据都载到内存中去,有什么好方法试目以待,我现在写一了一篇文章 ,还在修改阶段,从理论上看是可行,程序编出来后,一直没有找到这么大的数据去测,不知道效果怎么样。


原创粉丝点击