【学习】数据挖掘准则

来源:互联网 发布:任我行 陈奕迅 知乎 编辑:程序博客网 时间:2024/05/18 00:56

数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。
第一,目标律:业务目标是所有数据解决方案的源头。 数据挖掘关注解决业务业问题和实现业务目标。
第二,知识律:业务知识是数据挖掘过程每一步的核心。 Montgomery指出数据挖掘目标涉及到现实的业务,然而数据仅能表示现实的一 部分;数据和现实世界是有差距(或“鸿沟”)的。在数据挖掘过程中,业务知识来弥补这一差距,在数据中无论发现什么,只有使用业务知识解释才能显示其重要 性,数据中的任何遗漏必须通过业务知识弥补。
第三,准备律:数据预处理比数据挖掘其他任何一个过程都重要。 数据预处理的目的是把数据挖掘问题转化为格式化的数据,使得分析技术(如数据挖掘算法)更容易利用它。数据任何形式的变化(包括清理、最大最小值转换、增长 等)意味着问题空间的变化,因此这种分析必须是探索性的。
第四,试验律(NFL律:No Free Lunch):对于数据挖掘者来说,天下没有免费的午餐,一个正确的模型只有通过试验(experiment)才能被发现。问题空间初始是未知的,多重问题空间可能和每一个数据挖掘目标相关,问题空间可能被数据预处理所操纵,模型不能通过技术手段评估,业务问题本身可能会变化。由于这些原因,数据挖掘问题空间在数据挖掘过程中展开,并且在这个过程中是不断变化的,以至于在有条件的约束下,用算法模拟一个随机选择的数据集是有效的。
第五,模式律(大卫律):数据中总含有模式。 除非没有相关的数据的保证,否则在每个定义域的每一个数据挖掘问题总是存在模式的。
第六,洞察律:数据挖掘增大对业务的认知。 数据挖掘算法提供一种超越人类以正常方式探索模式的能力,数据挖掘过程允许数据挖掘者和业务专家将这种能力融合在他们的各自的问题的中和业务过程中。
第七,预测律:预测提高了信息泛化能力。 模型产生一个预估值或评分,这是这个样例的新信息的一部 分;在概括和归纳的基础上,这个样例的可利用信息得到了提高,模式被算法发现和模型具体化。值得注意的是这个新信息不是在“给定”意义上的“数据”,它仅 有统计学意义。
第八,价值律:数据挖掘的结果的价值不取决于模型的稳定性或预测的准确性。 体现预测模型价值的有两种方式:一种是用模型的预测结果来改善或影响行为,另一种是模型能够传递导致改变策略的见解(或新知识)。
第九,变化律:所有的模式因业务变化而变化。所有的模式都会变化,因为他们不仅反映了一个变化的世界,也反映了我们变化的认知。


参考文献:

(1)数据挖掘与数据建模的9个经验之谈

0 0
原创粉丝点击