CSDN在线培训:大数据环境下的关联规则挖掘

来源:互联网 发布:不给转出域名怎么处理 编辑:程序博客网 时间:2024/05/17 12:06

随着物联网和云计算这两大国家战略性新兴产业的不断发展,如何处理海量的信息以服务于社会的需求变得更为紧迫,数据挖掘技术成为推动两大新兴产业发展的核心技术。对于一些企业,数据挖掘更是可以带来更大的价值。

而关联规则挖掘(Association rule mining)是数据挖掘中最活跃的研究方法之一,可以用来发现数据之间的联系,关联规则挖掘过程主要包含两个阶段:

关联规则挖掘的第一阶段必须从原始资料集合中找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。一个项目组出现的频率称为支持度(Support),以一个包含A与B两个项目的2-itemset为例,我们可以经由公式求得包含{A,B}项目组的支持度,若支持度大于等于所设定的最小支持度(Minimum Support)门槛值时,则{A,B}称为高频项目组。一个满足最小支持度的k-itemset,则称为高频k-项目组(Frequent k-itemset),一般表示为Large k或Frequent k。算法并从Large k的项目组中再产生Large k+1,直到无法再找到更长的高频项目组为止。

关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(Minimum Confidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。例如:经由高频k-项目组{A,B}所产生的规则AB,其信赖度可经由公式求得,若信赖度大于等于最小信赖度,则称AB为关联规则。

0 0
原创粉丝点击