用户行为预测论文summay

来源:互联网 发布:手机淘宝如何更改差评 编辑:程序博客网 时间:2024/06/03 21:41

用户行为预测论文summary

1、  论文名称:Modelingand Predicting Behavioral Dynamics on the Web

2、  论文作者:KiraRadinskyz, Krysta Svorey

3、  主要内容:

本篇论文主要研究了在时序上的用户行为预测模型,主要以用户在网页上的查询(query)、点击url(urls)、以及查询点击(query-click pair)等行为作为研究对象,通过训练模型来检测时序中的趋势、周期性、异常、噪声、季节性变化等特征,通过改进简单的Holt-Winters模型来检测以上特征,将改进后的模型的预测结果与传统的用户预测模型的结果进行分析和对比;并且提出了一种新的DML(dynamic model learner)方法根据提取出的时间序列的特征动态地选择预测模型和参数的估计,取得了很好的实验效果。

一、状态空间模型(state-spacemodel,SSM)

本论文中通过对简单的Holt-Winters时序数据处理模型的改进对数据进行平滑(smothing)、局部趋势(local trend)、周期性(Periodicity)、周期性+局部趋势(Periodicity+local trend)分析,实现对用户点击总次数的预测。本文通过改进模型,得到了4种时域预测模型。

(1)      平滑模型的定义


 

(2)      局部趋势模型

简单的对历史数据使用平滑模型会低估对这一区域的动态变化。故本论文在原Holt-Winter模型的基础上进行了改进,增加了一个趋势组件,形式如下:


其中d是抑制因子,bt是增长速率的估计值。

(3)      周期性模型

简单的平滑模型和局部趋势模型在数据达到峰值时性能比较糟糕,所以本文在简单的Holt-Winters模型的基础上增加了一个季节性组件,表示形式如下:


其中m是一个基于其他的参数而估计出的一个周期性参数

(4)      局部趋势和周期性模型

之前建立的模型都是讲局部趋势和周期性分开处理,而有些情况是趋势和周期性混合在一起,故本论文又设计了一个新的模型,在原来简单的Holt-Winters模型的基础上增加了趋势和周期性参数。形式如下:


(5)      突发模型

在时序数据中经常出现突发的事件,而且突发事件一般将影响一段时间。本文针对处理突发事件的情况,在简单的Holt-Winters模型的基础上增加了两个突发事件参数:Mt,代表t时刻突发性的测量值以及Kt,代表突发的发展趋势。模型的表示形式如下:



(6)      参数估计

模型参数的优化问题:模型参数的选择准则

通过计算残差平方和,选取使残差平方和最小的参数作为最优的模型参数。

  残差平方和公式如下:


二、用户查询总次数预测

(1)      贝叶斯信息准则

选取具有最小贝叶斯信息判据的模型作为预测模型

贝叶斯准则简称BIC,公式如下:


其中L为最大似然函数,q是参数个数,n是时间序列的长度

对高斯过程,则贝叶斯准则表示如下:


(2)      模型学习中存在的问题

对时间序列进行分析预测可以考虑到一些单一的元素,而没能考虑元素之间的相互作用;而回归分析则考虑到多个研究对象,但是却未利用到某个元素特殊的信息。

故本文提出的方法将时序数列分析和回归学习的方法结合在一起:首先考虑多个研究对象的总体的信息,选择一个恰当的预测模型,然后再利用某个研究对象的特殊的信息来选择特定的模型参数。

(3)      学习算法

本文将这种动态选择模型的算法定义为DML(dynamicmodel learner)

我们先将数据分为训练集和有效集,训练集用于建模,有效集用于测试,最后计算均方误差(MSE),均方误差公式如下:


我们先选取一些研究特征具有最小均方误差的参数作为模型的索引,再利用决策树方法产生一个分类器C,再利用分类器C对目标对象进行预测。具体算法描述如下:


(4)      时域特征

本论文一共提取出了时序数列的937种特征并且将时域特征分为三类:

<1>聚合特征:主要为最大值、最小值、平均值、周期性、突发事件数目、持续时间等等

<2>形状特征:主要满足旋转和尺度不变性。故将时域转换到频域,再求倒频系数,以此作为时序数列的形状特征。

<3>特定域特征:针对查询-点击对,定义了一个查询-点击熵,定义如下:


Click(ui,q)表示查询q点击ui的次数。另外:本论文用了标准的话题分类器ODP(open directory project)

 

<5>检测周期性

在周期性模型中,检测周期性主要是利用自相关系数。自相关系数如下:


选取一个恰当的阈值W,如果自相关系数大于W,则可判定为周期的。而且根据实验得出,h的值最后选择每周、每月、或者每年。

<6>检测突发

   我们认为如果数据中出现突发,则残差值就不再是线性的。我们根据残差值的变化来检测突发事件以及突发事件持续的时间。

我们定义了一个impact:


只有拥有较长的impact才会被认为是突发事件。

  并且我们定义了一个贪心过程加入了突发事件从影响力最高到最低的位置信息,并且通过BIC准则来计算模型的增长,当模型停止增长则输出突发事件。

算法过程如下图:

 

三、实验设计

本文主要设计了三个实验:1、预测 2、周期性检测 3、突发性检测

(1)主要关注的查询类型:

1、总体查询,即关注总查询次数。首先实现总查询次数的预测。

2、时域的查询。时域的查询又分为动态查询和时域的重制查询。

动态查询是指需要一些特殊时间点的更新数据的查询;

时域重制查询是指一些非常清晰地指向一段时间的查询。

3、     交替查询。交替查询是指用户在点击URL时发生改变的行为                    

得到的经验是:数据的预处理很重要!先将数据分类,确定要研究的对象,这一点很重要!

(2)用户行为预测的基础模型

本论文中还将提出的预测模型与用户行为预测的基础模型做对比:

用户搜索预测模型的基本方法定义如下:


其中W(I,yi)为时域权重函数

四、实验结果分析

本文通过对前面四种改进的Holt-Winters模型、DML模型、基础类模型等进行对比得到实验结果。

五、预测实验

(1)总查询次数预测

1、  预测查询次数:DML模型是所有预测模型中性能最好的。

2、  预测URL点击次数:DML模型在预测动态查询和时域重制查询时性能最优。

3、  预测查询-URL对的点击次数:在时域模型中,交叉突发事件的平滑模型对动态的查询次数的预测性能最好。

(2)周期性检测实验

检测周期性时将自相关系数模型和基础模型做对比,得出结论是:本文提出的自相关系数模型和基本模型召回率上的最大值都相同;而在相同的召回率下,自相关系数模型的精确度比基本模型提高了15%。

(3)突发事件检测实验

本论文将突发性检测算法与基础模型中的检测峰值的方法进行比较,得出的结论是:本文中的突发性检测算法精确度高但是召回率低。

分析原因:检测峰值的方法有可能检测到的是噪声而不是突发事件,因此我们还是趋向于本文提出的突发性检测算法要优于峰值检测算法。

 

 

 

 

 

0 0