LBSN中好友与用户活动的关系

来源:互联网 发布:windows mirai病毒 编辑:程序博客网 时间:2024/06/02 04:31

    尽管人类的活动具有很大的随机性,但还是会受到时间或空间的限制,本文目的是通过研究三类能隐含用户位置的数据,对这类数据建模,从而发现用户活动的规律和特征。

    文中收集了三类数据集:BrighKiteGowalla和手机用户数据。其中前两种网站是基于位置(LBSN)的社交网络,通过用户签到功能定位用户位置;手机用户数据是通过手机信号塔跟踪通话两端的用户位置。

    首先是对用户签到特点的分析,其主要目的是找到LBSN数据与用户活动之间的关系,其步骤如下:

① 用户签到位置在哪?用来确定用户的“家”,把所有离散的签到数据划分成各个规模很小的数据集(按地理空间比例缩小规模),分析每个数据集中频率最高的数据,定义为某一用户的“家”。

② 用户会去离家多远的地方旅行?用来确定用户活动的范围。通过分析用户随离家距离变化的签到概率,发现曲线在100km处有一较大变化;继而分析了用户朋友间住址的距离和随机用户住址距离的概率分布,发现同样在100km处有明显不同,且随机用户在该节点表现得异常更强烈;最后我们分析了大城市间的距离的概率分布,特点也类似。这表明,用户的居住密度在100km范围内。在100km处的异常是由于不均匀的人口密度导致的。因此我们只对一定范围内的用户数据做分析,发现异常点消失,概率呈幂律下滑式分布。

③ 用户到朋友家去的概率?用来分析SN对用户的影响。这里需要注意:这种朋友关系发生在用户出行前还是出行后,并考虑两个朋友共同去某个地方签到的概率。最后发现社会网络关系只能解释用户10%~30%的活动。

    这一结果表明社交网络对用户活动的影响力仅有10%~30%。并不占用户大部分的活动。因此又分析了人类活动触发的非社交网络因素。通过对用户所有的签到数据进行分析,发现用户大约50%~70%的活动是相似的,即是具有周期性的。

    分析用户活动的规律是为提高预言用户活动的精确度。我认为这种预测功能会给位置附近的商家提供极大的商机。

    首先,对用户数据集进行香农熵处理,熵越低,表明在该阶段信息量较少,即用户移动的概率低。发现工作日中熵相似,容易预测用户位置;但周末变化较大,很难预测用户活动时间和地点。因此需要对用户数据建模,来分析其活动特点。我们使用了2中模型来分析用户的活动。

    PMM(周期性移动模型),对特定区域内的用户签到数据进行建模,在这个特定区域内,所有用户的家都在一个街道上,用户的工作场所也都在一个区。

① 首先研究用户的签到时间,对用户在家和工作场所的签到时间进行建模,发现用户在时间轴下的状态(家或工作)。

② 其次研究签到的空间特征。因为只研究了两个状态,所以我们研究了混合模型,即随着时间变化用户地理位置的分布。

    PSMM模型,在PMM模型的基础上加入了社交网络的影响。主要研究一对朋友的签到特点:两人在同一位置同一时间签到的概率。发现如果用户有了一个无周期的签到则很有可能与朋友的签到相似。

    最后,对建模的精确度进行评估,使用三个评价指标:

① 平均对数似然数,衡量模型拟合好坏层度。

② 精确度,衡量时间、空间精度。即给定位置,预测发生时间;或给定时间预测发生位置。

③ 预期距离误差。

    通过基线模型比较用户模型的优劣。其中MF模型、G模型、RW模型是现在较流行的分析用户活动的模型,但相比之下PMMPSMM模型具有较大的优势,其精确度与误差与另三个比均有较大改善。

    对于本篇文章,我感触最大的是PSMM模型对LBSN商业系统带来巨大商机,并且对推荐系统也有较好的借鉴价值,因为它的精确度可以提高朋友推荐的准确度。同时,对用户活动建模有了新的认识,对混合高斯模型、期望最大化方法、最大似然数香农熵定律、最大似然估计、奇异值、回转半径等概念有了深刻的认识,但是对数据分析方法的理解还不够。

 

 

 

 

 

0 0