程序博客网 > 老司机开车知乎

SlopOne 改进

来源：互联网发布：老司机开车知乎编辑：程序博客网时间：2024/04/30 08:18

lope One

其基本的想法来自于简单的一元线性模型 $w = f(v) = v + b$。已知一组训练点 ${(v_i, w_i)}_{i=1}^n$，利用此线性模型最小化预测误差的平方和，我们可以获得

利用上式获得了$b$的取值后，对于新的数据点$v_{new}$，我们可以利用 $w_{new} = b + v_{new}$ 获得它的预测值。

直观上我们可以把上面求偏移 $b$ 的公式理解为 $w_i$ 和 $v_i$ 差值的平均值。

Image(2)

利用上面的直观，我们定义item $i$ 相对于 item $j$ 的平均偏差：

Image(3)

其中 $S_{j,i}()$ 表示同时对item $i$ 和 $j$ 给予了评分的用户集合，而 $card()$ 表示集合包含的元素数量。

有了上面的定义后，我们可以使用获得用户 $u$ 对 item $j$ 的预测值。当把所有这种可能的预测平均起来，可以得到：

Image(5)

其中 $R_j$ 表示所有用户 $u$ 已经给予评分且满足条件 ($i \neq j$ 且 $S_{j,i}$非空) 的item集合。

对于足够稠密的数据集，我们可以使用近似

把上面的预测公式简化为

Image(7)

Weighted Slope One

Slope One中在计算 item $i$ 相对于 item $j$ 的平均偏差 $dev_{j,i}$ 时没有考虑到使用不同的用户数量平均得到的 $dev_{j,i}$，其可信度不同。假设有 $2000$ 个用户同时评分了 item $j$ 和 $k$，而只有$20$ 个用户同时评分了 item $j$ 和 $l$，那么显然获得的 $dev_{j, k}$ 比 $dev_{j, l}$ 更具有说服力（类似于kNN中压缩相似度的思想）。所以一个修正是对最终的平均使用加权：

Image(8)

其中

（根据在Netflix上的经验，可能把 $c_{j,i}$ 再开方更合适）

Bi-Polar Slope One

Bi-Polar Slope One 进一步把用户已经给予评分的item划分为两类——like和dislike，而其划分的方法是判断对应的评分是否大于此用户的平均评分：

类似地，可以定义对item $i$ 和 $j$ 具有相同喜好的用户集合：

利用上面的定义，我们可以使用下面的公式为（like或dislike的item）获得新的偏差值：

Image(15)

这样可以计算从item $i$ 计算得到的预测值：

或者

最终 Bi-Polar Slope One 的预测公式为

Image(18)

最后的实验比较使用的度量为 MAE，其结果如下：

Image(19)

老司机开车知乎

老司机开车知乎

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子烟粉色喜欢粉色粉色大衣紫粉色粉色rgb 粉色英文邂逅粉色粉色代表粉色莉萝论坛粉色剧院下载粉色配什么颜色好看粉色剧场免费看粉色玫瑰花语粉色英语怎么读粉色英语怎么写粉色莉萝论坛进入粉色英语单词第章萝莉粉色吞吐湿漉漉粉色英语单词怎么读下载粉色剧场app 下载粉色剧院app 粉色剧场破解版粉色剧场一男两女粉色剧场下载粉色英语怎么说粉色精子库影院粉色背景图片粉色用英语怎么说粉色外套配什么打底纯粉色背景图片粉红色的图片粉红图片粉红色背景色粉粉红色的背景粉红色粉红色照片天蓝色藕荷色淡紫色粉紫色