均方差和K值平均准确率

来源:互联网 发布:实木多层板环保吗 知乎 编辑:程序博客网 时间:2024/05/17 06:01

在推荐系统和协同过滤模型里常用两个评估指标判断一个模型是否为一个好模型:均方差K值平均准确率

一、均方差(Mean Squared Error,MSE)

也称标准差,定义是总体各单位标准值与其平均值的差的算术平均数的平方根,【假设一组数值为X1,X2,X3...Xn,其平均值为u,则均方差为 可以反映一个数据集的离散程度 。它也是一些模型里所采用的最小化目标函数,特别是许多矩阵分解类方法,比如ALS。因此,它常用于显式评级的情形。

公式意义:所有数减去其平均值的平方和,所得结果除以该组数之个数(或个数减一,即变异数),再把所得值开根号,所得之数就是这组数据的均方差。从几何学的角度出发,标准差可以理解为一个从 n 维空间的一个点到一条直线的距离的函数。举一个简单的例子,一组数据中有3个值,X1,X2,X3。它们可以在3维空间中确定一个点 P = (X1,X2,X3)。想像一条通过原点的直线。如果这组数据中的3个值都相等,则点 P 就是直线 L 上的一个点,P 到 L 的距离为0,所以标准差也为0。若这3个值不都相等,过点 P 作垂线 PR 垂直于 L,PR 交 L 于点 R,则 R 的坐标为这3个值的平均数。运用一些代数知识,不难发现点 P 与点 R 之间的距离(也就是点 P 到直线 L 的距离)是|PR|。在 n维空间中,这个规律同样适用,把3换成 n 就可以了。

均方根误差(RootMean Squared Error,RMSE)的使用也很普遍,其计算只需要在MSE上取平方根即可


二、K值平均准确率(MAPK)

意思是整个数据集上的K值平均准确率(Average Precision at K metric,APK)的均值。是信息检索中常用的一个指标。用于衡量针对某个查询所返回的“前K个”文档的平均相关性。

用APK指标计算时,结果中文档的排名十分重要,如果结果中文档的实际书店你听过越高且排名也更靠前,则APK分会也就越高。国此它适合评估推荐的好坏,因为推荐系统也会计算“前K个”推荐物呈现给用户,如果在预测结果中得分更高(推荐列表中更靠前)的物品实际也与用户更相关。因此APK和其他基于排名的指标同样也更适合评估隐式数据集上推荐

0 0