Evaluating Web Search with a Bejeweled Player Model

来源:互联网 发布:申通快递淘宝价格表 编辑:程序博客网 时间:2024/05/17 03:20

在信息检索技术研究中,评价指标的设计是对检索系统进行评价的重要一环。而在评价指标的建模中,估计用户的期望收益与期望付出是搜索用户行为模型的关键组成部分,用户在实际搜索会话中终止条件的判断会同时受这两方面的影响。

但由于受模型框架限制,当前几乎所有信息检索评价指标均无法做到同时将用户的期望收益和期望付出纳入会话终止条件的估计。那么如何对用户的交互过程进行建模,从而将这两者考虑进去呢?

在今年 SIGIR 的最佳学生论文 Evaluating Web Search with a Bejeweled Player Model 中,作者针对传统信息检索评价指标设计时未能兼顾用户期望收益与期望付出两方面因素的缺陷,借鉴“宝石迷阵”这款游戏设计了一个创新性的用户交互模型框架,将用户的期望收益与期望付出因素重新建模,建立了相应的评价体系,取得了显著效果。

在游戏“宝石迷阵”中,关卡开始时会出现半满的时间条,每秒不断减少。玩家必须通过匹配宝石来获得更多的时间,匹配越多时间条增长越多。当时间条积累至满时,玩家进入下一关;当时间条消耗殆尽时,玩家将输掉关卡。总而言之,当前关卡的终止条件可以是时间条空(游戏结束)或时间条满(进入下一关)。

与游戏类似,失望(Frustration)和满意(Satisfaction)也是信息搜索的两个终止状态。作者假设失望意味着用户付出(Cost)过多后失去耐心,满意代表收益(Benefit)达成,提出 BPM(Bejeweled Player Model)模型来描述信息检索的终止条件。但不同的是,游戏中的付出与收益均使用时间来表示,而 BPM 模型将付出与收益分别累计并且有各自的上限。达到任一上限则会话结束。

△ 图1:基于BPM模型的用户搜索评价框架

既然传统评价指标只考虑用户期望收益与期望付出中某一方面因素,那么现有评价指标是否可以利用 BPM 框架进行解释呢?作者在文中通过分析不同评价指标用户期望收益与期望付出的不同定义,将现有绝大多数评价指标纳入 BPM 框架中,表明现有的评价指标是新框架下指标的某种退化形式,并以 DCG 为例进行了严格数学证明。

为了验证 BPM 模型的有效性,作者没有按照通常的方法将不同评价指标用于不同检索系统的比较,而是在真实用户的实验数据集上,比较了不同指标与用户反馈的满意度之间的相关系数。实验结果表明,文中的指标能够更好地拟合用户的满意度,从而表明了新框架的有效性。

△ 图2:在不同类型查询上DCG@10和静态BPM指标与用户满意度的相关性

△ 图3:在信息类查询上不同参数下静态和动态BPM指标与用户满意度的相关性

阅读全文
0 0
原创粉丝点击