【论文笔记】CHI '16 Embracing Error to Enable Rapid CrowdSourcing

来源:互联网 发布:桥梁bim软件 编辑:程序博客网 时间:2024/06/01 20:23

最近读到一篇显著提升标记数据速度的文章,原文Embracing Error to Enable Rapid Crowdsourcing
本篇博客记录个人对论文的总结和翻译理解,如有不足之处欢迎指正。

Embracing Error to Enable Rapid Crowdsourcing
———————————————————————————————————————————————
一作是来自Stanford HCI实验室的Ranjay Krishna,这里多说几句,这位PhD小哥研究方向是计算机视觉和人机交互交叉领域,另外一位主要作者是Princeton University的优秀PhDKenji Hata。话不多说,下面介绍这篇论文的内容。

一、Abstract
当前的微型任务众包(microtask crowdsourcing)使得社会科学和机器学习的数据集得到不断扩充,然而现今通过众包体系来创建大型数据集任务需要耗费较多的资金,为了使拓宽众包的应用领域,我们提出了一个针对加速二分类标注labels任务判断方法的技术。比起过去对workers的错误进行惩罚,使得他们变得更加谨慎但是速度下降,我们的方法在允许workers犯错的情况下加速了workers对分类任务的判断,并且证明了通过打乱任务顺序和对worker反应延迟进行建模,可以利用算法来修正这错误。为了验证这个方法的有效性,我们将提出的方法应用于图像验证、同义词、情感分析和主题分类的众包任务中,在对比原有方法(majority vote)的速度上,取得了10倍的速度提升。

二、Introduciton and Related Work

本篇论文中,作者主要关注到的是众包任务中最普遍的binary annotation任务,就是回答yes or no 的问题。过去前人的研究工作侧重于最小化worker error,如果worker出现错误,就会扣减他们的报酬以示惩罚。近期的方法在众人投票判定标注的时候侧重于计算最小的必要人数来减少错误,这种方法的速度取平均,这里被定为1倍速。而我们提出的相反的观点:设计出鼓励worker犯错甚至不可避免犯错的任务,从而大幅度地提升标注速度。当前的众包平台对worker错误的惩罚会导致他们更叫小心为了避免犯错而降低标注速度,而我们鼓励worker在可接受错误的情况下更快地完成任务。虽然会导致每个worker的标注精确度下降,后期我们采用算法修正了这些errors。
我们提出的这个方法是要求worker在一个快速推进的输入流中进行决策,随着这个输入流的自动推进,worker从中仔细观察来做出判断,然后对于输入流中的某个item按下快捷键来确认。输入流推进的方法来自李飞飞教授两篇早期的研究RSVP:rapid serial visual presentation和What do we perceive in a glance of a real-worldscene?。由于输入流的速度很快,因此worker按下yes按钮一般会有延迟,我们将对这个延迟和速度的关系进行建模并分析,设计实验观察不同的速度worker的延迟然后从中预测并计算image对应的真实label的概率。

我们主要的贡献有以下两点:
1、在允许前期错误的情况下,大幅度提高了众包二分类任务的标注的速度;
2、证明了我们提出的方法也适用于多类别标注任务,与现有的独立技术结合,在未增加workers认知负荷的情况下部署任务。

部分相关研究:
本文作者提出的方法与前人研究不同之处在于改善了众包的交互界面,鼓励worker做出快速的决策。
1、感知速度远远快于认知速度
RSVP参考Short-term conceptual memory for pictures已经验证了worker对于数据流中单张图片的感知在75%精确度的情况下是125ms。然而对于理解image的定义仅有10%的精确度,参考Recognitionmemory for a rapid sequence of pictures.

2、对worker的标注行为进行建模(众包领域)
基于前人的标注表现:(Quality management on amazon mechanical turk);
对于worker个体的建模:(Whose vote shouldcount more: Optimal integration of labels from labelersof unknown expertise);
worker其他领域的知识对完成众包任务的辅助作用:(The multidimensional wisdomof crowds
极大极小熵判断:(Learning from the wisdom of crowds by minimaxentropy
作者从以上的研究中汲取灵感,We model each worker’s reaction as a delayed Gaussian distribution

3、human-CV领域的相关工作
权衡标注速度和精确度的研究:1-CVPR2014;2-ECCV2010;ICCV2011等
权衡cost和精确度的研究:ICCV2013;SIGCHI2014;
相关的工作作者列举了很多,这里就不多写了。

Just like these methods, we show that non-experts can use our technique and provide expert-quality an-notations; we also compare our methods to the conventionalmajority-voting annotation scheme

三、Error-Embracing Crowdsourcing

 In this section, we detail our technique for rapid crowdsourcing by encouraging less accurate work

设计实验侧重两个方面:
(1)We thus develop an approach for producing high precision at high speed, sacrificing some recall if necessary.
(2)we focus on closed-ended tasks(封闭式任务,选择有限,不同于写作等开放式众包任务)

1、Rapid crowdsourcing of binary decision tasks
这里写图片描述
如上图所示,在worker进入标注之前,提示错误是允许的,他们只需要在看到符合要求的图片后按下yes即可。为进入任务准备了倒计时提醒和正确图片提醒。按下yes按钮后,显示当前图片在内的前4张图像。
这里写图片描述
上图显示的蓝色为gt图像,红色为worker按下yes时刻显示的图像,通过调整速度和对workers延迟反应的数据分析建模,来推测正确图像的位置。

2、Multi-Class Classification for Categorical Data
理论上,多分类问题可以转化为多个二分类问题。通过每次迭代来将多类问题转化。

四、probability model
这里作者使用了极大似然估计的方法来估计每个item为正例的概率:给出一组items

I=I1,I2,In
将他们排成不同顺序的序列给W个workers,对于每个worker,建立一组press:
Cw=Cw1,Cw2,CwkwεW
k是当前worker总计的press次数。
所以能够通过worker的press统计来计算给定item为正例的概率是:
PIi=wP(Ii|Cw)P(Cw)

其中P(Cw)=kP(Ck)是每个按下情况的统计。设置按下每个item的情况是平均的,使用贝叶斯法则:
P(Ii|Cw)=P(Cw|Ii)P(Ii)P(Cw)

能够预测在worker按下之后该item对应为正例的概率。(这里的item就是指的一段快速序列中的某张图像)其中P(Ii)可以使用机器学习的方式进行分类判断(判断分类每个item为正例or负例)。
P(Cw|Ii)是对于press的建模
P(Cw|Ii)=P(Cw1,Cw2,Cwk|Ii)=kP(Cwk|Ii)

作者对每次的press进行Gaussian分布modeling,计算方差和均值。最后得到worker一般情况下的延迟为400ms。
通过设置不同的speed正例数两个参数得到下图:
这里写图片描述

四、Calibration:baseline worker reaction time
通过控制速度正例比例两个变量来学习workers 的react timerecall。结合数据发现recall和速度大小,正例比例均成反比。因此得出:
(1)在速度较大的情况下,需要提供较小的正例比例;
(2)在速度较小的情况下,正例比例对recall的影响比较小。

五、实验
接下来作者结合了以下三类实验验证所提出方法,用实验数据证明speed均有显著提高。说明该方法可以推广到不同的众包任务中。
STUDY 1: IMAGE VERIFICATION
STUDY 2: NON-VISUAL TASKS
STUDY 3: MULTI-CLASS CLASSIFICATION
这里写图片描述

其中涉及到了一个worker load的计算方法:NASA TLX
大概是对护士负荷进行实验的一个论文,感兴趣的可以看看

To measure the cognitive load on workers for labeling somany items at once, we ran the widely-used NASA Task LoadIndex (TLX)

六、application:building imagenet
(作为业内的一个baseline,这里不得不感叹为什么imagenet引用那么高了。。。)
作者使用它他们的方法与传统制作imagenet的方法做了对比,显示出速度的提升。

七、Discussion
讨论了下提出方法的应用范围,指明该方法对于某些领域存在缺陷:

1、 Instead of asking workers to react when theysee a “dog,” if we ask them to react when they donotsee a“dog,” our technique performs poorly
2、We conclude that our technique performs poorly foranomaly detection tasks, where the presence of a concept iscommon but its absence, an anomaly, is rare.
3、 More generally, thisapproach may amplify biases and minimize clarity on edgecases.

八、Conclusion
作者提出了一个鼓励少量错误而不是避免错误的方法来提高众包标注的速度。然后利用算法后期修正前期提升速度而犯下的错误。 将方法应用于binary verification tasks 如image verification, sentiment analysis, word similarity and topic detection, 分别达到了10.2倍,10.2倍,6.23倍和10.75倍速度的提升。拓展到多分类标注中,也达到了8.26倍速的提升。作者认为,所提出的方法对于未来在不增加成本的情况下快速建立大数据集有一定的贡献,同时亮点在于:

Our approach is only one possible interface instan-tiation of the concept of encouraging some error

0 0
原创粉丝点击