论文笔记——Creating Speech and Language DataWith Amazon’s Mechanical Turk

来源:互联网 发布:void在c语言中什么意思 编辑:程序博客网 时间:2024/05/17 02:14

Creating Speech and Language DataWith Amazon’s Mechanical Turk

Chris Callison-Burch and Mark Dredze

 

 

Introduction

本文主要介绍 NAACL-2010 workshop

 

Amazon’s Mechanical Turk是一个crowdsouring site,能够为researcher提供大量的data

 

疑问:

1)  获取training datacost降低后,能够做一些什么研究

2)  获取新的traing data后,能够做一些什么新的task

3)  复杂的annotation能否由untrained annotators完成

 

HIThuman intelligence task

一些人很容易完成,但机器能以完成的工作

 

Turkerworker,即做题的人

Requester:设计HIT的人

许多non-expert的观点集合起来,可以接近expert的观点

Gold standard data用于测试Turker的可信度

Turker的人口分布:中文人群多不多

 

Quality control

一些Turker可能随机选答案,尤其是选择题

1)  Requester拒绝某些turkers的回答,警告乃至block

2)  每一个HIT由多个Turker完成,可以挑选质量好的答案

3)  Requester设定参与答题的turker拥有一个qualification

EgHITapproval ratelocation(缺省)-IP

 

4)  防止cheat的其他方法:

进行qualificationtest,翻译类的将文本变成图片,避免直接使用machine translation的答案。

重复出题,迭代法(set1的结果作为set2test data

 

Recommended Practice

1)  instruction要简洁清晰

2)  positivenegative control

3)  gold standard data

4)  randomize the order

5)  publish the report of ensuring quality when using the data gathered by AMT

 

 

Shared Task

1)       Traditional NLP task

Eg:获得新的corpora、电脑出阅读理解题

2speech and vision

3sentimentpolarity and bias

4information retrieval

5information extraction

6machine translation