论文笔记——Creating Speech and Language DataWith Amazon’s Mechanical Turk
来源:互联网 发布:void在c语言中什么意思 编辑:程序博客网 时间:2024/05/17 02:14
Creating Speech and Language DataWith Amazon’s Mechanical Turk
Chris Callison-Burch and Mark Dredze
Introduction
本文主要介绍 NAACL-2010 workshop
Amazon’s Mechanical Turk是一个crowdsouring site,能够为researcher提供大量的data。
疑问:
1) 获取training data的cost降低后,能够做一些什么研究
2) 获取新的traing data后,能够做一些什么新的task
3) 复杂的annotation能否由untrained annotators完成
HIT:human intelligence task
一些人很容易完成,但机器能以完成的工作
Turker:worker,即做题的人
Requester:设计HIT的人
许多non-expert的观点集合起来,可以接近expert的观点 Gold standard data用于测试Turker的可信度 Turker的人口分布:中文人群多不多 Quality control 一些Turker可能随机选答案,尤其是选择题 1) Requester拒绝某些turkers的回答,警告乃至block 2) 每一个HIT由多个Turker完成,可以挑选质量好的答案 3) Requester设定参与答题的turker拥有一个qualification Eg:HIT的approval rate和location(缺省)《-IP 4) 防止cheat的其他方法: 进行qualification的test,翻译类的将文本变成图片,避免直接使用machine translation的答案。 重复出题,迭代法(set1的结果作为set2的test data) Recommended Practice 1) instruction要简洁清晰 2) positive和negative control 3) gold standard data 4) randomize the order 5) publish the report of ensuring quality when using the data gathered by AMT Shared Task 1) Traditional NLP task Eg:获得新的corpora、电脑出阅读理解题 2)speech and vision 3)sentiment,polarity and bias 4)information retrieval 5)information extraction 6)machine translation
- 论文笔记——Creating Speech and Language DataWith Amazon’s Mechanical Turk
- 论文笔记——CrowdFlow: Integrating Machine Learning with Mechanical Turk for Speed-Cost-Quality Flexibility
- [zz]Amazon Mechanical Turk
- Mechanical Turk
- 《Speech and Language Processing》第三版手稿读书笔记——00(Daniel Jurafsky,James H. Martin)
- Deep Speech 2 : End-to-End Speech Recognition in English and Mandarin论文笔记
- 论文笔记] Amazon推荐系统——基于item的协同过滤
- Language Model 论文阅读笔记
- 架构学习笔记—Amazon
- 架构学习笔记—Amazon
- 架构学习笔记—Amazon
- 《Speech and Language Processing》读书笔记之信息抽取IE
- CREATING AND INSTALLING A SSL CERTIFICATE ON AMAZON EC2.
- Amazon Dynamo论文解读 — Dynamo数据划分算法
- Amazon Dynamo论文解读 — 技术介绍(转载)
- Amazon Dynamo论文解读 — Dynamo数据划分算法
- 【论文笔记】Character-Aware Neural Language Models
- speech recognition with deep recurrent neural networks-论文笔记
- 000000000
- dedecms5.6专题结点容器无效的解决办法
- Qt中设置widget背景颜色/图片的注意事项(使用样式表 setStyleSheet())
- Perl中查看已安装的模块列表
- H.264学习笔记之一(层次结构,NAL,SPS)
- 论文笔记——Creating Speech and Language DataWith Amazon’s Mechanical Turk
- QTP-WebEdit 和WebRadioGroup
- 光脚丫学LINQ(001):获取数据源
- u-boot移植手册
- sql server 2005 多条件查询
- flex-分页控件
- 求职与求才 招聘J2EE程序员考察项(二)
- Android中发短信的代码
- 在VB下设计开发实时的数据采集曲线