CVPR2010奇文一篇共欣赏

来源：互联网发布：三菱伺服驱动器编程编辑：程序博客网时间：2024/04/30 07:23

转载一篇奇文

[交流]CVPR2010奇文一篇共欣赏

http://emuch.net/bbs/viewthread.php?tid=3455612&fpage=1

这篇Paper的题目叫Paper Gestalt。文章以诙谐的笔调描述了一个基于vision + learning的自动paper review算法。

这篇Paper不是在会议中正式发表的，而是在TC Panel派发的。参加会议的朋友们可以很幸运的在会场获取这篇文章，至于没有来的朋友，我想只能向作者（这位兄弟（也许是姐妹）在paper中自称Carven von Bearnensquash,bearensquash@live.com）索要了。

这篇论文出炉的背景，就是最近几年CVPR或者ICCV的submission呈现急速的指数增长的趋势（在过去10年翻了三倍）。按照这个速度增长，在 10年后每次会议的投稿量就会超过5000篇！

文章的算法很简单（前提是你对Machine Learning或者Computer Vision有一点了解），把8页的pdf文档并排成一张长的image，然后就在上面抽feature。做自然语言处理的朋友们请不要激动，这是 Vision的paper，自然用的是Vision圈子自己的方法。好了，抽什么feature呢？主要是HOG(Histogram of Gradients)，这是一种纯粹用于描述视觉观感的feature。显然，大段的文本，曲线图，图像，表格，数学公式，它们的feature应该是不太一样的。然后作者用AdaBoost做feature selection训练得到一个分类器：纯粹根据paper的视觉观感来判断paper的好坏。

这篇文章的作者收集了CVPR 2008, ICCV 2009和CVPR 2009的全部1196篇paper构成正样本。那么负样本从何而来呢？被拒的paper显然作者是拿不到的。于是他很聪明的利用了一个众所周知但是大家却不会公开明言的事实：workshop接纳的很多是在主要会议被拒收的paper。这样，很不幸的，workshop上发表的文章被用作负样本。

最有趣的部分要数实验结果了。从ROC曲线来看，结果其实还是不错的——以拒绝15%的正样本为代价，可以滤除一半的负样本。作者对于正负样本的特征做了一些总结，也许对于大家以后投paper还是有点指导意义呢...

正样本的“视觉”特点：
1. 里面有几段公式，看上去文章显得似乎很专业，也显得作者似乎数学不错；
2. 实验部分里面多少要有几个曲线图，即使那几个曲线图说明不了什么。但是，只要有几个曲线图在那里，起码表示我做的是“科学实验”；
3. 最好在文章开头或者最后一页排列一堆图像。其实，我也注意到很多作者喜欢排列很多dataset里面的图像到paper上——即使那是一个 publically available的standard dataset——我不知道这样做的意义何在——除了审美效果。
4. 最好写满8页，代表分量足够。

负样本的特点：
1. 不够页数。在submission阶段，写不满6页的文章被录用的机会很小。虽然最后很多本来8页的文章还是能很神奇地被压缩到6页，如果作者想省掉 200美元的附加页费。题外话，我也一直不明白为什么多一页要多交100美元注册费。
2. 有很大的数字表，就是m行n列，排满数字那种。这篇文章表明，排列了很多曲线图和柱状图的文章比排列了很多数字表的文章有更大概率被接收。
3. 没有漂亮插图。