Eyes never lie! hand eye coordination patterns analysis for text-graph Separation

来源：互联网发布：js中display的值编辑：程序博客网时间：2024/05/24 06:38

眼睛从来不骗人！基于“眼-手”协作模式的文本分离的分析

前言

首先申明这一篇文章非本人所写，本文出自南京大学软件学院。为什么要分享本篇文章，因为本篇文章的确值得深思，近几年来，人机交互学术界所倡导的“交互无处不在，交互尽可能的自然，人与机器交互尽可能做到不影响人的主观判断，做到潜意识或下意识的人与机器交互的状态”。言归正传，这一篇文章很简短，这篇文章主要是讲解一个实验，读了本篇文章之后，大家对这篇文章的看法不一，有的人认为这篇文章完全是为了某种目的而写的，但我个人并不这么认为，我认为这篇文章最终要的贡献可能是“让你的妈妈不用学习键盘也可以使用电脑”,我将在下面为大家详细解读。

摘要

首先从摘要（Abstract）看起，摘要说：自由形式的手写文档包含了很高的多样性的内容。将文本与非文本划分开的任务对于解释这样的文档至关重要。我们通过调查手眼相互作用，重点关注凝视点与每次的落笔点之间的瞬间距离，以他们的及分布，聚合注视点，在绘制文本或非文本的情况下，目的是为了提出一种创新的方法来帮助文本分离。实验结果显示，的确有三个不同的手眼协调模式存在于文本和非文本图形中，这为文本分离提供了一个新的方法。（注：在这次实验中他们将每次的凝视点和落笔点进行配对，即每一对点由同一次的凝视点和落笔点组成）

介绍

介绍（Introduction）：绘画（sketching：速写，素描，略图）是一个高效和自然的人际（interpersonal）交互方式，它有助于人们从细节上区分概念，与至于其他人可以很快的获取关键信息。然而，这种方式对于计算机来说却非常的困难。手写文档高度的不同使得让电脑识别的过程变得极具挑战性，这样的过程将涉及到各种各样的元素，不仅仅包括文本，还有图表，标点符号。此外，由于内容的异质性，缺乏手绘文本的内部结构，这是计算机识别他的另一个困难。

作为文本识别中重要的一步，文本分离在近年来备受关注。

通过总结前人的实验发现，视力在绘制图形（写字，画画等等）时也起到重要的作用。眼睛收集信息目的在于知道人的行为，例如提供绘画结构的重要点，并且在手-眼协作模式的运动学上进行了广泛的研究。

在这篇文章中，我们重点关注的是每个“凝视点-落笔点对”之间的瞬间距离，和凝视点的分布，聚集。在绘制文本和非文本的情况下，我们调查眼睛和手之间的关系。目的在于帮助在“眼-手协作模式”思维下用一种革新的方法进行文本和图像的分离。

相关工作（Related Work）

在这一部分说了现在大部分实验目标集中在完成任务和一些简单的轨迹，只有很少实验是研究复杂的轨迹。（相当于分析了现在的研究的方向和重点）在人机交互方面，学者们研究的重点在于人们操作计算机时眼睛和鼠标的协作模式。基于以前的研究发现“手-眼睛的交互模式”主要是由简单的线条和基础的图形实现，直观的看手写的文本和图形是存在巨大的不同，众所周知，相应的研究是很少的，但这些恰好是我们所关注的。在这篇文章中，他们做实验并且发现那些潜在的协作模式和这些模式之间的不同。这些发现将有助于随后的文本分离。

实验方法（Experimental Approach）

参与者(Participants)：6个

实验设备：一个TobiiX60 stand-alone eye tracker，一个笔，一个平板（tablelet）

实验设计(Experiment Design)：参与者事先会练习使用这个实验系统，（在两中大小的平板上进行）他们设计的任务涵盖了不同的手写元素，例如表1，包括形状（封闭形状，直的和弯曲的路径）

实验有三种任务：这三个任务执行的顺序是随机的，

第一种任务是画出各种不同的形状（圆，棱形等）

第二和第三个任务：写出A-Z，a-z和0-9的所有元素。收集这三种任务的864个案例，并采取了有效的措施使得实验数据得以保障。（线性插值法）

分析（Analysis）

为了改变参与者的绘画风格，既不限制起点和终点，也不限制笔画的顺序。假定笔画的一致性，采取线性的插值法来计算相应的有效的笔画点和凝视点。接着，通过计算发现当参与者在绘制一个图形时，他的眼睛的注视点的移动更加趋于它所绘制的图形的形状，然而，在写字母和数字任务里，眼睛飞快扫视的现象更加的普遍。

根据人类视角范围在2.5度之内。眼睛和监视器的距离为80cm。这就意味着：凝视点和相应的绘画点（sketch point）非常的接近，大约为175px。

通过观察和统计发现在对角线的25%的区域的点接近绘制图形的点

期间又将任务分成2个目录：一笔画成的和多笔画成。原因是他们发现以前的研究大多是集中在一笔画成的图案上，而他们想知道多笔画成的图案是否也遵守相同眼手协同模式。

结论（Result）

图二是由那864个任务案例中的多笔数据库生成的，这些多笔图形大多是正方形，平行四边形，菱形，每个都有四个顶点。数字‘4’和‘5’大多是多笔写成。

一般地，单笔画成与多笔画成的例子百分比近似的相等。

图三显示了一个形象化的轨迹，采用了Canvas toolkit在HTML5平台上，我们再生产了一个自适应的绘画程序来分析眼睛的移动和笔尖移动之间的关系，红色线条代表眼球的运动轨迹，绿色代表笔移动的轨迹。

文本和图形之间不同的协作模式

通过计算接近笔画点的注视点的百分比和时间，图四展示了每一个任务的平均跟随率。当绘制非文本时，凝视点的将会接近绘画点。当绘制文本时，凝视点的比率将高于绘制点的比率。相比于两种大小的设备，我们发现在大尺寸的设备上跟随率普遍都高。为什么会这样，是因为在大设备上写一个文本就相当与我们在画一个抽象的图形，并且我们的眼睛必须关注笔尖移动到那里了。

他们挑选了两个图形：圆和正方形，俩个字母：O和M。字母O和圆

极其相识并且M和正方体的结构上相似。图五说明我们根据下文数据提

出的决定的巨大可能性。The graphs (the square and

circle)maintain higher rate of following points than the text (the letter “O”

and“M”) （这就是他们提出的决定）

此外，他们广泛的采用K-means算法从凝视数据中收集形状的至高点，例如三角形和正方形。结果集群中心非常靠近这些形状的角，这意味着我更加关注图形的角而不是图形的边。这个结果是不可思议的，因为我们在画一个形状时总是习惯于眼睛盯着笔尖看线是否画直或线段是否连接，然而，写文本也是这样，我们写出完美的字母或数字并不需要百分之百的注意力。

两种文本协作模式（Two kinds of coordination patterns in text）

第1种模式：锚跳模式（来自google翻译）参与者首先会将锚点放在文本的一个角上，一旦笔尖移动，锚点会立刻移向下一个点。

第2中模式：中央聚集模式，凝视数据将会聚集在一起，凝视点总会位于文本的中间。

结论和未来的工作(Conclusion and Future work)在这一篇文章中我们研究了手眼的移动，当我们在写文本和画非文本，目的在于发现一种的新的文本-图像的分离方式在速写识别的过程当中。这个实验揭示了如下的趋势：

1：在画一个形状时：有角或者无角，一笔或多笔画成，参与者的眼睛总是紧紧的凝视着笔尖。并且跟多的注意力被集中在至高点而不是侧边的线条。

2：在数字或字母时，有两种协作模式存在，包括锚点跳跃模式和中央集中模式。目标或许瞄准在文本的角落上或者是下一个角落上。

随后我们将验证眼-手协作模式在文本-图像分离当中的可行性。

总结：这一篇文章讲的非常详细，但是里面的一些英语理解还不到位，但是我们读一篇文章必须要有“不求甚解”的精神，我们不能去一个字的去抠，必须把握文章的思想，文章给我们的启示。通过这篇文章，我们可以由作者的“手-眼协作模式”可以引出如果这种方法被成熟的应用在手写文本的识别中，那么我们未来是不是就可以取消调电脑的键盘，我们直接使用一支笔来在电脑的摄像头前自然地像我们平时写字一样写，然后电脑快速的识别并在屏幕上显示，这将意味着更多的不会使用键盘打字人可以轻松的使用电脑来办公，例如，我们的父母辈可能不会使用键盘打字，如这样的设备出现了，我们与电脑的交互会更加的自然和谐，因为一个小孩子从接受教育起他们首先学习的就是写字，这方式已经成为了除了语言他们与世界交流的重要方式。所以此篇文章还是很有研究价值的，所以分享出来供大家阅读，翻译可能存在诸多偏差，欢迎留言指教，我将不胜感激。

阅读全文

0 0