《Sikuli: Using GUI Screenshots for Search and Automation》

来源:互联网 发布:java 通过ip获取mac 编辑:程序博客网 时间:2024/05/16 14:22

 

这篇论文介绍了Sikuli系统,一个使用界面截图(GUI Screenshorts)进行可视化搜索和自动化的图形用户界面的系统.

该系统允许用户使用用户图形界面元素的截图代替元素的名字(例如工具栏按钮、图标或者对话框)查询帮助系统。系统还提供一个可视化脚本API用于自动化用户图形界面交互,使用屏幕截图的模式引导鼠标和键盘事件。

 

在人与人的交流中,通过指向某个物体是自然的交流方式。在搜索中,如果能用可视化的方式能更精确,包含更多的信息。在使用GUI元素自动化交互时,程序员可以直接插入屏幕截图到脚本语句中,并具体说明键盘或鼠标如何调用该元素。相对于非视觉的方式,截屏是一种直观的指定多种GUI元素的方式。另外,截屏普遍适用于所有GUI平台上的应用程序,因为截图是可行的。

 

在搜索的实现中主要有三个技术:一是使用源文件图片周围的文字,这是现在典型的基于关键字的图形搜索引擎;二是使用图形的特性,使用SIFT方法提取;三是由于GUI元素通常包含文字,使用OCR提取文字,这里为了提高OCR识别的正确率,不是使用OCR后的原始字符,而是3个字符GRAMS(格雷码?后一组的前2个字符为前一组的后两个字符)为一组的划分,使得匹配率从0提高到百分之几。这里只考虑字母、数字和常用的标点符号,共定义了50,0003-grams

 

 

我本身没有学习过图像识别等方面的内容,对论文的理解有限,但是论文体现的基本思想值得学习:让人与计算机的交流用人与人的方式进行。论文中实际使用的技术也是以整合各个技术为主,并不是从根本上的技术突破,但是称的上是思路上的突破。真希望截图搜索的应用尽快到来,尤其是在DEBUG弹出个不明白的错误对话框时。

原创粉丝点击