最近一直在做页面的自动分析,主要是通过图像关联度来对form的表单进性分析以便后续的自动辨识,mather程序使用。

来源:互联网 发布:学尤克里里软件 编辑:程序博客网 时间:2024/06/06 04:49

ava script 笔记
检查 element type :
设我们有:
<form>
<inputtype="radio"name="q1"value="1125"/>1125<br /> <inputtype="radio"name="q1"value="375"/>375<br /> <inputtype="radio"name="q1"value="178"/>178<br /> <inputtype="radio"name="q1"value="75"/>75<br /> <inputtype="radio"name="q1"value="45"/>45<br /> <inputtype="text"name="q2"value=""/> </form>

window.document.forms[0].q1.type=undefined
window.document.forms[0].q1[0].type=radio
window.document.forms[0].q1[1].type=text
window.document.forms[0].q2.type =text
待验证

关于 nodeType
http://javascript.gakaa.com/node-nodetype.aspx 英文
http://fr.selfhtml.org/javascript/objets/node.htm#node_type 法文

Object Oriented Programming in JavaScript 面向对象
http://mckoss.com/jscript/object.htm

Introduction to Forms 简介
http://www.quirksmode.org/js/forms.html#stext


另:
input 是node名字而不是type,所以可以用getelementByTagName来获得,
问:现在的问题是如何获得特定form下的input,而不是整个document下的。
答:document.forms[0].getElementsByTagName("input"),经测试 可行


问:现在可以找到所有的input tag 和其他类型的tag,比如说checkbox,selection 之类,但是无法找到其相应的attribute,因为很可能那东西根本不在tag里。怎么办?


问:能否通过一个element和并以他的边界为基点,找到离他边界最近的attribute,
答:可以,但是很困难。同样需要先建立attribute list 来进行访问,实际上, 必须先取得所有需要匹配的attribute,然后你用边界为基点一圈一圈扩大来寻找匹配的attribute,但是这个实际上还不如直接建立<element, attribute>对,并计算他们的相关度来的划算。
补充:也不尽然,完全可以认为是一个等速螺线以设定的element 边界为包络线,什么时候碰到另外一个element 或者是attribute,那么就计算他们之间的“面积距离”,找到最有可能的attribute,这个比一一对应是不是会强一点?

问:可是这个“碰”怎么定义?
答:即当这个等速螺线的终点落在任意一个attribute或者element的包络线之内。

问:这样是不是需要每时每刻都判断,并且对所有的element, attribute都需要做一个判断器,并且并行?这个太浪费资源了。

另外一个办法:
假设:是否可以把ie的页面认为是一个画布,因为所有的element ,attribute其实都不可能太小(太小用户也会看不见),所以,假设把这个画布用10*10的点阵来表示,每个10*10的小方块认为是一个点,这个点或者属于某个element,或者不属于。如果它同时属于两个以上的element,那就认为他谁也不属于。所以我们可以把整个画布看成是一个100*50的点阵,每个点是一个object,它有一个指针,指向它属于的那个element。ok,现在这个问题变得简单了,我以某个element的那一堆点为中心,扩大它的范围,鉴于所有的element, attribute都是正方形,并且斜对角的对应关系很少见,也没有prio,所以:存在一个m*n的element,其起始点位置为x0,y0, 那么关联区域为:四个:

x0-m,y0  => x0,y0+n,

...

...

...


如上图所示,然后确认是否有点的指针为非空,找到非空的指针所指的element,
此方法的好处是不用建立一个attribute,element的距离表。
注:此方法还是太浪费资源,判断指针同样需要遍历所有的指针。或者需要遍历所有的区域内的指针(假设使用hash表)

问:attribute如何定义?
答:通过研究dom tree的内容发现,所有分离的text都会被认为是分散的node, 这一点在firebug里看得很清楚,chrome自带的工具显示的并不是很好。 所以可以通过遍历所有的texte node来找到所有的attribute list

so : 需要两个list,一个是attribute list, 一个是 element list,然后计算<attribute, element> 对之间的距离

prerequisite: 可以设置一些前提条件,基于html tag structure的。
问: 这些先决条件如何设置
答:可以通过研究html 语言来设置.

问:先决条件的list
答:待验证:
1.如果attribute和element有一个共同的parentNode,那么有一定的优先级
2.checkbox和radiobox如果是同名,那么一定是关联的。

问:有<attribute, element>对之间的匹配怎么办?或者有的element干脆没有attribute,或者是好几个element匹配一个attribute,或者是好几个attribute匹配一个element。
答:先进行<attribute,element>匹配,如果是以上两种情况之一,必然有attribute或者是element暂时落单,再尝试让它与<a,e>对进行匹配。

问:如果是有些attribute,element,是干脆无用的,尝试匹配岂不是会造成错误?
答:1.一般来说,距离比较远
 2.如果混淆,必须靠语义校验。
3.尝试通过interface间的m:n匹配,这种混淆的东西一般来说都无法找到相应的匹配,或者就算他是真正有用的<a,e>对,在interfaces中找不到匹配也干脆丢弃。
比如一个element有两个attribute,那么在interfaces间匹配时,就按照两个attribute的并集来匹配,并且分别计算两个attribute的匹配度,如果其中一个非常小,那就可以完全忽略,也就是认为这个匹配度非常小的attribute是错误的。如果两个attribute的匹配度差不多或者说都不少,那说明两个都是有意义的,那就把匹配结果按照两个attribute的匹配结果的并集来算。

对于查找attribute,对form的所有子节点进性遍历,textnode.type==3
通常会在attribute前添加“/n” ,和空格。需要把这个删除
对attribute进性normalize

问:是否用javascript来进性normalize?

问:匹配是否在javascript中进行?

问:距离计算是否在javascript中进行?

问:是否直接返回一个attribute,elements的集合给java 调用程序?

这四个问题可以看作一个问题,就是第四个。假设我把<a,e>配对数组上传给java,那么其他的工作都可以由java来进性

问:由于有很多元素都是隐藏的,对于用户来说,这些隐藏的元素就等于不存在,尤其是一对于分层的页面,那么如何判断一个form元素的显隐?同时,很多帮助填写表单的javascript很难被识别,暂时还是不要尝试处理这样的javascript为好。

上述问题应该先问这样一个问题:如何隐藏一个页面元素
1. traget.style.display="none" 不占位
2.style.visibility="hidden" 占位
3. style=”left: -10000px;” 或者 top: -10000ps

应该还有其他的possiblite


问:如果一个form用javascript 来提交表单,并且一个from中包含了好几个submit 分别指向不同的url,那么我们如何判定这个form里那些element 是我们需要matching的,那些是我们不需要matching的?那些是对应于搜索结果呢,那些跟搜索结果毫无关系?