最近一直在做页面的自动分析,主要是通过图像关联度来对form的表单进性分析以便后续的自动辨识,mather程序使用。
来源:互联网 发布:学尤克里里软件 编辑:程序博客网 时间:2024/06/06 04:49
ava script 笔记
检查 element type :
设我们有:
<form>
<inputtype="radio"name="q1"value="1125"/>1125<br /><inputtype="radio"name="q1"value="375"/>375<br /><inputtype="radio"name="q1"value="178"/>178<br /><inputtype="radio"name="q1"value="75"/>75<br /><inputtype="radio"name="q1"value="45"/>45<br /><inputtype="text"name="q2"value=""/></form>
window.document.forms[0].q1.type=undefined
window.document.forms[0].q1[0].type=radio
window.document.forms[0].q1[1].type=text
window.document.forms[0].q2.type =text
待验证
关于 nodeType
http://javascript.gakaa.com/node-nodetype.aspx 英文
http://fr.selfhtml.org/javascript/objets/node.htm#node_type 法文
Object Oriented Programming in JavaScript 面向对象
http://mckoss.com/jscript/object.htm
Introduction to Forms 简介
http://www.quirksmode.org/js/forms.html#stext
另:
input 是node名字而不是type,所以可以用getelementByTagName来获得,
问:现在的问题是如何获得特定form下的input,而不是整个document下的。
答:document.forms[0].getElementsByTagName("input"),经测试 可行
问:现在可以找到所有的input tag 和其他类型的tag,比如说checkbox,selection 之类,但是无法找到其相应的attribute,因为很可能那东西根本不在tag里。怎么办?
问:能否通过一个element和并以他的边界为基点,找到离他边界最近的attribute,
答:可以,但是很困难。同样需要先建立attribute list 来进行访问,实际上, 必须先取得所有需要匹配的attribute,然后你用边界为基点一圈一圈扩大来寻找匹配的attribute,但是这个实际上还不如直接建立<element, attribute>对,并计算他们的相关度来的划算。
补充:也不尽然,完全可以认为是一个等速螺线以设定的element 边界为包络线,什么时候碰到另外一个element 或者是attribute,那么就计算他们之间的“面积距离”,找到最有可能的attribute,这个比一一对应是不是会强一点?
问:可是这个“碰”怎么定义?
答:即当这个等速螺线的终点落在任意一个attribute或者element的包络线之内。
问:这样是不是需要每时每刻都判断,并且对所有的element, attribute都需要做一个判断器,并且并行?这个太浪费资源了。
另外一个办法:
假设:是否可以把ie的页面认为是一个画布,因为所有的element ,attribute其实都不可能太小(太小用户也会看不见),所以,假设把这个画布用10*10的点阵来表示,每个10*10的小方块认为是一个点,这个点或者属于某个element,或者不属于。如果它同时属于两个以上的element,那就认为他谁也不属于。所以我们可以把整个画布看成是一个100*50的点阵,每个点是一个object,它有一个指针,指向它属于的那个element。ok,现在这个问题变得简单了,我以某个element的那一堆点为中心,扩大它的范围,鉴于所有的element, attribute都是正方形,并且斜对角的对应关系很少见,也没有prio,所以:存在一个m*n的element,其起始点位置为x0,y0, 那么关联区域为:四个:
如上图所示,然后确认是否有点的指针为非空,找到非空的指针所指的element,
此方法的好处是不用建立一个attribute,element的距离表。
注:此方法还是太浪费资源,判断指针同样需要遍历所有的指针。或者需要遍历所有的区域内的指针(假设使用hash表)
问:attribute如何定义?
答:通过研究dom tree的内容发现,所有分离的text都会被认为是分散的node, 这一点在firebug里看得很清楚,chrome自带的工具显示的并不是很好。 所以可以通过遍历所有的texte node来找到所有的attribute list
so : 需要两个list,一个是attribute list, 一个是 element list,然后计算<attribute, element> 对之间的距离
prerequisite: 可以设置一些前提条件,基于html tag structure的。
问: 这些先决条件如何设置
答:可以通过研究html 语言来设置.
问:先决条件的list
答:待验证:
1.如果attribute和element有一个共同的parentNode,那么有一定的优先级
2.checkbox和radiobox如果是同名,那么一定是关联的。
问:有<attribute, element>对之间的匹配怎么办?或者有的element干脆没有attribute,或者是好几个element匹配一个attribute,或者是好几个attribute匹配一个element。
答:先进行<attribute,element>匹配,如果是以上两种情况之一,必然有attribute或者是element暂时落单,再尝试让它与<a,e>对进行匹配。
问:如果是有些attribute,element,是干脆无用的,尝试匹配岂不是会造成错误?
答:1.一般来说,距离比较远
2.如果混淆,必须靠语义校验。
3.尝试通过interface间的m:n匹配,这种混淆的东西一般来说都无法找到相应的匹配,或者就算他是真正有用的<a,e>对,在interfaces中找不到匹配也干脆丢弃。
比如一个element有两个attribute,那么在interfaces间匹配时,就按照两个attribute的并集来匹配,并且分别计算两个attribute的匹配度,如果其中一个非常小,那就可以完全忽略,也就是认为这个匹配度非常小的attribute是错误的。如果两个attribute的匹配度差不多或者说都不少,那说明两个都是有意义的,那就把匹配结果按照两个attribute的匹配结果的并集来算。
对于查找attribute,对form的所有子节点进性遍历,textnode.type==3
通常会在attribute前添加“/n” ,和空格。需要把这个删除
对attribute进性normalize
问:是否用javascript来进性normalize?
问:匹配是否在javascript中进行?
问:距离计算是否在javascript中进行?
问:是否直接返回一个attribute,elements的集合给java 调用程序?
这四个问题可以看作一个问题,就是第四个。假设我把<a,e>配对数组上传给java,那么其他的工作都可以由java来进性
问:由于有很多元素都是隐藏的,对于用户来说,这些隐藏的元素就等于不存在,尤其是一对于分层的页面,那么如何判断一个form元素的显隐?同时,很多帮助填写表单的javascript很难被识别,暂时还是不要尝试处理这样的javascript为好。
上述问题应该先问这样一个问题:如何隐藏一个页面元素
1. traget.style.display="none" 不占位
2.style.visibility="hidden" 占位
3. style=”left: -10000px;” 或者 top: -10000ps
应该还有其他的possiblite
问:如果一个form用javascript 来提交表单,并且一个from中包含了好几个submit 分别指向不同的url,那么我们如何判定这个form里那些element 是我们需要matching的,那些是我们不需要matching的?那些是对应于搜索结果呢,那些跟搜索结果毫无关系?
检查 element type :
设我们有:
<form>
<inputtype="radio"name="q1"value="1125"/>1125<br /><inputtype="radio"name="q1"value="375"/>375<br /><inputtype="radio"name="q1"value="178"/>178<br /><inputtype="radio"name="q1"value="75"/>75<br /><inputtype="radio"name="q1"value="45"/>45<br /><inputtype="text"name="q2"value=""/></form>
window.document.forms[0].q1.type=undefined
window.document.forms[0].q1[0].type=radio
window.document.forms[0].q1[1].type=text
window.document.forms[0].q2.type =text
待验证
关于 nodeType
http://javascript.gakaa.com/node-nodetype.aspx 英文
http://fr.selfhtml.org/javascript/objets/node.htm#node_type 法文
Object Oriented Programming in JavaScript 面向对象
http://mckoss.com/jscript/object.htm
Introduction to Forms 简介
http://www.quirksmode.org/js/forms.html#stext
另:
input 是node名字而不是type,所以可以用getelementByTagName来获得,
问:现在的问题是如何获得特定form下的input,而不是整个document下的。
答:document.forms[0].getElementsByTagName("input"),经测试 可行
问:现在可以找到所有的input tag 和其他类型的tag,比如说checkbox,selection 之类,但是无法找到其相应的attribute,因为很可能那东西根本不在tag里。怎么办?
问:能否通过一个element和并以他的边界为基点,找到离他边界最近的attribute,
答:可以,但是很困难。同样需要先建立attribute list 来进行访问,实际上, 必须先取得所有需要匹配的attribute,然后你用边界为基点一圈一圈扩大来寻找匹配的attribute,但是这个实际上还不如直接建立<element, attribute>对,并计算他们的相关度来的划算。
补充:也不尽然,完全可以认为是一个等速螺线以设定的element 边界为包络线,什么时候碰到另外一个element 或者是attribute,那么就计算他们之间的“面积距离”,找到最有可能的attribute,这个比一一对应是不是会强一点?
问:可是这个“碰”怎么定义?
答:即当这个等速螺线的终点落在任意一个attribute或者element的包络线之内。
问:这样是不是需要每时每刻都判断,并且对所有的element, attribute都需要做一个判断器,并且并行?这个太浪费资源了。
另外一个办法:
假设:是否可以把ie的页面认为是一个画布,因为所有的element ,attribute其实都不可能太小(太小用户也会看不见),所以,假设把这个画布用10*10的点阵来表示,每个10*10的小方块认为是一个点,这个点或者属于某个element,或者不属于。如果它同时属于两个以上的element,那就认为他谁也不属于。所以我们可以把整个画布看成是一个100*50的点阵,每个点是一个object,它有一个指针,指向它属于的那个element。ok,现在这个问题变得简单了,我以某个element的那一堆点为中心,扩大它的范围,鉴于所有的element, attribute都是正方形,并且斜对角的对应关系很少见,也没有prio,所以:存在一个m*n的element,其起始点位置为x0,y0, 那么关联区域为:四个:
x0-m,y0 => x0,y0+n,
...
...
...
如上图所示,然后确认是否有点的指针为非空,找到非空的指针所指的element,
此方法的好处是不用建立一个attribute,element的距离表。
注:此方法还是太浪费资源,判断指针同样需要遍历所有的指针。或者需要遍历所有的区域内的指针(假设使用hash表)
问:attribute如何定义?
答:通过研究dom tree的内容发现,所有分离的text都会被认为是分散的node, 这一点在firebug里看得很清楚,chrome自带的工具显示的并不是很好。 所以可以通过遍历所有的texte node来找到所有的attribute list
so : 需要两个list,一个是attribute list, 一个是 element list,然后计算<attribute, element> 对之间的距离
prerequisite: 可以设置一些前提条件,基于html tag structure的。
问: 这些先决条件如何设置
答:可以通过研究html 语言来设置.
问:先决条件的list
答:待验证:
1.如果attribute和element有一个共同的parentNode,那么有一定的优先级
2.checkbox和radiobox如果是同名,那么一定是关联的。
问:有<attribute, element>对之间的匹配怎么办?或者有的element干脆没有attribute,或者是好几个element匹配一个attribute,或者是好几个attribute匹配一个element。
答:先进行<attribute,element>匹配,如果是以上两种情况之一,必然有attribute或者是element暂时落单,再尝试让它与<a,e>对进行匹配。
问:如果是有些attribute,element,是干脆无用的,尝试匹配岂不是会造成错误?
答:1.一般来说,距离比较远
2.如果混淆,必须靠语义校验。
3.尝试通过interface间的m:n匹配,这种混淆的东西一般来说都无法找到相应的匹配,或者就算他是真正有用的<a,e>对,在interfaces中找不到匹配也干脆丢弃。
比如一个element有两个attribute,那么在interfaces间匹配时,就按照两个attribute的并集来匹配,并且分别计算两个attribute的匹配度,如果其中一个非常小,那就可以完全忽略,也就是认为这个匹配度非常小的attribute是错误的。如果两个attribute的匹配度差不多或者说都不少,那说明两个都是有意义的,那就把匹配结果按照两个attribute的匹配结果的并集来算。
对于查找attribute,对form的所有子节点进性遍历,textnode.type==3
通常会在attribute前添加“/n” ,和空格。需要把这个删除
对attribute进性normalize
问:是否用javascript来进性normalize?
问:匹配是否在javascript中进行?
问:距离计算是否在javascript中进行?
问:是否直接返回一个attribute,elements的集合给java 调用程序?
这四个问题可以看作一个问题,就是第四个。假设我把<a,e>配对数组上传给java,那么其他的工作都可以由java来进性
问:由于有很多元素都是隐藏的,对于用户来说,这些隐藏的元素就等于不存在,尤其是一对于分层的页面,那么如何判断一个form元素的显隐?同时,很多帮助填写表单的javascript很难被识别,暂时还是不要尝试处理这样的javascript为好。
上述问题应该先问这样一个问题:如何隐藏一个页面元素
1. traget.style.display="none" 不占位
2.style.visibility="hidden" 占位
3. style=”left: -10000px;” 或者 top: -10000ps
应该还有其他的possiblite
问:如果一个form用javascript 来提交表单,并且一个from中包含了好几个submit 分别指向不同的url,那么我们如何判定这个form里那些element 是我们需要matching的,那些是我们不需要matching的?那些是对应于搜索结果呢,那些跟搜索结果毫无关系?
- 最近一直在做页面的自动分析,主要是通过图像关联度来对form的表单进性分析以便后续的自动辨识,mather程序使用。
- 页面点击button自动提交form表单的解决办法
- 使用gprof来对程序的性能分析总结
- 回车自动提交Form表单的问题
- 防止Form表单的自动提交
- 自动生成表单的Form类
- 一个根据.BOM文件自动创建Excel BOM的程序---记录在此,以便查询
- 这几天对boost::bind出来的结果做了自动推导,以便直接生成boost::function的对象
- 自动升级的分析
- 关于palyframwork的错误。其实也是通过spring来实现的,这个错误的原因是javaBean没有get set 方法对form表单中的元素
- 又有段时间没有更新blog了,主要是一直在写bbextra的程序
- 关于form表单底下 button自动提交表单的问题
- form表单里面 button标签自动提交表单的问题
- 一直以为使用js自动触发的form提交也会触动onsubmit事件,原来不会
- 20_Android中apk安装器,通过WebView来load进一个页面,Android通知,程序退出自动杀死进程,通过输入包名的方式杀死进程
- Oracle 分析函数的使用(主要是rollup用法)
- Oracle 分析函数的使用(主要是rollup用法)
- 通过getElementById来取得Form里的表单元素
- 求一个N位正整数,各位数字之和
- Win32汇编教程4-创建一个窗口
- Linux输入输出重定向以及管道
- innodb related options
- const 变量的链接性
- 最近一直在做页面的自动分析,主要是通过图像关联度来对form的表单进性分析以便后续的自动辨识,mather程序使用。
- 使用virtualbox的端口映射功能
- 疯狂的鸡蛋
- subst
- 简单高效防注入攻击的动态SQL语句拼接方法,提高网站的安全性
- 技术人员职业生涯的红色警报
- string.Format 用法一
- 元器件 - 继电器
- "三边六拍“项目