我的第一篇博文

来源:互联网 发布:香樟木家具的危害知乎 编辑:程序博客网 时间:2024/04/24 09:03

今天申请了这个帐号,决定以后每周都来这里写文章,记录下自己今后一年的点点滴滴,请各位见证我的每一点进步。好吧,那就从这篇文章开始。

 

我现在本科大四,还在学校做毕设,题目是《基于视觉相似性的钓鱼网页检测技术研究》,参考文献主要是

Visual-similarity-based phishing detection成果形式是做成firefox的extension。

 

一、网页特征对比

算法大体是:提取两个网页的text、image、overall三部分的相关特征:

text:text-content、foreground-color、background-color、font-size、font-family、position。

image:img-src、area、color-histogram、haar-wavlet、position。

overall:histogram和haar-wavlet。

特征的对比算法

text-content、img-src:编辑距离

background-color、foreground-color、color-histogram、haar-wavlet:manhattan距离

font-size、area:归一化距离

font-family:0/1

position:欧式距离

得出的是一个M*N的相似矩阵,然后使用KM算法从相似矩阵中提取出M维的最佳匹配向量。

 

二、firefox的extension开发

关于firefox,我没用过,一直用世界之窗浏览器。当初决定做成插件形式,老师听后说:“做成浏览器插件,更方便页面信息的提取。”我考虑两种选择:IE的plug-in和firefox的extension。考虑了一下,firefox是开源的,我可以阅读到许多优秀的源代码,可以学习到许多东西,所以就选了后者。关于plug-in和extension,mozilla定义得有些模糊,原文是:

Extensions are different from plugins, which help the browser display specific content like playing multimedia files. Extensions are also different from search plugins, which plug additional search engines in the search bar.

 

开发环境是netbeans+foxbeansFoxbeans FAQs上说,foxbeans支持运行于和调试于功能,但我一直没能实现调试,出现问题就alert一下。开发语言是XULJavaScript。由于JS是一种动态类型的语言,处理网页中的特征时方便了许多。

 

三、现状

由于以前没接触过firefox extension的开发,这次难度无疑很大,再加上没有有经验的前辈指导,我只能靠mozilla文档Google了。资料是全英文的,看得头昏眼花,也走了很多弯路。不过虽然困难重重,但是还是天下无难事,只怕有心人。现在已经实现了基本功能。

原创粉丝点击