Chrome插件开发学习——开发进阶

来源:互联网 发布:纠正跑调的软件 编辑:程序博客网 时间:2024/05/22 06:43
一、应用场景描述?
最近在做爬虫,想要对爬到的网页进行分析!最要做两块分析:
第一:链接分析 链接分析主要是如下流程
step1:分析是否从某个页面中提取链接(列表页需要提取链接,内容页不需要提取)
step2:提取某个范围内的链接(比如说正文链接 此时需要匹配模板 比如是否循环匹配)
step3:过滤某些链接 因为模板不可能做到过滤出的东西完全符合我们的需求,所以还需要经过一定的删选
比如:链接中必须包含某些关键词(目前这里是 AND 的关系,还可以保证先后顺序),必须不包含某些关键词

第二:内容分析 内容分析主要是如下流程
step1:分析是否从某个页面提取内容(内容页)
step2:分析提取哪个范围内的链接
step3:进一步规范目标信息(规范无非就是对提取的东西进行正则,截断 所以一定要保证截断的东西是一样的)

二、选择什么样的技术
我们需要制作模板,就要捕捉页面上的一些提取规则,由于同一个网站结构的相似程度高,所以有能力将一个网站上面的的规则用到其他同结构的网站(以后是否可以做到自学习式的模板规则提取?)
我们可以直接拿来网页源代码,写我们的模板,但是这对用户来说太难了,所以我们如果能够做到只要用户点击一下用户想要的信息就可以得到所以的规则,那岂不是完美

什么可以捕捉用户在页面上的操作呢?用世界上使用最广泛的语言 javascript
那么可不可以把别人的页面放在自己的子 Frame中(注意是网上的页面,不是自己写的),要是可以这么容易那就人人都是黑客了。想想吧!

那用什么可以在别人的页面中注入js呢?
目前我知道有几条路径可以选:
1、用vc的webbrowser控件可以注入js代码,操作别人的页面(你要黑别人就可以让别人装你一个软件就行了)
2、用java的浏览器控件也可以,没试过,准备尝试的同时被chrome插件给打动了
3、用chrome插件(用户一定要装chrome浏览器)
为什么选择用 Chrome 做插件处理?
不用多说什么,而且开发插件用到的技术都是现成的

0 0
原创粉丝点击