【原型】根据url将目标网页打包成mht

来源:互联网 发布:算法工程师笔试题目 编辑:程序博客网 时间:2024/06/04 22:08

其流程是这样的

1:根据URL获取目标网页HTML
2:剔除脚本
3:提取图片地址,仅处理http开头的地址
4:处理原HTML,把原来的img src内容替换掉,对给一个id标示,为后面的脚本服务
5:抓如图片,并处理成base64编码,组合成xmp文件头
6:组合HTML代码,保存成物理文件


这只是个原型,实际上要真正完整抓取,还要解析html中的css文件,js文件。
还有路径处理,我这里只处理了http开头的完整url,相对路径也是需要处理的。


本文的JS来源于下帖中的98楼:
http://topic.csdn.net/u/20100127/14/A961DF9A-34A1-44F1-9F9A-C10A4D168736.html

下面是原型函数: