【原型】根据url将目标网页打包成mht
来源:互联网 发布:算法工程师笔试题目 编辑:程序博客网 时间:2024/06/04 22:08
其流程是这样的
1:根据URL获取目标网页HTML
2:剔除脚本
3:提取图片地址,仅处理http开头的地址
4:处理原HTML,把原来的img src内容替换掉,对给一个id标示,为后面的脚本服务
5:抓如图片,并处理成base64编码,组合成xmp文件头
6:组合HTML代码,保存成物理文件
这只是个原型,实际上要真正完整抓取,还要解析html中的css文件,js文件。
还有路径处理,我这里只处理了http开头的完整url,相对路径也是需要处理的。
本文的JS来源于下帖中的98楼:
http://topic.csdn.net/u/20100127/14/A961DF9A-34A1-44F1-9F9A-C10A4D168736.html
下面是原型函数:
- 【原型】根据url将目标网页打包成mht
- 根据url保存到本地mht格式
- 将网页保存为mht文件
- java 根据URL生成mht文件,空白页面解决方案
- 用C#将html网页保存为mht格式文件
- 使用java将网页保存为mht格式
- 使用java将网页保存为mht格式(转)
- 用java实现将网页保存为mht文件工具
- 用java将网页保存为mht格式
- JAVA 根据Url把多文件打包成ZIP下载
- 根据网页的URL获取网页信息
- phantomjs 根据url 将所对应的网页存为图片格式
- C#根据特定URL网址获取网页源码(完整html代码)后用正则式匹配得到目标串
- php将html倒成doc(mht)
- java 实现根据url,将url对应的网页存为一张完整的图片,不是截图,也就是图片是整个网页的内容
- java根据url生成网页截图,缩略图
- python根据url获取网页内容
- php根据URL获得网页内容
- memcached全面剖析–5. memcached的应用和兼容程序
- POST自动提交的方法
- 【分享】水晶报表版本探针
- 【分享】自定义水晶报表工具栏导出按钮事件WinForm & WebForm版
- 【分享】水晶报表在清单数据上实现前三名图表及组及深化功能示例(图文版)
- 【原型】根据url将目标网页打包成mht
- 【水晶报表实战】不同的子报表对应不同的页眉
- 设计模式 Design Parttern ——抽象工厂Abstract Factory
- q12w12
- winfrom打包详解
- 使用Eclipse 创建视图并实现视图间消息传递
- [转]全局变量、extern/static/const区别与联系
- 金山词霸im
- Sql语句(复习)