HTML 网页解析技术的一些资料
来源:互联网 发布:英雄连2网络 编辑:程序博客网 时间:2024/05/18 16:38
现在做 Code Manager .SWT 的过程中不可避免的遇到了需要抓存网页以及网页内嵌的一些资源的问题.
现在MHT 生成已经不成问题, 但是如何探测源文件编码以及把 MHT 解压缩(导出)为可以浏览的 HTML 文件(含图片等)是个大问题,以及用户可视化编辑页面后重新保存为 MHT 的问题. Java 的 MHT 处理技术目前是有一家美国公司在卖, 还好我也实现了,正在考虑完善后和他们竞争.
探测编码可以用:
1) 检测 HTTP 头的 Content Type 中的编码;
2) 检测正文中的 Content Type 中的编码.
解析 HTML 可以用两种方案:
1)转换成 XHTML, 然后用 JDOM 转换成 DOM 树, 这种解析方式比较传统, 但是容错性上还没有做过检测, 这种方式的优点就是用DOM 的方式便于成块的处理 HTML 以及存储.JSPWiki.org 的 HTML 转 Wiki 标签即用的此项技术.
2) 用 http://htmlparser.sourceforge.net/ 的开源纯 Java HTML Parser 来分析, 但是反向存储(由修改后的模型再写回HTML)还没有研究如何使用.
一些资料: http://www.blogjava.net/lostfire/archive/2006/07/02/56212.html
http://scud.blog.javascud.org/post/192.htm
- HTML 网页解析技术的一些资料
- 一些RPC技术的资料
- 学习一些网页布局方面的资料
- 一些好玩的简单网页技术
- Jsoup 解析Html网页
- android 解析html网页
- golang解析html网页
- Jsoup解析html的一些使用技巧
- java的反射技术功能十分强大,整理一些资料!!
- java的反射技术功能十分强大,整理一些资料!!
- java的反射技术功能十分强大,整理一些资料!!
- java的反射技术功能十分强大,整理一些资料!!
- tcpipsockestinjava的网页资料
- webView加载指定的网页 加载解析的HTML
- 网页设计中Html使用的一些问题
- html 与xhtml制作网页的一些不同
- 值得收藏的一些网页代码(ASP,JS,HTML)
- HTML Meta,网页头的一些重要知识哦
- cxgrid
- CISCO路由器设置的连接
- 海量数据性能优化措施问题
- Ubuntu 下一任CEO需要关注9个重点
- Google 评价 blog 的指标
- HTML 网页解析技术的一些资料
- 自旋锁和信号量 介绍
- 思科交换机配置命令大全
- FLEX no.3
- xcvxgbf
- 如何调用symbian系统第五版上的拨号界面
- Java为什么要开源?
- OPENDATASOURCE 打开excel、access、qsl
- CISCO路由器配置手册