HTMLCleaner 的使用心得.
来源:互联网 发布:绵阳广电网络 编辑:程序博客网 时间:2024/06/03 19:12
做项目的时候,有时数据源从html来。那就要对html分析提取数据。好在java社区里有好有相关库来解析html,经使用比较:个人觉得 htmlcleaner 比 htmlparser 好用。htmlcleaner 的 xpath特好用。也可能我对htmlparser不熟悉。
htmlcleaner 下载地址:htmlcleaner2_1.jar 源码下载:htmlcleaner2_1-all.zip
写一个测试用的html文件:html-clean-demo.html
模拟需求:取出title,name="my_href" 的链接,div的class="d_1"下的所有li内容。下面用htmlcleaner写代码,HtmlCleanerDemo.java
cleaner.clean()中的参数,可以是文件,可以是url,可以是字符串内容。个人认为:比较常用的应该是evaluateXPath、 getElementsByAttValue、getElementsByName方法了。另外说明下,htmlcleaner 对不规范的html兼容性比较好。
- HTMLCleaner 的使用心得.
- htmlcleaner 使用示例
- htmlcleaner 使用示例.
- HtmlCleaner XPath API使用
- HtmlCleaner
- htmlcleaner xpath的一些tips
- htmlcleaner xpath的一些tips
- htmlcleaner使用及xpath语法初探
- htmlcleaner使用及xpath语法初探
- freemarker的使用心得,freemarker使用心得
- 异常的使用心得
- 使用JSP的心得
- Ndoc的使用心得
- Quartz的使用心得
- treeview 的使用心得
- TcxTreeList的使用心得。
- Cookies的使用心得
- pd11的使用心得
- asp.net控件开发基础系列
- iis方面的文章
- POJ 2386 Lake Counting 简单的DFS搜索
- Activity、 IEventActivity、 IActivityEventListener
- 电阻的精度和温漂
- HTMLCleaner 的使用心得.
- 在EVC上编译动态库时产生一个 .rel 文件
- 链表与基树(list and radix_tree)实例
- 需求基线管理
- 引用和非引用不能区分函数的重载
- WEB开发之路
- 博客神马的最无聊!
- Java socket
- SqlDataAdapter