利用Jsoup解析HTML
来源:互联网 发布:网络的使用界限 编辑:程序博客网 时间:2024/05/01 09:14
http://passover.blog.51cto.com/2431658/484673
最近又要做html内容抽取,这次打算尝试一下除了用正则表达式以外的其他方式。自然第一个想到的就是HtmlParser,结果找到了以后发现最近的更新还是在06年,汗!这个时候很意外的发现了Jsoup,试用了一下感觉相当清爽,推荐一下。
如果你很有兴趣,直接去官方网站看下说明文档,地址是http://jsoup.org/cookbook/。我这里给个小例子,目的是从下文中抽取出标题,大家可以看一下他的类jQuery语法。
- <div class="artHead">
- <div>
- <span class="artType01" style="margin-right: 5px;"><a href="javascript:void(0)">原创</a></span>
- <h3 class="artTitle"><a href="/2431658/483361">JAVA程序内存溢出问题的分析</a>
- <a href="http://blog.51cto.com/artcommend" target="_blank"><img src="http://blog.51cto.com/image/skin/34/indextj.gif" width="15" height="15" /></a>
- </h3>
- </div>
这个内容是从我博客首页上摘取的,所以直接打开这个页面进行抽取,测试代码如下:
- package jsoup;
- import java.io.IOException;
- import org.jsoup.Jsoup;
- import org.jsoup.nodes.Document;
- import org.jsoup.select.Elements;
- public class ParseTest {
- public static void main(String[] args) {
- try {
- Document doc = Jsoup.connect("http://passover.blog.51cto.com/").get();
- System.out.println(doc.title());
- Elements eles = doc.select("div.artHead");
- System.out.println(eles.first().select("h3[class=artTitle]"));
- } catch (IOException e) {
- e.printStackTrace();
- }
- }
- }
是不是特别简单?!如果网页结构化比较好的话,这么抽取真的非常方便,我试了下,效率也很不错。推荐给有相关需求的朋友,网页解析又多了一个选择,:-)
- 利用Jsoup解析HTML
- 利用jsoup解析html
- Android 利用jsoup解析 html
- Android 利用jsoup解析 html
- java利用JSOUP解析html
- Android 利用jsoup解析 html
- Android 利用jsoup解析 html
- 利用 jsoup 解析 html内容
- 利用Jsoup进行简单的HTML解析
- 利用jsoup 对 HTML 文档进行解析和操作
- 利用Jsoup解析html,如何得到<img>标签的位置
- Android利用Jsoup解析html 开发网站客户端小记。
- Android利用Jsoup解析html 开发网站客户端小记
- 利用Jsoup解析html 开发网站客户端小记。
- Android利用Jsoup解析html 开发网站客户端小记。
- Android利用Jsoup解析html 开发网站客户端小记。
- HTML解析器 jsoup
- HTML解析器 jsoup
- asm[dynamically produce a class and use it without writing it to disk]
- μC/OS-II 移植笔记 1(FreeScale 68HCS12 核单片机)
- SQL语句查漏总结
- Android网络编程之Http通信
- 301/302重定向,网址劫持
- 利用Jsoup解析HTML
- 微机基础知识
- C#命名规范
- Label 字体颜色
- μC/OS-II 移植笔记 2(FreeScale 68HCS12 核单片机)
- 连接器(Netlink Connector)及其应用
- Android开发系列十:使用Jsoup解析HTML页面
- RGB 和 YUV(包括nv12)理解
- java新学