Jsoup解析文件

来源：互联网发布：理科生禅师对话知乎编辑：程序博客网时间：2024/05/19 13:42

Jsoup解析文件
- JSoup库是什么
- 使用DOM方法来遍历一个文档
- Demo

Jsoup解析文件

JSoup库是什么

Jsoup是一个开源的Java库，它可以用于处理实际应用中的HTML。它提供了非常便利的API来进行数据的提取及修改，充分利用了DOM，CSS以及jquery风格方法的长处。Jsoup实现了WAHTWG HTML5的规范，它从HTML解析出来的DOM和Chrome以及Firefox这样的现代浏览器解析出来的完全一致。下面是Jsoup库的一些有用的特性：

Jsoup可以从URL，文件，或者字符串中获取并解析HTML。
Jsoup可以查找并提取数据，可以使用DOM遍历或者CSS选择器。
你可以使用Jsoup来修改HTML元素，属性以及文本。
Jsoup通过一个安全的白名单确保了用户提交的内容是干净的，以防止XSS攻击。
Jsoup还能输出整洁的HTML。

Jsoup下载网址

使用前需要将jsoup的jar包build path到项目中。jsoup可以从包括字符串、URL地址、以及本地文件来加载HTML文档，并生成Document对象实例。三种解析方式如下：
1. 解析HTML格式的字符串

Document doc = Jsoup.parse(“html格式的字符串”);
1. 解析URL指向的页面
Document doc = Jsoup.connect(url).get();
1. 解析本地HTML文档
File input = new File(“D:/test.html”);
Document doc = Jsoup.parse(input,”UTF-8”,”http://www.csdn.net/“);

login.html

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">     <html>     <head>     <meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">     <title>Login Page</title>     </head>     <body>     <div id="login" class="simple" >     <form action="login.do">     Username : <input id="username" type="text" /><br>     Password : <input id="password" type="password" /><br>     <input id="submit" type="submit" />     <input id="reset" type="reset" />     </form>     </div>     </body>     </html>

利兹

public class HTMLParser {    public static void main(String args[]){        /**         * 直接解析了一个内容为HTML的字符串         * */        String HTMLSTring = "<!DOCTYPE html>"                + "<html>"                + "<head>"                + "<title>JSoup Example</title>"                + "</head>"                + "<body>"                + "<table><tr><td><h1>Hello world</h1></tr>"                + "</table>"                + "</body>"                + "</html>";        Document html = Jsoup.parse(HTMLSTring);        String title = html.title();        String h1 = html.body().getElementsByTag("h1").text();        System.out.println("Input HTML String to Jsoup:" + HTMLSTring);        System.out.println("Title :" + title);        System.out.println("Heading :" + h1);        /**         * 解析了一个从URL中下载的HTML文件，第三个中我们从本地文件系统中加载了一个HTML文档并进行解析         * */        Document htmlFile = null;        try {            htmlFile = Jsoup.parse(new File("login.html"), "ISO-8859-1");        } catch (Exception e) {            e.printStackTrace();        }        title = htmlFile.title();        Element div =htmlFile.getElementById("login");        String cssClass = div.className();        System.out.println("Jsoup can also parse HTML file directly");        System.out.println("title : " + title);        System.out.println("class of div tag : " + cssClass);        /**         * 解析了一个从URL中下载的HTML文件         * */        Document doc;        try {            doc = Jsoup.connect("http://www.csdn.net/").get();            title = doc.title();        } catch (Exception e) {            e.printStackTrace();                }        System.out.println("Jsoup Can read HTML page from URL, title : " + title);                  }}

使用DOM方法来遍历一个文档

将HTML解析成一个Document之后，就可以使用类似于DOM的方法进行操作。示例代码：

File input = new File("/tmp/input.html");Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");Element content = doc.getElementById("content");Elements links = content.getElementsByTag("a");for (Element link : links) {  String linkHref = link.attr("href");  String linkText = link.text();}

说明
Elements这个对象提供了一系列类似于DOM的方法来查找元素，抽取并处理其中的数据。具体如下：

查找元素
- getElementById(String id)
- getElementsByTag(String tag)
- getElementsByClass(String className)
- getElementsByAttribute(String key) (and related methods)
- Element siblings: siblingElements(), firstElementSibling(), lastElementSibling(); nextElementSibling(), previousElementSibling()
- Graph: parent(), children(), child(int index)
元素数据
- attr(String key)获取属性attr(String key, String value)设置属性
- attributes()获取所有属性
id(), className() and classNames()
- text()获取文本内容text(String value) 设置文本内容
- html()获取元素内HTMLhtml(String value)设置元素内的HTML内容
- outerHtml()获取元素外HTML内容
- data()获取数据内容（例如：script和style标签)
- tag() and tagName()
操作HTML和文本
- append(String html), prepend(String html)
- appendText(String text), prependText(String text)
- appendElement(String tagName), prependElement(String tagName)
- html(String value)

Demo

解析果壳网的网站

public class JsoupDemo {    public static void main(String[] args) {        String url = "http://www.guokr.com/scientific/channel/visual/";        try {            Document doc = Jsoup.connect(url).get();            Element masthead = doc.select("div.article-list").first();            Elements titleElements = masthead.select("div.article h3 a");               Elements dateElements = masthead.select("div.article div.article-info");            Elements imgElements = masthead.select("div.article a img");            Elements disElements = masthead.select("div.article p");            int count = titleElements.size();            for (int i = 0; i < count; i++) {                Element titleElement = titleElements.get(i);                Element dateElement = dateElements.get(i);                Element imgElement = imgElements.get(i);                Element disElement = disElements.get(i);                int location = dateElement.text().indexOf("|");                System.out.println("title :" + titleElement.text());                System.out.println("date :" + dateElement.text().substring(location + 1,dateElement.text().length() - 9));                System.out.println("img :" + imgElement.attr("src"));                System.out.println("summary :" + disElement.text());            }        } catch (IOException e) {            // TODO Auto-generated catch block            e.printStackTrace();        }    }}

title :【科学美图】夜空之美 PK 对抗光害·2016年获奖作品
date :2016-06-14
img :http://3.im.guokr.com/tIjJ8_Vv9HVTFKsVMv3PXzagyyB3XbAfQNTkXOq1KoxKAQAAugAAAEpQ.jpg
summary :一年一度的“地球与天空”国际摄影大赛近日公布结果，获奖的10幅绝美天文风光作品中，有3幅出自中国摄影师之手，快来欣赏！

https://github.com/lxxself/getGank
http://www.jianshu.com/p/4fc8e18cc0e2

Elements这个对象提供了一系列类似于DOM的方法来查找元素，抽取并处理其中的数据。具体如下：

http://www.jcodecraeer.com/a/anzhuokaifa/androidkaifa/2014/1226/2218.html
查找元素，select用法
Jsoup官方文档
使用JSoup解析HTML文件
解析和遍历一个HTML文档
Android网络爬虫程序（基于Jsoup）
抓取csdn上的各类别的文章（制作csdn app 二）

0 0