关于jsoup解析http文档

来源:互联网 发布:as3 转 js 编辑:程序博客网 时间:2024/06/03 18:17
1.第一次用jsoup,是用来解析一个关于新闻的网页,但是这个网页比较简单,,所以对于jsoup的了解不是很清楚。2.在写Android程序时,有时需要解析HTML页面,特别是那类通过爬网站抓取数据的应用,比如:天气预报等应用。如果是桌面应用可以使用htmlparser这个强大的工具,但是在Android平台上使用会出现错误;另一种办法是使用正则表达式来抽取数据;再有一个办法是纯字符串查找定位来实现。文本将要介绍的是使用Jsoup这个开源的解析器来实现。Jsoup既可以通过一个url网址,也可以通过存储html脚本的文件或者是存储html脚本的字符串作为数据源,然后通过DOM、CSS选择器来查找、抽取数据。3.作为解析的数据来源,有三种,第一中,通过url,第二,解析本地文件,第三,直接给一个html的字符传。注意:很多情况下,html的格式是不完整的。而且,还有很多标签都不知道是什么意思。没有关闭的标签 (比如:

Lorem

Ipsum parses to

Lorem

Ipsum

)隐式标签 (比如. 它可以自动将 Table data包装成?)创建可靠的文档结构(html标签包含head 和 body,在head只出现恰当的元素)//url网址作为输入源Document doc = Jsoup.connect("http://www.example.com").timeout(60000).get();//File文件作为输入源File input = new File("/tmp/input.html");Document doc = Jsoup.parse(input, "UTF-8", "http://www.example.com/");//String作为输入源Document doc = Jsoup.parse(htmlStr);和java script类似,Jsoup提供了下列的函数getElementById(String id) 通过id获得元素getElementsByTag(String tag) 通过标签获得元素getElementsByClass(String className) 通过class获得元素getElementsByAttribute(String key) 通过属性获得元素同时还提供下面的方法提供获取兄弟节点:siblingElements(), firstElementSibling(), lastElementSibling();nextElementSibling(), previousElementSibling()用下面方法获得元素的数据: attr(String key) 获得元素的数据attr(String key, String value) 设置元素数据attributes() 获得所有属性id(), className() classNames() 得到id class的值text()得到文本值text(String value) 设置文本值html() 获取html html(String value)设置htmlouterHtml() 获得内部htmldata()获得数据内容tag() 得到tag 和 tagName() 得到tagname、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、、 File input = new File("D:\test.html"); Document doc = Jsoup.parse(input,"UTF-8","http://www.oschina.net/"); Elements links = doc.select("a[href]"); // 具有 href 属性的链接 Elements pngs = doc.select("img[src$=.png]");// 所有引用 png 图片的元素 Element masthead = doc.select("div.masthead").first(); // 找出定义了 class=masthead 的元素 Elements resultLinks = doc.select("h3.r > a"); // direct a after h3Elements这个对象提供了一系列类似于DOM的方法来查找元素,抽取并处理其中的数据。具体如下: 查找元素 getElementById(String id) getElementsByTag(String tag) getElementsByClass(String className) getElementsByAttribute(String key) (and related methods) Element siblings: siblingElements(), firstElementSibling(), lastElementSibling(); nextElementSibling(), previousElementSibling() Graph: parent(), children(), child(int index) 元素数据 attr(String key)获取属性attr(String key, String value)设置属性 attributes()获取所有属性 id(), className() and classNames() text()获取文本内容text(String value) 设置文本内容 html()获取元素内HTMLhtml(String value)设置元素内的HTML内容 outerHtml()获取元素外HTML内容 data()获取数据内容(例如:script和style标签) tag() and tagName() 操作HTML和文本 append(String html), prepend(String html) appendText(String text), prependText(String text) appendElement(String tagName), prependElement(String tagName) html(String value) 使用选择器语法来查找元素问题你想使用类似于CSS或jQuery的语法来查找和操作元素。方法可以使用Element.select(String selector) 和 Elements.select(String selector) 方法实现:File input = new File("/tmp/input.html");Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");Elements links = doc.select("a[href]"); //带有href属性的a元素Elements pngs = doc.select("img[src$=.png]"); //扩展名为.png的图片Element masthead = doc.select("div.masthead").first(); //class等于masthead的div标签Elements resultLinks = doc.select("h3.r > a"); //在h3元素之后的a元素说明jsoup elements对象支持类似于CSS (或jquery)的选择器语法,来实现非常强大和灵活的查找功能。.这个select 方法在Document, Element,或Elements对象中都可以使用。且是上下文相关的,因此可实现指定元素的过滤,或者链式选择访问。Select方法将返回一个Elements集合,并提供一组方法来抽取和处理结果。Selector选择器概述tagname: 通过标签查找元素,比如:ans|tag: 通过标签在命名空间查找元素,比如:可以用 fb|name 语法来查找 元素#id: 通过ID查找元素,比如:#logo.class: 通过class名称查找元素,比如:.masthead[attribute]: 利用属性查找元素,比如:[href][^attr]: 利用属性名前缀来查找元素,比如:可以用[^data-] 来查找带有HTML5 Dataset属性的元素[attr=value]: 利用属性值来查找元素,比如:[width=500][attr^=value], [attr$=value], [attr*=value]: 利用匹配属性值开头、结尾或包含属性值来查找元素,比如:[href*=/path/][attr~=regex]: 利用属性值匹配正则表达式来查找元素,比如: img[src~=(?i)\.(png|jpe?g)]*: 这个符号将匹配所有元素Selector选择器组合使用el#id: 元素+ID,比如: div#logoel.class: 元素+class,比如: div.mastheadel[attr]: 元素+class,比如: a[href]任意组合,比如:a[href].highlightancestor child: 查找某个元素下子元素,比如:可以用.body p 查找在"body"元素下的所有 p元素parent > child: 查找某个父元素下的直接子元素,比如:可以用div.content > p 查找 p 元素,也可以用body > * 查找body标签下所有直接子元素siblingA + siblingB: 查找在A元素之前第一个同级元素B,比如:div.head + divsiblingA ~ siblingX: 查找A元素之前的同级X元素,比如:h1 ~ pel, el, el:多个选择器组合,查找匹配任一选择器的唯一元素,例如:div.masthead, div.logo伪选择器selectors:lt(n): 查找哪些元素的同级索引值(它的位置在DOM树中是相对于它的父节点)小于n,比如:td:lt(3) 表示小于三列的元素:gt(n):查找哪些元素的同级索引值大于n,比如: div p:gt(2)表示哪些div中有包含2个以上的p元素:eq(n): 查找哪些元素的同级索引值与n相等,比如:form input:eq(1)表示包含一个input标签的Form元素:has(seletor): 查找匹配选择器包含元素的元素,比如:div:has(p)表示哪些div包含了p元素:not(selector): 查找与选择器不匹配的元素,比如: div:not(.logo) 表示不包含 class=logo 元素的所有 div 列表:contains(text): 查找包含给定文本的元素,搜索不区分大不写,比如: p:contains(jsoup):containsOwn(text): 查找直接包含给定文本的元素:matches(regex): 查找哪些元素的文本匹配指定的正则表达式,比如:div:matches((?i)login):matchesOwn(regex): 查找自身包含文本匹配指定正则表达式的元素注意:上述伪选择器索引是从0开始的,也就是说第一个元素索引值为0,第二个元素index为1等可以查看Selector API参考来了解更详细的内容修改数据在解析文档的同时,我们可能会需要对文档中的某些元素进行修改,例如我们可以为文档中的所有图片增加可点击链接、修改链接地址或者是修改文本等。下面是一些简单的例子:清单 4. doc.select("div.comments a").attr("rel", "nofollow"); // 为所有链接增加 rel=nofollow 属性 doc.select("div.comments a").addClass("mylinkclass"); // 为所有链接增加 class=mylinkclass 属性 doc.select("img").removeAttr("onclick"); // 删除所有图片的 onclick 属性 doc.select("input[type=text]").val(""); // 清空所有文本输入框中的文本道理很简单,你只需要利用 jsoup 的选择器找出元素,然后就可以通过以上的方法来进行修改,除了无法修改标签名外(可以删除后再插入新的元素),包括元素的属性和文本都可以修改。修改完直接调用 Element(s) 的 html() 方法就可以获取修改完的 HTML 文档。
0 0
原创粉丝点击