HTMLParser使用详解(2)- Node内容

来源:互联网 发布:淘宝联盟免单在哪里看 编辑:程序博客网 时间:2024/05/20 15:39
HTMLParser将解析过的信息留存为一个树的结构。Node是信息留存的数据类型基础。请看Node的界说:public interface Node extends Cloneable;Node中包括的要领有几类:对付树型结构进行遍历的函数,这些函数最轻易理解:Node getParent ():取得父节点NodeList getChildren ():取得子节点的列表Node getFirstChild ():取得第一个子节点Node getLastChild ():取得最后一个子节点Node getPreviousSibling ():取得前一个兄弟(欠好意思,英文是兄弟姐妹,直译太麻烦并且不相符习惯,抱歉女同胞了)Node getNextSibling ():取得下一个兄弟节点取得Node内容的函数:String getText ():取得文本String toPlainTextString():取得纯文本信息。String toHtml () :取得HTML信息(原始HTML)String toHtml (boolean verbatim):取得HTML信息(原始HTML)String toString ():取得字符串信息(原始HTML)Page getPage ():取得这个Node对应的Page东西int getStartPosition ():取得这个Node在HTML页面中的起始位置int getEndPosition ():取得这个Node在HTML页面中的结束位置用于Filter过滤的函数:void collectInto (NodeList list, NodeFilter filter):基于filter的条件对付这个节点进行过滤,相符条件的节点放到list中。用于Visitor遍历的函数:void accept (NodeVisitor visitor):对这个Node应用visitor用于修改内容的函数,这类用得比较少:void setPage (Page page):设置这个Node对应的Page东西void setText (String text):设置文本void setChildren (NodeList children):设置子节点列表其他函数:void doSemanticAction ():执行这个Node对应的操纵(只有少数Tag有对应的操纵)Object clone ():接口Clone的抽象函数。实际我们用HTMLParser最多的是处理HTML页面,Filter或Visitor相关的函数是务必的,然后第一类和第二类函数是用得最多的。第一类函数比较轻易理解,下面用例子说明一下第二类函数。下面是用于测试的HTML文件:白泽居-www.baizeju.com< /head>
白泽居-www.baizeju.com白泽居-www.baizeju.com
白泽居-www.baizeju.com
测试源代码:/*** @author www.baizeju.com*/package com.baizeju.htmlparsertester;import java.io.BufferedReader;import java.io.InputStreamReader;import java.io.FileInputStream;import java.io.File;import java.net.HttpURLConnection;import java.net.URL;import org.htmlparser.Node;import org.htmlparser.util.NodeIterator;import org.htmlparser.Parser;/*** @author www.baizeju.com*/public class Main {private static String ENCODE = "GBK";private static void message( String szMsg ) {try{ System.out.println(new String(szMsg.getBytes(ENCODE), System.getProperty("file.encoding"))); } catch(Exception e ){}}public static String openFile( String szFileName ) {try {BufferedReader bis = new BufferedReader(new InputStreamReader(new FileInputStream( new File(szFileName)), ENCODE) );String szContent="";String szTemp;while ( (szTemp = bis.readLine()) != null) {szContent+=szTemp+"/n";}bis.close();return szContent;}catch( Exception e ) {return "";}}public static void main(String[] args) {try{Parser parser = new Parser( (HttpURLConnection) (new URL("http://127.0.0.1:8080/HTMLParserTester.html")).openConnection() );for (NodeIterator i = parser.elements (); i.hasMoreNodes(); ) {Node node = i.nextNode();message("getText:"+node.getText());message("getPlainText:"+node.toPlainTextString());message("toHtml:"+node.toHtml());message("toHtml(true):"+node.toHtml(true));message("toHtml(false):"+node.toHtml(false));message("toString:"+node.toString());message("=================================================");} }catch( Exception e ) { System.out.println( "Exception:"+e );}}}输出结果:getText:!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"getPlainText:toHtml:toHtml(true):toHtml(false):toString:Doctype Tag : !DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd; begins at : 0; ends at : 121=================================================getText:getPlainText:toHtml:toHtml(true):toHtml(false):toString:Txt (121[0,121],123[1,0]): /n=================================================getText:headgetPlainText:白泽居-www.baizeju.comtoHtml:白泽居-www.baizeju.com< /head>toHtml(true):白泽居-www.baizeju.com< /head>toHtml(false):白泽居-www.baizeju.com< /head>toString:HEAD: Tag (123[1,0],129[1,6]): headTag (129[1,6],197[1,74]): meta http-equiv="Content-Type" content="text/html; ...Tag (197[1,74],204[1,81]): titleTxt (204[1,81],223[1,100]): 白泽居-www.baizeju.comEnd (223[1,100],231[1,108]): /titleEnd (231[1,108],238[1,115]): /head=================================================getText:getPlainText:toHtml:toHtml(true):toHtml(false):toString:Txt (238[1,115],240[2,0]): /n=================================================getText:html xmlns="http://www.w3.org/1999/xhtml"getPlainText:白泽居-www.baizeju.com白泽居-www.baizeju.com白泽居-www.baizeju.comtoHtml:
白泽居-www.baizeju.com白泽居-www.baizeju.com
白泽居-www.baizeju.com
toHtml(true):
白泽居-www.baizeju.com白泽居-www.baizeju.com
白泽居-www.baizeju.com
toHtml(false):
白泽居-www.baizeju.com白泽居-www.baizeju.com
白泽居-www.baizeju.com
toString:Tag (240[2,0],283[2,43]): html xmlns="http://www.w3.org/1999/xhtml"Txt (283[2,43],285[3,0]): /nTag (285[3,0],292[3,7]): body Txt (292[3,7],294[4,0]): /nTag (294[4,0],313[4,19]): div id="top_main"Txt (313[4,19],316[5,1]): /n/tTag (316[5,1],336[5,21]): div id="logoindex"Txt (336[5,21],340[6,2]): /n/t/tRem (340[6,2],351[6,13]): 这是注释Txt (351[6,13],376[8,0]): /n/t/t白泽居-www.baizeju.com/nTag (376[8,0],409[8,33]): a href="http://www.baizeju.com"Txt (409[8,33],428[8,52]): 白泽居-www.baizeju.comEnd (428[8,52],432[8,56]): /aTxt (432[8,56],435[9,1]): /n/tEnd (435[9,1],441[9,7]): /divTxt (441[9,7],465[11,0]): /n/t白泽居-www.baizeju.com/nEnd (465[11,0],471[11,6]): /divTxt (471[11,6],473[12,0]): /nEnd (473[12,0],480[12,7]): /bodyTxt (480[12,7],482[13,0]): /nEnd (482[13,0],489[13,7]): /html=================================================对付第一个Node的内容,对应的就是第一行,这个比较好理解。从这个输出结果中,也可以看出内容的树状结构。或者说是树林结构。在Page内容的第一层Tag,如DOCTYPE,head和html,分别形成了一个最高层的Node节点(很多人可能对第二个和第四个Node的内容有点希罕。实际上这两个Node就是两个换行标记。HTMLParser把HTML页面内容中的所有换行,空格,Tab等都转换成了相应的Tag,所以就出现了这样的Node。虽然内容少但是级别高,呵呵)getPlainTextString是把用户可以看到的内容都包括了。有趣的有两点,一是标签中的Title内容是在 plainText中的,可能在标题中可见的也算可见吧。另外就是象前面说的,HTML内容中的换行符什么的,也都成了plainText,这个逻辑上似乎有点问题。另外可能大众发觉toHtml,toHtml(true)和toHtml(false)的结果没什么区别。实际也是这样的,假如跟踪HTMLParser 的源代码就可以发觉,Node的子类是AbstractNode,其中实现了toHtml()的源代码,直接挪用toHtml(false),而 AbstractNode的三个子类RemarkNode,TagNode和TextNode中,toHtml(boolean verbatim)的实现中,都没有处理verbatim参数,所以三个函数的结果是一模一样的。假如你不需要实现你自己的什么特别处理,简单使用 toHtml就可以了。HTML的Node类继续关系如下图(这个是从另外文章Copy的): AbstractNodes是Node的直接子类,也是一个抽象类。它的三个直接子类实现是RemarkNode,用于留存注释。在输出结果的 toString局部中可以看到有一个"Rem (345[6,2],356[6,13]): 这是注释",就是一个RemarkNode。TextNode也很简单,就是用户可见的文字信息。TagNode是最纷乱的,包括了HTML语言中的所有标签,并且可以扩展(扩展 HTMLParser 对自界说标签的处理能力)。TagNode包括两类,一类是简单的Tag,实际就是不克包括其他Tag的标签,只能做叶子节点。另一类是 CompositeTag,就是可以包括其他Tag,是分支节点
原创粉丝点击