DOM和SAX比较和选择(.net)---3

来源:互联网 发布:淘宝开充话费 编辑:程序博客网 时间:2024/06/11 14:42

DOM和SAX比较和选择

当解析一个XML时我们有很多选择方案,如SAX、DOM、JDOM、JAXP、数据绑定等等,必须根据实际情况来选择一个或几个。在此仅谈论SAX和DOM,可以从以上四点考虑,选择合适的解析器。

1.SAX提供的模型不允许对XML文件随机存取如:当前解析到第3个Element,此时程序无法得到第5个Element的信息,因为还没有解析到第5个Element;同样也无法得到第1个Element的信息,因为已经丢失了。当然可以通过声明变量保存解析过的数据,但这如同手动在内存中构造了某种数据结构,一般都是树型结构,这相当麻烦且没有必要,因为DOM恰恰提供了这样一个内存中的模型。2.SAX模型中元素之间的横向移动困难SAX提供的是层次型的解析,便利所有第1个Element的子节点(一直到叶子节点)后,才可能开始解析下一个兄弟Element。而且很难知道某一时刻,解析到了哪个层次节点了。DOM则可以很好的解决这个问题,可以方便的找到任何兄弟节点。3.SAX是熊瞎子劈苞米SAX是解析一个节点后回调一个方法,把该节点相关信息传送个调用者,然后丢弃这些信息,继续解析下一个节点。正是这样一个机制,使得SAX占用内存很少,它不会预存储整个XML文档,也不会在解析后保存任何解析结果。而DOM则正好相反,把整个XML加载进内存中,即使是延迟加载策略,也会浪费额外的性能为代价。所以当XML非常庞大的时候,还是需要首选SAX。4.SAX的修改XML能力差尽管SAX2.0提供了XMLWriter,但是大量的修改XML,还是不建议采用它来完成。XMLWriter更适合记录解析过程的日志。而DOM则具有强大的修改模型的能力,进而保存更新后的XML。

下面分别详细介绍DOM和SAX:

XML的DOM解析器
DOM(Document ObjectModel)是W3C指定的,它不是专门为Java或其他语言而制定的,所以有些地方不大符合Java的风格,如使用NodeList和NameNodeMap而没有使用Java的集合框架类。DOM把XML在内存中生成一个树结构,了解其结构也就基本了解了DOM。基本结构的主要接口为:Node<-Document    <-DocumentType    <-Element    <-Entity    <- CharacterData <-Comment                     <- Text <-CDATA所有接口都是扩展Node的,也就是说树中的任何东西都是Node,所以Node是很重要的接口。通过Node的getNodeType()和getNodeValue()分别可以得到节点的类型和节点的值。节点类型有:   Node.DOCUMENT_NODE   Node.ELEMENT_NODE   Node.TEXT_NODE   Node.CDATA_SECTION_NODE   Node.PROCESSING_INSTRUCTION_NODE   Node.ENTITY_REFERENCE_NODE   Node.DOCUMENT_TYPE_NODE可以通过以下方式判断switch(node.getNodeType()){   caseNode.Document_NODE:   //...    caseNode.ELEMENT_NODE:   //...} 开始解析:URI xmlUri=new URI("xml file address");DOMParser parser= new DOMParser();parser.parse(xmlUri);Document doc =parser.getDocument();不同的解析器的构造方式不同,有的解析器会直接返回Document对象,如下:Documentdoc = parser.parse(xmlUri);Element rootElement =doc.getDocumentElement();NodeListchildrenNodes=rootElement.getChildNodes();依次类推就可以遍历所有节点,分别处理每个节点即可。值得注意的是文本也是一个节点Text,但是属性则不是一个节点,可以通过Elemenet.getAttributes()获得。其他的也没什么了,参考一下DOM的JavaDoc就OK了。 ------值得注意的细节------1.性能与内存   DOM解析器会把所有的XML文档全部加载到内存中,如果XML文件非常庞大,那么这样的解析器会耗尽内存,导致内存益处异常;当前,很多解析器已经采用了延迟加载设计模式(类似于Hibernate的lazy策略),即只有当具体用刀某个节点数据的时候再去加载该节点,不用的就不加载,这种策略节省了内存的浪费,但是对性能有一定影响。这是有得必有失,需要根据实际情况而定采用什么策略。2.Node的属性   因为所有节点都是继承Node的,所以任何节点都可以调用getNodeType(),getNodeValue(),getNodeName()之类的方法,但是并不是这些方法对任何节点都有效,比如说对于Element来说,getNodeValue()就无效,因为Element下的文本是Text类表示的,而不是一个String。3.SAXException当使用DOM解析器时,如果出现了SAXException,不用惊讶。

XML的SAX解析器
SAX解析器是通过回调的方式来执行XML的解析工作的。对于基本的解析操作还是比较简单的,就是实现SAX2.0定义的四个核心接口,并注册进解析器即可。具体的操作都在四个接口中的回调方法中。所谓回调,我理解它与.Net中的事件类似。这四个核心接口是为:org.xml.sax.ContentHanderorg.xml.sax.ErrorHandlerorg.xml.sax.DTDHandlerorg.xml.sax.EntityResolver对应的注册进解析器的方法分别是parser.setContentHandler(ContentHanderhandler)parser.setErrorHandler(ErrorHandlerhandler)parser.setDTDHandler(DTDHandlerhandler)parser.setEntityResolver(EntityResolver handler)分别看一下这几个核心接口中的回调方法:1.ContentHandler//除setDocumentLocator()外,其他回调方法均抛出SAXException。publicinterfaceContentHandler{   public void setDocumentLocator(Locatorlocator);   public voidstartDocument();   public voidendDocument();   public void startPrefixMapping(String prefix, Stringuri);    publicvoid endPrefexMapping(Stringprefix);   public void startElement(StringnamespaceURI,              String localName, String qName, Attributeatts);    publicvoid endElement(StringnamespaceURI,              String localName, StringqName);   public void characters(char ch[], int start, intlength);   public void ignorableWhitespace(charch[],              int start, intlength);   public void processingInstruction(String target,Stringdata);    pubilcvoid skippedEntity(String name);} 2.ErrorHandlerpublic interfaceErrorHandler{   public void warning(SAXParseException ex) throwSAXException;   public void error(SAXParseException ex) throwSAXException;   public void fatalError(SAXParseException ex) throwSAXException;} 3.DTDHandler基本用不上,不做详细讨论了。public interfaceDTDHandler{   public void notationDecl(String name, StringpublicID,                     String systemID) throwSAXException;   pulic void unparserdEntityDecl(String name, StringpublicID,                     String systemID, StringnotationName)                     throw SAXException} 4.EntityResolver用于解析实体的,只有一个回调方法。public interfaceEntityResolver{   public InputSource resolveEntity(StringpublicID,                    String systemID) throwSAXException} 解析编码例子:StringparserClass ="org.apache.xerces.parsers.SAXParser";//如果采用的不是Xerces解析器,只需要更改“parserClass”的值即可。XMLReaderreader=XMLReaderFactory.createXMLReader(parserClass);//注册ContentHandlerreader.setContentHander(newContentHandlerImpl());//注册ErrorHandlerreader.setErrorHandler(newErrorHandlerImpl());//注册DTDHandler //注册EntityResolver //开始解析XMLURIxmlURI = new URI("xml file address");InputSource src = newInputSource(xmlURI);reader.parser(src); ---------几个需要注意的地方---------1.解析器不支持SAX2.0怎么办?采用ParserAdapter辅助类来使SAX1.0解析器像SAX2.0那样工作,唯一缺憾就是不能报告那些被忽略的实体,对大多数应用来说这也不所谓。StringparserClass = "org.apache.xerces.parsers.SAXParser";Parserparser=ParserFactory.makeParser(parserClass);ParserAdptermyParser=new ParserAdpter(parser);myParser.setContentHandler(newContentHandlerImpl());myParser.setErrorHandler(newErrorHanlderImpl());myParser.parser(xmlUri); 2.XMLReader不能同时解析多个XML一旦XMLReader开始解析一个XML,在解析过程中如果试图再使用阅读器,就会得到SAXException,如果需要同时解析多个XML,只能顺序一个一个解析。或者声明多个XMLReader实例。 3.characters()中的注意publicvoid characters(char[] ch, int start, intlength){    //容易出现Bug的使用方法    for(int i=0; i
#Xml
原创粉丝点击