关于SAX,DOM,PULL,DOM4J解析XML文件的优劣势浅显分析
来源:互联网 发布:trusty ubuntu 编辑:程序博客网 时间:2024/05/10 07:26
关于SAX,DOM,PULL,DOM4J解析XML文件的优劣势浅显分析
1.SAX简介
SAX处理的优点非常类似于流媒体的优点。分析能够立即开始,而不是等待所有的数据被处理。而且,由于应用程序只是在读取数据时检查数据,因此不需要将数据存储在内存中。这对于大型文档来说是个巨大的优点。事实上,应用程序甚至不必解析整个文档;它可以在某个条件得到满足时停止解析。一般来说,SAX还比它的替代者DOM快许多。
选择DOM还是选择SAX? 对于需要自己编写代码来处理XML文档的开发人员来说, 选择DOM还是SAX解析模型是一个非常重要的设计决策。 DOM采用建立树形结构的方式访问XML文档,而SAX采用的事件模型。
DOM解析器把XML文档转化为一个包含其内容的树,并可以对树进行遍历。用DOM解析模型的优点是编程容易,开发人员只需要调用建树的指令,然后利用navigation APIs访问所需的树节点来完成任务。可以很容易的添加和修改树中的元素。然而由于使用DOM解析器的时候需要处理整个XML文档,所以对性能和内存的要求比较高,尤其是遇到很大的XML文件的时候。由于它的遍历能力,DOM解析器常用于XML文档需要频繁的改变的服务中。
SAX解析器采用了基于事件的模型,它在解析XML文档的时候可以触发一系列的事件,当发现给定的tag的时候,它可以激活一个回调方法,告诉该方法制定的标签已经找到。SAX对内存的要求通常会比较低,因为它让开发人员自己来决定所要处理的tag.特别是当开发人员只需要处理文档中所包含的部分数据时,SAX这种扩展能力得到了更好的体现。但用SAX解析器的时候编码工作会比较困难,而且很难同时访问同一个文档中的多处不同数据。
1.1 SAX语法
SAX是一个解析速度快并且占用内存少的xml解析器,非常适合用于Android等移动设备。 SAX解析XML文件采用的是事件驱动,也就是说,它并不需要解析完整个文档,在按内容顺序解析文档的过程中,SAX会判断当前读到的字符是否合法XML语法中的某部分,如果符合就会触发事件。所谓事件,其实就是一些回调(callback)方法,这些方法(事件)定义在ContentHandler接口。下面是一些ContentHandler接口常用的方法:
startDocument()
当遇到文档的开头的时候,调用这个方法,可以在其中做一些预处理的工作。
endDocument()
和上面的方法相对应,当文档结束的时候,调用这个方法,可以在其中做一些善后的工作。
startElement(String namespaceURI, String localName, String qName, Attributes atts)
当读到一个开始标签的时候,会触发这个方法。namespaceURI就是命名空间,localName是不带命名空间前缀的标签名,qName是带命名空间前缀的标签名。通过atts可以得到所有的属性名和相应的值。要注意的是SAX中一个重要的特点就是它的流式处理,当遇到一个标签的时候,它并不会纪录下以前所碰到的标签,也就是说,在startElement()方法中,所有你所知道的信息,就是标签的名字和属性,至于标签的嵌套结构,上层标签的名字,是否有子元属等等其它与结构相关的信息,都是不得而知的,都需要你的程序来完成。这使得SAX在编程处理上没有DOM来得那么方便。
endElement(String uri, String localName, String name)
这个方法和上面的方法相对应,在遇到结束标签的时候,调用这个方法。
characters(char[] ch, int start, int length)
这个方法用来处理在XML文件中读到的内容,第一个参数为文件的字符串内容,后面两个参数是读到的字符串在这个数组中的起始位置和长度,使用new String(ch,start,length)就可以获取内容。
只要为SAX提供实现ContentHandler接口的类,那么该类就可以得到通知事件(实际上就是SAX调用了该类中的回调方法)。因为ContentHandler是一个接口,在使用的时候可能会有些不方便,因此,SAX还为其制定了一个Helper类:DefaultHandler,它实现了ContentHandler接口,但是其所有的方法体都为空,在实现的时候,你只需要继承这个类,然后重写相应的方法即可。
1.2 SAX解析XMl的例子
文件名称:itcast.xml
<?xml version="1.0" encoding="UTF-8"?>
<persons>
<person id="23">
<name>zhangsan</name>
<age>30</age>
</person>
<person id="20">
<name>lisi</name>
<age>25</age>
</person>
</persons>
在该XML文档中有2种节点:element节点和text节点
使用SAX解析itcast.xml的代码如下:
public static List<Person> readXML(InputStream inStream) {
try {
SAXParserFactory spf = SAXParserFactory.newInstance();
SAXParser saxParser = spf.newSAXParser(); //创建解析器
//设置解析器的相关特性,http://xml.org/sax/features/namespaces = true 表示开启命名空间特性
//saxParser.setProperty("http://xml.org/sax/features/namespaces",true);
XMLContentHandler handler = new XMLContentHandler();
saxParser.parse(inStream, handler);
inStream.close();
return handler.getPersons();
} catch (Exception e) {
e.printStackTrace();
}
return null;
}
注:SAX 支持已内置到JDK1.5中,你无需添加任何的jar文件。
XMLContentHandler的实现如下:
import java.util.List;
import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;
import cn.itcast.xml.domain.Person;
public class XMLContentHandler extends DefaultHandler {
private List<Person> persons = null;
private Person currentPerson;
private String tagName = null;//当前解析的元素标签
public List<Person> getPersons() {
return persons;
}
/*
* 接收文档的开始的通知。
*/
@Override public void startDocument() throws SAXException {
persons = new ArrayList<Person>();
}
/*
* 接收字符数据的通知。
*/
@Override public void characters(char[] ch, int start, int length) throws SAXException {
if(tagName!=null){
String data = new String(ch, start, length);
if(tagName.equals("name")){
this.currentPerson.setName(data);
}else if(tagName.equals("age")){
this.currentPerson.setAge(Short.parseShort(data));
}
}
}
/*
* 接收元素开始的通知。
* 参数意义如下:
* namespaceURI:元素的命名空间
* localName :元素的本地名称(不带前缀)
* qName :元素的限定名(带前缀)
* atts :元素的属性集合
*/
@Override public void startElement(String namespaceURI, String localName, String qName, Attributes atts) throws SAXException {
if(qName.equals("person")){
currentPerson = new Person();
currentPerson.setId(Integer.parseInt(atts.getValue("id")));
}
this.tagName = qName;
}
/*
* 接收文档的结尾的通知。
* 参数意义如下:
* uri :元素的命名空间
* localName :元素的本地名称(不带前缀)
* qName :元素的限定名(带前缀)
*
*/
@Override
public void endElement(String uri, String localName, String qName) throws SAXException {
if(qName.equals("person")){
persons.add(currentPerson);
currentPerson = null;
}
this.tagName = null;
}
}
完整代码如下:
/**
* 采用SAX技术读取XML文件
* @param xml
* @return
* @throws Exception
*/
public List<Person> getPersons(InputStream xml) throws Exception {
SAXParserFactory saxParserFactory = SAXParserFactory.newInstance();
SAXParser saxParser = saxParserFactory.newSAXParser();
PersonParser personParser = new PersonParser();
saxParser.parse(xml, personParser);
xml.close();
return personParser.getPersons();
}
private final class PersonParser extends DefaultHandler {
private List<Person> persons = null;
public List<Person> getPersons() {
return persons;
}
private String tag = null;
private Person person = null;
public void startDocument() throws SAXException {
persons = new ArrayList<Person>();
}
//元素开始事件
public void startElement(String uri, String localName, String qName,
Attributes attributes) throws SAXException {
if ("person".equals(qName)){
person = new Person();
person.setId(Integer.parseInt(attributes.getValue(0)));
}
tag = qName;
}
//元素结束事件
public void endElement(String uri, String localName, String qName)
throws SAXException {
if ("person".equals(qName)) {
persons.add(person);
person = null;
}
tag = null;
}
//获取text节点的事件
public void characters(char[] ch, int start, int length)
throws SAXException {
if (tag != null){
//将该字符数组中的值存放到字符串变量中
String data = new String(ch,start,length);
//该节点的上一个节点的名字
if ("name".equals(tag)){
person.setName(data);
}else if ("age".equals(tag)){
person.setAge(Integer.parseInt(data));
}
}
}
}
2. DOM简介
除了使用 SAX可以解析XML文件,大家也可以使用熟悉的DOM来解析XML文件。 DOM解析XML文件时,会将XML文件的所有内容以文档树方式存放在内存中,然后允许您使用DOM API遍历XML树、检索所需的数据。使用DOM操作XML的代码看起来是比较直观的,并且在编码方面比基于SAX的实现更加简单。但是,因为DOM需要将XML文件的所有内容以文档树方式存放在内存中,所以内存的消耗比较大,特别对于运行Android的移动设备来说,因为设备的资源比较宝贵,所以建议还是采用SAX来解析XML文件,当然,如果XML文件的内容比较小采用DOM也是可行的。
2.1 DOM解析XML的例子
/**
* 采用DOM读取XML文件
* @param xml
* @return
* @throws Exception
*/
public List<Person> getPersons(InputStream xml) throws Exception {
List<Person> persons = new ArrayList<Person>();
//获取文档创建者工厂的实例
DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
//文档创建者实例
DocumentBuilder documentBuilder = dbf.newDocumentBuilder();
//利用文档创建者将xml文件中的内容解析成Document对象保存起来
Document document = documentBuilder.parse(xml);
//遍历每个person节点
for(int i=0; i<personNodes.getLength(); i++){
Person person = new Person();
//获取第i个person节点
Element personElement = (Element)personNodes.item(i);
person.setId(Integer.parseInt(personElement.getAttribute("id")));
//获取当前person节点的子节点的集合(5个)
NodeList personChilds = personElement.getChildNodes();
//遍历每个子节点
for(int v=0; v<personChilds.getLength(); v++){
//判断当前person节点的第i个子节点的类型是否为元素节点
if (personChilds.item(v).getNodeType() == Node.ELEMENT_NODE){
//获取person元素的第i个子节点
Node node = (Node) personChilds.item(v);
Element personChild = (Element)node;
//获取该元素的名字
String nodeName = personChild.getNodeName();
if ("name".equals(nodeName)){
//获取name元素的第一个子节点的值(text节点的值)
person.setName(personChild.getFirstChild().getNodeValue());
}else if ("age".equals(nodeName)){
person.setAge
(Integer.parseInt(personChild.getFirstChild().getNodeValue()));
}
}
}
persons.add(person);
}
return persons;
}
}
3.Pull解析器简介
除了可以使用 SAX和DOM解析XML文件,大家也可以使用Android内置的Pull解析器解析XML文件。 Pull解析器的运行方式与 SAX 解析器相似。它提供了类似的事件,如:开始元素和结束元素事件,使用parser.next()可以进入下一个元素并触发相应事件。事件将作为数值代码被发送,因此可以使用一个switch对感兴趣的事件进行处理。当元素开始解析时,调用parser.nextText()方法可以获取下一个Text类型节点的值。
3.1使用Pull解析器读取XML文件
/**
* 使用Pull解析器读取XML文件
* @param xml
* @return
* @throws Exception
*/
@SuppressWarnings("static-access")
public static List<Person> getPersons(InputStream xml) throws Exception {
List<Person> persons = null;
Person person = null;
XmlPullParser pullParser = Xml.newPullParser();
pullParser.setInput(xml, "UTF-8");
//产生第一个事件
int event = pullParser.getEventType();
//只要不是文档结束事件
while (event != pullParser.END_DOCUMENT) {
switch (event) {
//文档开始事件,可以进行数据初始化处理
case XmlPullParser.START_DOCUMENT:
persons = new ArrayList<Person>();
break;
//开始元素事件
case XmlPullParser.START_TAG:
if ("person".equals(pullParser.getName())) {
//获取当前解析器指向的节点的属性值
int id = Integer.parseInt(pullParser.getAttributeValue(0));
person = new Person(0, null, 0);
person.setId(id);
}
if ("name".equals(pullParser.getName())) {
//当前解析器指向的下一个节点的值
String name = pullParser.nextText();
person.setName(name);
}
if ("age".equals(pullParser.getName())) {
int age = Integer.parseInt(pullParser.nextText());
person.setAge(age);
}
break;
//触发结束元素事件时,什么都不做
case XmlPullParser.END_TAG:
//如果当前解析器指向 的节点的名字为person,则表示一个person节点结束
if ("person".equals(pullParser.getName())) {
persons.add(person);
person = null;
}
break;
}
//让当前的解析器进入到一下个元素,并触发相应的事件
event = pullParser.next();
}
return persons;
}
3.2使用Pull解析器生成XML文件
/**
* 使用Pull解析器生成XML文件
* @param persons
* @param os
* @throws Exception
*/
public static void save(List<Person> persons, OutputStream os)
throws Exception {
XmlSerializer xmlSerializer = Xml.newSerializer();
xmlSerializer.setOutput(os, "UTF-8");
//文档开始
xmlSerializer.startDocument("UTF-8", true);
//persons节点开始
xmlSerializer.startTag(null, "persons");
//循环生成每一个person节点内容
for (Person person : persons) {
//person节点开始
xmlSerializer.startTag(null, "person");
xmlSerializer.attribute(null, "id", person.getId().toString());
//name子节点开始
xmlSerializer.startTag(null, "name");
xmlSerializer.text(person.getName());
xmlSerializer.endTag(null, "name");
xmlSerializer.startTag(null, "age");
xmlSerializer.text(person.getAge().toString());
xmlSerializer.endTag(null, "age");
xmlSerializer.endTag(null, "person");
}
//persons节点结束
xmlSerializer.endTag(null, "persons");
//文档结束
xmlSerializer.endDocument();
os.flush();
os.close();
}
4. DOM4J 简介
虽然DOM4J代表了完全独立的开发结果,但最初,它是JDOM的一种智能分支。它合并了许多超出基本XML文档表示的功能,包括集成的XPath支持、XML Schema支持以及用于大文档或流化文档的基于事件的处理。它还提供了构建文档表示的选项,它通过DOM4J API和标准DOM接口具有并行访问功能。从2000下半年开始,它就一直处于开发之中。
为支持所有这些功能,DOM4J使用接口和抽象基本类方法。DOM4J大量使用了API中的Collections类,但是在许多情况下,它还提供一些替代方法以允许更好的性能或更直接的编码方法。直接好处是,虽然DOM4J付出了更复杂的API的代价,但是它提供了比JDOM大得多的灵活性。
在添加灵活性、XPath集成和对大文档处理的目标时,DOM4J的目标与JDOM是一样的:针对Java开发者的易用性和直观操作。它还致力于成为比JDOM更完整的解决方案,实现在本质上处理所有Java/XML问题的目标。在完成该目标时,它比JDOM更少强调防止不正确的应用程序行为。
DOM4J是一个非常非常优秀的Java XML API,具有性能优异、功能强大和极端易用使用的特点,同时它也是一个开放源代码的软件。如今你可以看到越来越多的Java软件都在使用DOM4J来读写XML,特别值得一提的是连Sun的JAXM也在用DOM4J.
4.1DOM4J代码
SAXReader reader = new SAXReader(); //
Document document = reader.read(inStream);
Element root = document.getRootElement();
for (Iterator i = root.elementIterator("person"); i.hasNext();) {
Element element = (Element) i.next(); // 获取每个person元素
System.out.println("id=" + element.attributeValue("id"));
System.out.println("name=" + element.elementText("name"));
System.out.println("age=" + element.elementText("age"));
}
String xpath = "//persons/person";
List<Node> nodes = document.selectNodes(xpath);
for (Node n : nodes) {
System.out.println(((Element)n).attributeValue("id"));
System.out.println("name=" + ((Element)n).elementText("name"));
System.out.println("age=" + ((Element)n).elementText("age"));
}
注:需要dom4j-1.6.1.jar 和 jaxen-1.1-beta-6.jar
5. SAX、DOM、pull和DOM4J
u DOM4J性能最好,连Sun的JAXM也在用DOM4J.目前许多开源项目中大量采用DOM4J,例如大名鼎鼎的Hibernate也用DOM4J来读取XML配置文件。如果不考虑可移植性,那就采用DOM4J.
u DOM在性能测试时表现不佳,在测试10M文档时内存溢出。在小文档情况下还值得考虑使用DOM。另外,DOM仍是一个非常好的选择。DOM实现广泛应用于多种编程语言。它还是许多其它与XML相关的标准的基础,因为它正式获得W3C推荐(与基于非标准的Java模型相对),所以在某些类型的项目中可能也需要它(如在JavaScript中使用DOM)。
u SAX表现较好,这要依赖于它特定的解析方式-事件驱动。一个SAX检测即将到来的XML流,但并没有载入到内存(当然当XML流被读入时,会有部分文档暂时隐藏在内存中)。
- 关于SAX,DOM,PULL,DOM4J解析XML文件的优劣势浅显分析
- XML各种解析方式对比 DOM SAX PULL DOM4J 解析器优劣对比
- 解析XML(SAX、DOM、PULL、dom4j)
- java中解析xml文件的五种常见方法:DOM4J,dom,pull,SAX,Jdom
- 关于XML的SAX解析与DOM解析优劣性
- Android xml文件解析 SAX,DOM,PULL
- Dom、Sax、Pull解析xml文件
- XML文件解析汇总SAX/DOM/PULL
- XML文件解析——Dom、Pull、Sax的区别
- 关于Android XML文件的解析方式DOM,SAX,Pull的具体实现。
- DOM、SAX、JDOM、DOM4J以及PULL在XML文件解析中的工作原理以及优缺点对比
- 解析xml文件的三种方式(sax ,dom ,dom4j)
- Dom sax pull解析xml的差异
- xml的解析DOM,SAX,DOM4J
- sax、dom、pull解析xml
- SAX、DOM、PULL解析XML
- Dom Sax Pull解析xml
- sax、dom、pull解析xml
- Excel中使用公式产生的错误消息
- 2013年阿里巴巴一道笔试题(大文件处理)
- ZOJ 3939 The Lucky Week 找规律打表
- rails提供跳转js的ajax实例分析特殊情况
- 互联网金融综述
- 关于SAX,DOM,PULL,DOM4J解析XML文件的优劣势浅显分析
- LintCode: Paint House II
- poj_3207_Ikki's Story IV - Panda's Trick(2-sat+Kosaraju)
- poj3264 树状数组找最大值问题
- Ubuntu 14.04 LTS下安装 LNMP环境
- 干货一:通过自定义PopupWindow实现QQ菜单选项功能
- CSDN-markdown编辑器使用说明
- NSFontAttributeString 富文本对象的属性
- linux下删除指定crontab定时任务