XML编程

来源：互联网发布：江民青蛙知乎编辑：程序博客网时间：2024/04/30 16:37

XML编程

XML及其语法
XML约束之DTD
XML编程(CRUD---Create Read Update Delete)
XML约束之Schema
XML语法：

XML文档的组成：
一个XML文件一般由以下几部分组成：
文档声明
元素
元素的属性
注释
CDATA区
特殊字符
处理指令(PI:Processing Instruction)

Ø 文档声明：想编写xml文件时，必须要写文档声明，并且要放在第一行。格式为：
<? xml version=”1.0” encoding=”utf-8” standalone="yes"?>
①　verson属性是来说明当前xml的版本号
②　encoding属性是来说明xml文件中的书写的数据的编码方式，默认是utf-8
③　standalone属性是说明当前的xml文件是否独立，不需要关联其他约束文件

Ø 元素：xml元素就是在xml文件中成对书写的标签。例:<person>人类</person>
①　如果标签内没有内容，可以简写成<person/>这就是一个空标签或者称作是空元素。
②　标签可以嵌套标签，但不能交叉嵌套。
③　Xml解析程序会对xml标签中的空格和换行进行解析的。
④　Xml文件中有且只有一个根标签

Ø 元素属性：
①　一个元素可以有多个属性，属性值用单引号或者双引号引用，格式：name = “刘德华”
②　一个元素的属性也可以用它的子元素标签表示。

Ø 元素和属性命名规范:一个XML元素可以包含字母、数字以及其它一些可见字符
①　区分大小写，例如，<P>和<p>是两个不同的标记。
②　Html不区分大小写
③　不能以数字开头。
④　不能以xml(或XML、或Xml 等)开头。
⑤　不能包含空格。
⑥　名称中间不能包含冒号（:）。
⑦　把握一个原则:全部用英文字母，实在不得已后面加点数字。
Ø xml文件中的注释：“” 格式，同时注释不能嵌套
Ø CDATA区：
对于不想被解析引擎解析数据，可以保持原样输出，使用CDATA元素，也称作CDATA区
语法格式:<![CDATA[数据内容]]>，与html的<pre></pre>标签的功能相似。
Ø 特殊字符：
特殊字符
替代字符
&
&
<
<
>
>
“
"
‘
'

XML Schema
XML Schema 也是一种用于定义和描述 XML 文档结构与内容的模式语言，其出现是为了克服 DTD 的局限性
XML Schema VS DTD：
XML Schema符合XML语法结构。
DOM、SAX等XML API很容易解析出XML Schema文档中的内容。
XML Schema对名称空间支持得非常好。
XML Schema比XML DTD支持更多的数据类型，并支持用户自定义新的数据类型。
XML Schema定义约束的能力非常强大，可以对XML实例文档作出细致的语义限制。
XML Schema不能像DTD一样定义实体，比DTD更复杂，但Xml Schema现在已是w3c组织的标准，它正逐步取代DTD。
XML Schema 文件自身就是一个XML文件，但它的扩展名通常为.xsd。
一个XML Schema文档通常称之为模式文档(约束文档)，遵循这个文档书写的xml文件称之为实例文档。
和XML文件一样，一个XML Schema文档也必须有一个根结点，但这个根结点的名称为schema。
编写了一个XML Schema约束文档后，通常需要把这个文件中声明的元素绑定到一个ＵＲＩ地址上，在XML Schema技术中有一个专业术语来描述这个过程，即把XML Schema文档声明的元素绑定到一个名称空间上，以后XML文件就可以通过这个URI（即名称空间）来告诉解析引擎，xml文档中编写的元素来自哪里，被谁约束。

XML编程(用Java编写解析器)
Java解析XML概述
ML解析方式分为两种：DOM方式和SAX方式
DOM：Document Object Model，文档对象模型。这种方式是W3C推荐的处理XML的一种方式。
SAX：Simple API for XML。这种方式不是官方标准，属于开源社区XML-DEV，几乎所有的XML解析器都支持它。
XML解析开发包
JAXP：是SUN公司推出的解析标准实现。
Dom4J：是开源组织推出的解析开发包。(牛，大家都在用，包括SUN公司的一些技术的实现都在用)
JDom：是开源组织推出的解析开发包。

调用 DocumentBuilderFactory.newInstance() 方法得到创建 DOM 解析器的工厂。
调用工厂对象的 newDocumentBuilder方法得到 DOM 解析器对象。
调用 DOM 解析器对象的 parse() 方法解析 XML 文档，得到代表整个文档的 Document 对象，进行可以利用DOM特性对整个XML文档进行操作了
DOM模型(document object model)
DOM解析器在解析XML文档时，会把文档中的所有元素，按照其出现的层次关系，解析成一个个Node对象(节点)。
在dom中，节点之间关系如下：
位于一个节点之上的节点是该节点的父节点(parent)
一个节点之下的节点是该节点的子节点（children）
同一层次，具有相同父节点的节点是兄弟节点（sibling）
一个节点的下一个层次的节点集合是节点后代(descendant)
父、祖父节点及所有位于节点上面的，都是节点的祖先(ancestor)

DOM解析编程
1、得到某个具体的节点内容
2、遍历所有元素节点
3、修改某个元素节点的主体内容
4、向指定元素节点中增加子元素节点
5、向指定元素节点上增加同级元素节点(父结点.insertBefore(new,old))
6、删除指定元素节点
7、操作XML文件属性

跟新XML文档：
javax.xml.transform包中的Transformer类用于把代表XML文件的Document对象转换为某种格式后进行输出，例如把xml文件应用样式表后转成一个html文档。利用这个对象，当然也可以把Document对象又重新写入到一个XML文件中。
Transformer类通过transform方法完成转换操作，该方法接收一个源和一个目的地。我们可以通过：
javax.xml.transform.dom.DOMSource类来关联要转换的document对象，
用javax.xml.transform.stream.StreamResult 对象来表示数据的目的地。
Transformer对象通过TransformerFactory获得。
SAX解析

SAX解析允许在读取文档的时候，即对文档进行处理，而不必等到整个文档装载完才会文档进行操作。
在使用 DOM 解析 XML 文档时，需要读取整个 XML 文档，在内存中构架代表整个 DOM 树的Doucment对象，从而再对XML文档进行操作。此种情况下，如果 XML 文档特别大，就会消耗计算机的大量内存，并且容易导致内存溢出。
SAX采用事件处理的方式解析XML文件，利用 SAX 解析 XML 文档，涉及两个部分：解析器和事件处理器：
解析器可以使用JAXP的API创建，创建出SAX解析器后，就可以指定解析器去解析某个XML文档。
解析器采用SAX方式在解析某个XML文档时，它只要解析到XML文档的一个组成部分，都会去调用事件处理器的一个方法，解析器在调用事件处理器的方法时，会把当前解析到的xml文件内容作为方法的参数传递给事件处理器。
事件处理器由程序员编写，程序员通过事件处理器中方法的参数，就可以很轻松地得到sax解析器解析到的数据，从而可以决定如何对数据进行处理。

使用SAXParserFactory创建SAX解析工厂
SAXParserFactory spf = SAXParserFactory.newInstance();

通过SAX解析工厂得到解析器对象
SAXParser sp = spf.newSAXParser();

通过解析器对象得到一个XML的读取器
XMLReader xmlReader = sp.getXMLReader();

设置读取器的事件处理器
xmlReader.setContentHandler(new BookParserHandler());

解析xml文件
xmlReader.parse("book.xml");

Dom4j解析XML
Dom4j是一个简单、灵活的开放源代码的库。Dom4j是由早期开发JDOM的人分离出来而后独立开发的。与JDOM不同的是，dom4j使用接口和抽象基类，虽然Dom4j的API相对要复杂一些，但它提供了比JDOM更好的灵活性。
Dom4j是一个非常优秀的Java XML API，具有性能优异、功能强大和极易使用的特点。现在很多软件采用的Dom4j，例如Hibernate，包括sun公司自己的JAXM也用了Dom4j。
使用Dom4j开发，需下载dom4j相应的jar文件。
Document对象
DOM4j中，获得Document对象的方式有三种：
1.读取XML文件,获得document对象
  SAXReader reader = new SAXReader();       Document   document = reader.read(new File("input.xml"));
2.解析XML形式的文本,得到document对象.
String text = "<members></members>";        Document document = DocumentHelper.parseText(text);
3.主动创建document对象.
     Document document = DocumentHelper.createDocument();             //创建根节点
     Element root = document.addElement("members");

结点对象：
1.获取文档的根节点.
      Element root = document.getRootElement();
2.取得某个节点的子节点.
Element element=node.element(“书名");
3.取得节点的文字
      String text=node.getText();
4.取得某节点下所有名为“member”的子节点，并进行遍历.
List nodes = rootElm.elements("member");
   for (Iterator it = nodes.iterator(); it.hasNext();)
{
Element elm = (Element) it.next();
  // do something
}
5.对某节点下的所有子节点进行遍历.
   for(Iterator it=root.elementIterator();it.hasNext();)
{
    Element element = (Element) it.next();
  // do something
}
6.在某节点下添加子节点. Element ageElm = newMemberElm.addElement("age");
7.设置节点文字. element.setText("29");
8.删除某节点. //childElm是待删除的节点,parentElm是其父节点
    parentElm.remove(childElm);
9.添加一个CDATA节点. Element contentElm = infoElm.addElement("content"); contentElm.addCDATA(diary.getContent());
dom4j解析
Ø Dom4j是一个非常优秀的Java XML API，具有性能优异、功能强大和极易使用的特点。
Ø 现在很多软件采用的Dom4j,例如Hibernate，包括sun公司自己的JAXM也用了Dom4j。
Ø 查看 api 文档完成对 xml 的增删改查
dom4j常用的一些方法：
查找元素：
可通过Xpath进行查找
1.获取指定名称的所有元素集合
List list = document.selectNodes( "//书名" )
2.获取指定元素属性值的节点
Node node = document.selectSingleNode( "//书名[@出版社=’黑马训练营’]" );
通过一般方法查找
1.通过指定名称获取第一个子元素
Element element = element.element(“书”);
2.获取元素的所有子元素集合
List<Element> list = element.elements();

获取元素的相关内容
获取元素的内容//
String text = node.getText();
获取第一个子元素的内容
String text = node.elementText(“name”)
修改元素内容
node.setText(“name”);

获取属性的属性值
通过Xpath获取属性值
String name = node.valueOf( "@name" );
通过一般方法获取属性值
String name = node.attributeValue(“name”);
修改属性值
node.addAttribute(“name”,”name”)

增加元素，设置属性，设置子元素
node.addElement(“书”).addAtribute(“书名”,”JavaWeb开发”)
     .addElement(“作者”).setText(“张孝祥”)

删除元素
node.getParent().remove(node)

0 0