XML——基础(入门介绍)

来源:互联网 发布:知我无情有情歌词 编辑:程序博客网 时间:2024/05/17 21:47

XML是什么?

  • XML (Extensible Markup Language,可扩展标记语言),它与HTML一样,都是SGML (Standard
    Generalized Markup Language,标准通用标记语言)。

  • XML是Internet环境中跨平台的,依赖于内容的技术,是当前处理结构化文档信息的有力工具。

  • 扩展标记语言XML是一种简单的数据存储语言,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立,虽然XML占用的空间比二进制数据要占用更多的空间,但XML极其简单易于掌握和使用

HTML和XML比较

比较内容 HTML XML 可扩展性 不具有扩展性 是元标记语言,可用于定义新的标记语言 侧重点 侧重于如何表现信息 侧重于如何结构化地描述信息 语法要求 不要求标记的嵌套、配对等,不要求标记之间具有一定的顺序 严格要求嵌套、配对,并遵循DTD的树状结构 可读性及可维护性 难于阅读和维护 结构清晰,便于阅读和维护 数据和显示的关系 内容描述与显示方式整合为一体 内容描述与显示方式相分离 保值性 不具有保值性 具有保值性 编辑及浏览工具 已有大量的编辑、浏览工具 编辑、浏览工具尚不成熟 结构描述 不支持深层的结构描述 文件结构嵌套可以复杂到任何程度 与数据库的关系 没有直接联系 与关系型和层状数据库均可对应和转换 超文本链接 单文件、书签链接 可以定义双向链接、多目标链接、扩展链接 大小写敏感性 不区分大小写 区分大小写

XML语法的基本点

XML要遵循W3C推荐规则规定的XML语法,这些语法的基本点有:
XML文档只能包含一个根元素。XML文档的根元素是包含所有被视为文档本身内容的单个元素。根元素是在文档的序言码部分后出现的第一个元素,它也称为文档元素。
所有XML元素必须包含结束标记。尽管结束标记对于某些HTML文档元素为可选标记,但是XML文档中的所有元素都必须具有结束标记。
元素的开始标记和结束标记的名称必须相同。XML区分大小写,因此结束标记名称必须与其伴随的开始标记名称完全匹配。
XML元素不能重叠。如果一个元素的开始标记出现在另一个元素中,则该元素的结束标记也必须包含在其中。
所有属性值都必须使用引号。属性值必须用单引号或双引号括起来。
在XML文档的文本中不能使用“<”、“>”、“&”3个字符,这些都是对于XML分析程序具有特定含义的特殊字符。如果需要在XML文档的文本中使用这些字符,则应使用预定义的字符或实体引用。


XML文档的结构

XML文档包含7个主要部分:序言码、处理指令、根元素、元素、属性、CDATA节和注释。XML 文档也可以不包含注释,有时也可以没有属性。这里仅对XML文档的各部分做简要说明,第3章将做详细介绍。
1. 序言码
序言码是XML文档的第一部分。序言码包含XML声明(表明该文档是XML文档)、处理指令(提供XML分析程序用于确定如何处理文档的信息)和架构声明(确定用于验证文档是否有效的XML架构)。以下是XML文档中序言码的示例:
<?xml version=”1.0” encoding=”gb2312”?>
2. 处理指令
处理指令是用来给处理XML文档的应用程序提供信息的,XML分析器把这些信息原封不动地传给应用程序,由应用程序来解释这个指令,遵照它所提供的信息进行处理。处理指令应该遵循下面的格式:
<处理指令名 处理指令信息?>
如:
<?xml-stylesheet type=”text/xsl” href=”book.xsl”?>
3. 根元素
根元素是XML文档的主要部分,它包含文档的数据以及描述数据结构的信息。以下是XML文档中根元素部分的示例。

<books xmlns:xsi=”http://www.w3.org/2001/XMLSchema-instance”>

</books>

根元素中的信息存储在两种类型的XML结构中:元素和属性。XML文档中使用的所有元素和属性都嵌套在根元素中。
4. 元素
元素是XML文档的基本构成单元,它用于表示XML文档的结构和XML文档中包含的数据。元素包含开始标记、内容和结束标记。由于XML区分大小写,所以,开始标记和结束标记必须完全匹配。以下是描述书籍信息的示例,publish元素下有3个有关出版社的子元素。

<bookinfo>
<title>计算机导论</title>
<author>丁跃潮等</author>
<publish>
<publisher>高等教育出版社</publisher>
<ISBN>7-04-014768-8</ISBN>
<pubdate>2004.6</pubdate>
</publish>
<price>19.7</price>
</bookinfo>

元素可以包含文本、其他元素、字符引用或字符数据部分。没有内容的元素称为空元素。空元素的开始标记和结束标记可以合并为一个标记,例如:

<sale/>

5.属性
属性是使用与特定元素关联的对应“名称—值”的XML构造。其中包含的有关元素内容的信息并非总是用于显示,而是用于描述元素的某种属性。使用等号分隔属性名称和属性值,并且包含在元素的开始标记中。属性值包含在单引号或双引号中。以下是与book元素关联的bookcategory等4个属性的示例。

<books>
<book id=”018” bookcategory=”计算机” amount=”560” remain=”200” discount=”8.2”>
</book>
</books>

6.CDATA
在标记CDATA下,所有的标识、实体引用都被忽略,而被XML处理程序一视同仁地作为字符数据看待。CDATA的形式如下。

<![CDATA[ 文本内容 ]] >

CDATA的文本内容中不能出现字符串“]]>”,另外,CDATA不能嵌套。
7. 注释
XML文档可以包含注释,也可以没有这项内容。注释并不由XML分析程序进行处理,但用于在文档的XML源代码中提供必要的说明。注释以“<!–”开始,并以“–>”结束。在这些字符之间的文本会被XML分析程序忽略。以下是XML文档中注释的示例。

<!– 这个文件是网上书店中关于书的描述文档 –>
<document>
</books>

</books>
</document>

0 0
原创粉丝点击