python语言解析xml文件的常用的有两种方式

来源:互联网 发布:unity3d插件 编辑:程序博客网 时间:2024/05/21 10:45

MiniDom方式解析xml

 xml文件以data.xml为例,具体操作如下:

data.xml:

<?xml version="1.0" encoding="utf-8"?><info>   <intro>保存用户的信息</intro>    <list id='001'>        <head>auto_userone</head>        <name>Jordy</name>        <number>12345678</number>        <age>20</age>        <sex>男</sex>        <hobby>上网</hobby>    </list>   <list id='002'>        <head>auto_usertwo</head>        <name>功夫</name>         <number>34443678</number>         <age>18</age>         <sex>男</sex>         <hobby>功夫</hobby>               </list></info>

 1.  得到DOM对象

    DOM是Document Object Model的简称,它是以对象树来表示一个XML。

     import xml.dom.minidom

     #得到dom对象

     dom = xml.dom.minidom.parse("data.xml")

2.  得到文档元素对象

#得到文档元素对象

root = dom.documentElement  #这里得到的是根节点info

#打印根节点的 名字       节点的值      节点类型

print root.nodeName,root.nodeValue,root.nodeType

节点的属性:

每一个节点都有它的nodeName,nodeValue,nodeType属性。nodeName为节点名字。

nodeValue是节点的值,只对文本节点有效。nodeType是节点的类型,现在有以下几种:

‘ATTRIBUTE_NODE’‘CDATA_SECTION_NODE’‘COMMENT_NODE’‘DOCUMENT_FRAGMENT_NODE’‘DOCUMENT_NODE’‘DOCUMENT_TYPE_NODE’‘ELEMENT_NODE’‘ENTITY_NODE’‘ENTITY_REFERENCE_NODE’‘NOTATION_NODE’‘PROCESSING_INSTRUCTION_NODE’‘TEXT_NODE’

3.子元素、子节点的访问

对于已经知道元素名字的子元素,可以通过使用getElementsByTagName()方法访问,例:

root.getElementsByTagName("intro") #读取intro子元素

返回的结果是一个列表。

如果要得到某元素下的所有子节点,可以使用childNodes属性:

root.childNodes

getElementsByTagName()可以搜索当前元素的所有子元素,包括所有层次的子元素。childNodes只保存了当前元素的第一层子结点。

比如:我们想要得到intro元素下的值“保存用户的信息”,实现如下代码:

node = root.getElementsByTagName("intro")[0]

for node in node.childNodes:

    if node.nodeType in ( node.TEXT_NODE, node.CDATA_SECTION_NODE):

        print node.data

这种方式在获取元素的文本时,需要先判断才行,所以使用起来感觉不是太方便。

 

ElementTree库解析xml文件

ElementTree属于python标准库的一部分,ElementTree的parse()方法是这个库的主要入口,它使用文件名或流对象作为参数,parse()方法会立即解析完整个文档,它返回的对象是整个文档的对象,而不是根元素,如果要获取根元素,可以调用getroot()方法。

使用上述的data.xml文档,通过ElementTree库解析的代码:

import xml.etree.ElementTree as ET#读取xml文件def load_xml_file(fileName):    root = ET.parse(fileName).getroot()        #获取文件描述    intro = root.find('intro').text    print intro        #获取所有list节点    all_users = root.findall('list')    #遍历list节点的子元素    for user in all_users:        #得到head节点的文本        head = user.find('head').text        #得到name节点的文本        name = user.find('name').text        #得到sex节点的文本        sex = user.find('sex').text        print head,name,sex        if __name__ == '__main__':          load_xml_file('data.xml')

通过这种方式解析xml文件比起使用minidom库解析xml文件的,操作要方便的多。


使用libxml2解析xml

libxml2是使用C语言开发的xml解析器,是一个基于MIT License的免费开源软件,多种编程语言都有基于它的实现,如本文将会介绍的lxml模块。实例“get_xpath_1”如下:

mport libxml2
def get_xpath_1():
doc = libxml2.parseFile("data.xml")#data.xml文件结构与上述的input_xml_string相同
for node in doc.xpathEval("//item/data[@version = '1.0']"):
print (node, node.name, (node.properties.name, node.properties.content))
doc.freeDoc()
程序运行结果如下:

(<xmlNode (data) object at 0x9326c6c>, 'data', ('version', '1.0'))  

观察上面的运行结果,能够满足我们的需求,有点小不足“xpathEval()”接口不支持类似模板的用法,但不影响使用,由于libxml2采用C语言开发的,因此在使用API接口的方式上难免会有点“水土不服”(写法或习惯性用法)

使用lxml解析xml

lxml是以上述介绍过的libxml2为基础采用python语言开发的,从使用层面上说比libxml2更适合python开发者(鄙人感受),且"xpath"接口支持类似模板的用法,实例“get_xpath_2”如下:

import lxml.etree  def get_xpath_2():     doc = lxml.etree.parse(file)     for node in doc.xpath("//item/data[@version = $name]", name = "1.0"):         print (node, node.tag, (node.items()))  

程序运行结果如下:

(<Element data at a1f784c>, 'data', [('version', '1.0'), ('url', 'http://***')])  

使用xpath模块解析xml

xpath是python官方推荐的一个支持xpath等处理的模块,是基于本文介绍过的python自带xml处理模块扩展而成,可以很好的结合使用,同时“find”接口也支持类似模板的用法,实例“get_xpath_3”如下:

Python代码

import xpath  def get_xpath_3():     doc = xml.dom.minidom.parseString(input_xml_string)     for node in xpath.find("//item/data[@version = $name]", doc, name = "1.0"):         print (node, node.tagName, node.getAttribute("version"))  

程序运行结果如下:

(<DOM Element: data at 0x89934cc>, u'data', u'1.0')  

总结:

通过对这些类库的实践,我们已经了解了python在处理xml格式的数据时有各种各样的选择,并得知这些类库各自擅长那些方面的处理和各种类库的使用手法,可以根据实际需求选择合适的类库完成开发工作。


原创粉丝点击