Dive into Python第九章xml学习笔记

来源：互联网发布：保定网络推广编辑：程序博客网时间：2024/05/22 09:47

这两天搞了一伙scrapy，感觉对保存下来的xml处理不是很好，就又看了看书，总体感觉第九章对xml介绍还是太简单。

1. python对xml的操作主要有两个方法，一个叫SAX(Simple API for XML), 它一次读取少量xml数据调用对应函数进行操作；另一个叫DOM(Document Object Model), 一次读取全部数据，把xml转成python的格式（转成树结构）。(其实在cookbook中还有一个lib叫expat）。

2. 在文件目录中添加__init__.py directory就成为了包，所以：

from xml.dom import minidom #如果这么导入模块，不仅会导入xml.dom中minidom.py，还会导入dom目录下__init__.py,再所以：

                            #如果你打开__init__.py,会看到：

from domreg import getDOMImplementation,registerDOMImplementation #它也会自动导入，再再所以：

                            #我在看scrapy的时候，发现scrapy根本没有Field这个class，其实是：

import scrapy               #scrapy中没有Field这个class，其实它的__init__.py有一条： from scrapy.item import Item, Fieldclass Product(scrapy.Item): #所以：name = scrapy.Field()       #scrapy.Field()=scrapy.Item.Filed()price = scrapy.Field()stock = scrapy.Field()

3. 最简单的解析xml方法:

xmldoc = minidom.parse(file-like obj) #返回document类型的树形结构，它有且只有一个子点，就是它的root node

4. unicode是两个8B组成的编码，不同的编码形式可以将其显示不同语言，系统默认是ASCII。python 2.7 print能很好的显示unicode，默认是ASCII，也能显示Latin-1

>>> s = u'La Pe\xf1a'>>> print sLa Peña

#不然就需要：

>>> print s.encode('latin−1')

5. 中文简体是GB2312.

6. 如果.py中存储非ASCII码，那么就需在文头加上 # −*− coding: UTF−8 −*−。xml都是unicode存储数据。

7. Element.getElmentByTagName('ref') 可以找到所有‘ref’tag的元素，返回list形式。

8. 要得到Element的属性，用Element.attributes.keys()得到id， Element.attributes.values()不能得到value，需要Element.attributes['id'].value !!!

0 0