Python SAX模块对大xml文件解析的错误认识

来源：互联网发布：淘宝不能代付了吗编辑：程序博客网时间：2024/05/16 04:01

Python 对XML文件解析的方式有三种：SAX、DOM、ElementTree；

Pyhton 标准库包含SAX解析器，SAX是一种典型的极为快速的工具，在解析XML时，不会占用大量内存。
但是这是基于回调机制的，因此在某些数据中，它会调用某些方法进行传递。这意味着必须为数据指定句柄，
以维持自己的状态，这是非常困难的。

那么SAX对XML文件解析的顺序是？查阅了那么多资料，发现都是按照

startDocument -< startElement -< characters -< endElement -< endDocument

这样的顺序来进行的，确实，像这样写个Demo确实没有发现有什么不对，但是当我们的xml文件非常大的时候，

我遇到问题的时候xml文件达到50K, 贴一个例子:

<EXECUTE_ORDERS><ORDER_INFO execute_id="58"  order_id="16"  show_sequence="default"  show_type="CPM"  max_times="670000"  per_push_times="1000"  push_interval="24"  priority="10" ><DATE_TIME><DAY id='MON'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY><DAY id='TUE'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY><DAY id='WEN'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY><DAY id='THU'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY><DAY id='FRI'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY><DAY id='SAT'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY><DAY id='SUN'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY></DATE_TIME><AUDIENCE><AREA>0010</AREA><KEYWORD_FILES>Keywords_file/58/default.txt</KEYWORD_FILES><KEYSITE_FILES>Keyurl_file/58/default.txt</KEYSITE_FILES></AUDIENCE>

这是我们项目中用到的xml文件，只是一小部分，读取标签中间内容的时候就经常出现莫名奇妙的错误，有些内容只读取了一部分，没有读取完整；

比如读<DAY>标签中间的内容：

0,1,2,3,4,5,6,7,8,9,10,11,12,13,14读到此处就停止了，并没有全部读出来；

于是我找到了python对sax模块的时候说明：

按照我的理解，该模块对于标签内容的解析，也就是character 方法的调用可能是多次的，使用的是类似java 接口的方式（不知道是不是这样，有经验的朋友可以指点下），xml文件的解析方式一直就这样？

这样就很容易理解了，难怪会莫名其妙的丢数据，那么现在我们可以重新对SAX的解析顺序做一下调整：

startDocument -< startElement -< characters -< characters -<........-<endElement -< endDocument

在characters中只读取内容，并把内容临时拼接并保存起来，在endElement中对内容进行操作；

具体的代码有空再发一下；

这里有一个链接也提到了这个问题：http://blog.csdn.net/feng88724/article/details/7013675