Python SAX模块对大xml文件解析的错误认识

来源:互联网 发布:淘宝不能代付了吗 编辑:程序博客网 时间:2024/05/16 04:01

        Python 对XML文件解析的方式有三种:SAX、DOM、ElementTree;

     Pyhton 标准库包含SAX解析器,SAX是一种典型的极为快速的工具,在解析XML时,不会占用大量内存。
但是这是基于回调机制的,因此在某些数据中,它会调用某些方法进行传递。这意味着必须为数据指定句柄,
以维持自己的状态,这是非常困难的。

那么SAX对XML文件解析的顺序是?查阅了那么多资料,发现都是按照

startDocument  -<   startElement  -< characters -< endElement -< endDocument 

这样的顺序来进行的,确实,像这样写个Demo确实没有发现有什么不对,但是当我们的xml文件非常大的时候,

我遇到问题的时候xml文件达到50K, 贴一个例子:

<EXECUTE_ORDERS><ORDER_INFO execute_id="58"  order_id="16"  show_sequence="default"  show_type="CPM"  max_times="670000"  per_push_times="1000"  push_interval="24"  priority="10" ><DATE_TIME><DAY id='MON'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY><DAY id='TUE'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY><DAY id='WEN'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY><DAY id='THU'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY><DAY id='FRI'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY><DAY id='SAT'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY><DAY id='SUN'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY></DATE_TIME><AUDIENCE><AREA>0010</AREA><KEYWORD_FILES>Keywords_file/58/default.txt</KEYWORD_FILES><KEYSITE_FILES>Keyurl_file/58/default.txt</KEYSITE_FILES></AUDIENCE>
这是我们项目中用到的xml文件,只是一小部分,读取标签中间内容的时候就经常出现莫名奇妙的错误,有些内容只读取了一部分,没有读取完整;

比如读<DAY>标签中间的内容:

0,1,2,3,4,5,6,7,8,9,10,11,12,13,14读到此处就停止了,并没有全部读出来;

于是我找到了python对sax模块的时候说明:



 

按照我的理解,该模块对于标签内容的解析,也就是character 方法的调用可能是多次的,使用的是类似java 接口的方式(不知道是不是这样,有经验的朋友可以指点下),xml文件的解析方式一直就这样? 

这样就很容易理解了,难怪会莫名其妙的丢数据,那么现在我们可以重新对SAX的解析顺序做一下调整:

startDocument  -<   startElement  -< characters -< characters -<........-<endElement -< endDocument

在characters中只读取内容,并把内容临时拼接并保存起来 ,在endElement中对内容进行操作;

具体的代码有空再发一下;

这里有一个链接也提到了这个问题:http://blog.csdn.net/feng88724/article/details/7013675


原创粉丝点击