Python SAX模块对大xml文件解析的错误认识
来源:互联网 发布:淘宝不能代付了吗 编辑:程序博客网 时间:2024/05/16 04:01
Python 对XML文件解析的方式有三种:SAX、DOM、ElementTree;
Pyhton 标准库包含SAX解析器,SAX是一种典型的极为快速的工具,在解析XML时,不会占用大量内存。
但是这是基于回调机制的,因此在某些数据中,它会调用某些方法进行传递。这意味着必须为数据指定句柄,
以维持自己的状态,这是非常困难的。
那么SAX对XML文件解析的顺序是?查阅了那么多资料,发现都是按照
startDocument -< startElement -< characters -< endElement -< endDocument
这样的顺序来进行的,确实,像这样写个Demo确实没有发现有什么不对,但是当我们的xml文件非常大的时候,
我遇到问题的时候xml文件达到50K, 贴一个例子:
<EXECUTE_ORDERS><ORDER_INFO execute_id="58" order_id="16" show_sequence="default" show_type="CPM" max_times="670000" per_push_times="1000" push_interval="24" priority="10" ><DATE_TIME><DAY id='MON'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY><DAY id='TUE'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY><DAY id='WEN'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY><DAY id='THU'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY><DAY id='FRI'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY><DAY id='SAT'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY><DAY id='SUN'>0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23</DAY></DATE_TIME><AUDIENCE><AREA>0010</AREA><KEYWORD_FILES>Keywords_file/58/default.txt</KEYWORD_FILES><KEYSITE_FILES>Keyurl_file/58/default.txt</KEYSITE_FILES></AUDIENCE>这是我们项目中用到的xml文件,只是一小部分,读取标签中间内容的时候就经常出现莫名奇妙的错误,有些内容只读取了一部分,没有读取完整;
比如读<DAY>标签中间的内容:
0,1,2,3,4,5,6,7,8,9,10,11,12,13,14读到此处就停止了,并没有全部读出来;
于是我找到了python对sax模块的时候说明:
按照我的理解,该模块对于标签内容的解析,也就是character 方法的调用可能是多次的,使用的是类似java 接口的方式(不知道是不是这样,有经验的朋友可以指点下),xml文件的解析方式一直就这样?
这样就很容易理解了,难怪会莫名其妙的丢数据,那么现在我们可以重新对SAX的解析顺序做一下调整:
startDocument -< startElement -< characters -< characters -<........-<endElement -< endDocument
在characters中只读取内容,并把内容临时拼接并保存起来 ,在endElement中对内容进行操作;
具体的代码有空再发一下;
这里有一个链接也提到了这个问题:http://blog.csdn.net/feng88724/article/details/7013675
- Python SAX模块对大xml文件解析的错误认识
- Python解析XML,sax模块的介绍
- SAX实现对XML文件的解析
- 对XML文件的重新认识,说说XML文件的二三事(三):XML两类解析模式(1)-SAX解析XML
- python处理xml大文件[xml.sax]
- python对XML的解析 SAX DOM ElementTree
- 12-002-3 大的XML文件解析SAX
- xml文件的sax解析
- xml文件的sax解析
- 利用SAX对XML文件解析
- iOS:XML文件的解析(SAX解析)
- SAX对xml的解析,javabean封装
- xml文件解析-SAX
- sax解析xml文件
- SAX解析xml文件
- SAX解析XML文件
- SAX解析XML文件
- SAX解析XML文件
- Linux系统下一块网卡绑定多个Ip地址方法
- 制作根文件系统的问题(页1) - Linux 0.1X系统的建立和实验- OldLinux
- NUMA架构
- 读取数据到结构体数组
- LINQ 之Union All/Union/Intersect操作
- Python SAX模块对大xml文件解析的错误认识
- 在MyEclipse中直接查看class文件(在没有源码的情况下)
- 10个工具让你的shell脚本更强大
- linux内核SPI总线驱动分析
- 第一次C程序设计上机报告
- lucene可以做搜索引擎 baidu,google都是很好的搜索引擎
- Servlet中doGet与doPost的区别
- HTML布局
- ios 开发file's owner以及outlet与连线的理解