python 处理xml文件

来源:互联网 发布:mysql备份数据库 编辑:程序博客网 时间:2024/05/22 17:22

python 处理xml文件

  最近基因注释需要查阅文献是否报道过。由于基因很多,想了一个办法。

NCBI上每个蛋白有关的登录号下会有文献的题目。根据序列比对结果,然后调取对应的文献。

首先获取小麦族(147389)所有的199754条蛋白序列,截止日期是17-5-22.

下载的格式是INSDSeq XML格式。下载之后需要转换成表格形式

首先需要编辑下下载的xml文件,分别在文件头以及文件尾分别添加如下内容:

<?xml version="1.0"?><doc># 末尾</doc>

python 代码

try:    import xml.etree.cElementTree as ETexcept ImportError:    import xml.etree.ElementTree as ETtree = ET.ElementTree(file='147389_protein.xml')for elem in tree.iter():    if elem.tag == 'GBSeq_locus':        print elem.text + '\t',    if elem.tag == 'GBSeq_length':        print elem.text + '\t',    if elem.tag == 'GBSeq_definition':        print elem.text + '\t',    if elem.tag == 'GBReference_title':        print elem.text + '\t',    if elem.tag == 'GBReference_journal':        print elem.text + '\t',    if elem.tag == 'GBSeq_sequence':        print elem.text.upper()
原创粉丝点击