生物信息脚本练习(3)gb文件转换
来源:互联网 发布:java apache 编辑:程序博客网 时间:2024/05/17 09:36
这是个genebank的序列文件
https://www.ncbi.nlm.nih.gov/nuccore/NC_000012.12?report=genbank&from=25204789&to=25252093&strand=true
这个文件需要转换成fasta格式的文件,脚本如下:
import reoutput = open("data3.txt","w") with open("sequence.gb","r") as f: read = f.readlines()title = read[0]title = ">"+title[12:20]print(title)output.write(title)output.write("\n")seq = read[81:138]seq_complete = []for i in seq: for e in i: if re.match("[a-z]",e): seq_complete.append(e)seq_complete = "".join(seq_complete)#print(seq_complete)output.write(seq_complete)output.close()
我写的这个只对某一个gb文件有效,因为我数了一下序列的行数,然后切片取的,其实还有完全使用正则的更好的方法。
import ref=open('sequence.gb','r')seq=""for line in f: if re.search('ACCESSION',line): m=line.split('ACCESSION')[1].strip() if re.search('ORGANISM',line): n=line.split('ORGANISM')[1].strip() print ('> %s : %s' % (n,m)) if re.search('[0-9] [a-z]{10}',line): s=re.split('[0-9] ',line)[1] print (s.split(" ")) for i in s.split(" "): seq=seq.rstrip()+i.rstrip()
不错吧!
阅读全文
0 0
- 生物信息脚本练习(3)gb文件转换
- 生物信息脚本练习(4)按照行列合并文件
- 生物信息脚本练习(1) 找出fasta文件中大于500的序列
- 生物信息脚本练习(2)求反向互补序列
- 生物信息-001-简单的文件数据处理
- 生物信息记录点点滴滴(一)
- rosalind-生物信息算法通关(python)(3)--动态规划,最长上升子序列
- Linux与生物信息(第一章——Linux常用命令3)
- 生物信息_Call_snp_by_soapsnp_外显子
- 生物信息_MAF_Minor_Allele_Frequency
- 生物信息常用数据库
- 生物信息-related
- 生物信息笔记
- 生物信息实用语言
- 生物信息 Phthon
- 生物信息类期刊
- 英雄无敌3 Def 文件对应生物列表
- GB/BIG5/UTF-8 文件编码批量转换程序
- 结构体初始化及结构体指针.结构体数组.结构体函数的调用赋值等
- 微信企业号主动发送
- hihoOffer收割练习20题目2
- jQuery LightBox插件原理的简单实现
- HBase集群启动脚本流程分析
- 生物信息脚本练习(3)gb文件转换
- ssm框架整合测试
- HDU5934Bomb(强连通缩点)
- UIAutomator之---UiObject
- 《网络经济与企业管理》第一遍思维导图
- 设计模式——单例
- 二叉树的路径和
- 背包问题 (Knapsack.cpp)
- C++实现身份证校验和归属地查询