[python项目一]查找输出fasta序列的gap的起始终止等信息
来源:互联网 发布:萝莉脸型数据 编辑:程序博客网 时间:2024/05/21 17:21
一、需要实现的程序内容及输出:
对于输入的fasta序列,编写程序查找里面N的起始,终止位置等信息,如下面的染色体test.fa序列为例:
>1 dna_sm:chromosome chromosome:UMD3.1:1:1:158337067:1 REF
aaattagacactgaagagacttggaaagagaggaagtcaaataacaaagaagaggaaacc
aaaagggcctatagaccttgagtattctcaaggtggaacaagaaactatctgaaattgaa
ccgacccccacgctgcccacaacagctccagagaaattcctagatatatttttactacta
tcataaAAAAAatgattgagtttattttgtatttttaatattgtatttttgagagtgtat
cttctctacttcactctgtgaatctctaggtgttctgggctgtggagaacacttagggaa
>2
ctgattactggctagatcagtctctccccttttgtttgcccttcttctcctcctggtcac
tccaaaacttgagaacaccaggaaactcctgactccaggaacattaatcaacaagagctc
atccaaaagcctccatacctacacggaaaccaagctccatccaagagccaacaagttcca
NNNTCTTTTGACTCTCCCTTTTCTCTCCCATGTCAGCTCTTTCTCCTCCCTCCCCCTTCT
gatcaagacataccatgctaattctccaacaacataggaacatagccctgaacattaaaa
tacaggctgcccaacgtcatgtcaaacccatagatgccccaaaactcactcctggacact
>3
tcattgcactccagagagaagagatccagttccaccgaccagaacacagatgcaagtttc
caaacccaatcaaaagaggaagagatagggagtctacctgaaaaagaattcagagtaatg
>4
gatcaataatgaataatgcaataacagatcaaaagaactctggagggaaacaacagtaga
ggcatgagaaaatacctgaggagataatagttgaaattttctctaaaatggggaaggaaa
atcctaagacatacattaatcaaattaatgaagaccaaacacaaagaacaaatattaaag
TTTTTTTTAATAAATGCCAATCTGTTTATGACTTAACTTGTCANNNNNNNNNNNNNNNNN
NNNNNNNNANNCCCTNNNNNNNNACTTCAGACAATAATGTTTTTTTAAAACCAGTCTAGT
TTCTTGGACTTCTAGTTGGATGGCTTCACCGACTTGAAGGACGTGAGTTTGAGTAAGTTC
CAAGAGTTAGTGATGGACAGGGAAGCCCGGTGTGCTGCAGTCCCTGGGGTGGCAAAGAGT
希望得到每一条染色体N的pos的起始位置,终止位置,长度以及中的Gap(N又称为Gap区域)的总长及总数目,输出结果为:
test.fa.pos:
ID=>2 180 182 3
ID=>4 223 247 25
ID=>4 249 250 2
ID=>4 255 262 8
test.fa.stat:
Total_gap_num=4,Total_gap_len=38
二、用perl的相应的程序如下:
#/user/bin/perl -w
use strict;
unless(@ARGV==1){
die"Usage:perl $0 <input.fa>\n";
}
my($infile)=@ARGV;
open IN,$infile||die"error:can't open infile:$infile";
my $outfile1=$infile."_out";
my $outfile2=$infile."_stat";
open OUT,">$outfile1"||die$!;
open OUTT,">$outfile2"||die$!;
$/=">";<IN>;
my $start=0;
my $skip=0;
my $step;
my $len=1;
my $stop;
my $end;
my $total_len=0;
my $number=0;
my $num_1bp=0;
my $line;
my $i;
while(my $seq=<IN>)
{
if(index($seq,"N")!=-1)
{#if-1
my $id=$1 if($seq=~/^(\S+)/);
chomp $seq;
$seq=~s/^.+?\n//;
$seq=~s/\s//g;
if(index($seq,"N")==-1)
{
last;
}
$step=0;
$stop=1;
$start=index($seq,"N",$step)+1;
$step=$start-1;
$skip=$step;
print "start=$start\tstep=$step\tskip=$skip\n";
while($stop)
{#while -2
$skip=index($seq,"N",$step+1);
print "in while:skip=$skip\tstep=$step\n";
if($skip==($step+1))
{#if skip (49)
print "in-while-if:skip=$skip\tstep=$step\n";
$len++;
$step++;
next;
}else{
print "in-while-else:skip=$skip\tstep=$step\n";
if($skip!=-1)
{#if skip != -1 (55)
print "else-if:skip=$skip\tstep=$step\n";
if($len!=1){
$end=$start+$len-1;
}
else{
$num_1bp++;
$end=$start;
}
$total_len+=$len;
$number++;
print OUT"if-$id\t$start\t$end\t$len\n";
$step=$skip;
$start=$skip+1;
$len=1;
}else{
print "else-else:skip=$skip\tstep=$step\n";
if($len!=1){
$end=$start+$len-1;
}
else{
$num_1bp++;
$end=$start;
}
$total_len+=$len;
$number++;
print OUT"else-$id\t$start\t$end\t$len\n";
$stop=0;
$len=1;
}#if-else- (56)
}#if-else- (49)
}#while -2
}#if-1
}#while
print OUTT "total_length\t $total_len\ngap_number\t$number\n1bp_gap_number\t$num_1bp\n";
$/="\n";
close IN;
close OUT;
三、用python编写的程序如下:
#-*- coding=utf-8 -*-
#输出gap的起始位置,终止位置,长度等位置信息
import os,sys
import re
class Fasta():
def __init__(self,name,sequence):
self.name=name
self.sequence=sequence
def process_fasta(infile):
reader=infile.readlines()
index=0
increace=[]
for line in reader:
line=line.strip()
if line.startswith('>'):
if index >=1:
increace.append(instance)
id=line
seq=''
index += 1
else:
seq += line
instance=Fasta(id,seq)
increace.append(instance)
return increace
def find_N(List):
gap_num=0
gap_len=0
for t in List:
str1=t.sequence
start=0
end=0
length=1
if(str1.find('N') != -1):
indel = str1.find('N',start)
start = indel
step = start
skip = step
flag=True
N_array=re.split('[N+]{1,}',str1)
while(flag):
skip=str1.find('N',step+1)
if(skip - 1 == step):
#前后两次查找的N的index相差1,说明N是连续的
step += 1
length +=1
continue
else:
#前后两次index相差不为1,说明N之间出现了其他碱基
if (skip != -1):
#说明后面还有N
end = bool(length !=1) and start+length -1 or start
step=skip
outfile1.write("ID=%s\t%d\t%d\t%d\n" %(t.name,start,end,length))
length=1
start=step
else:
#说明后面已经没有N了
end = bool(length !=1) and start+length -1 or start
outfile1.write("ID=%s\t%d\t%d\t%d\n" %(t.name,start,end,length))
length=1
flag=False
gap_len += str1.count('N')
gap_num += len(N_array) -1
outfile2.write("Total_gap_num=%d,Total_gap_len=%d\n" %(gap_num,gap_len))
if __name__ == '__main__':
infile=open(sys.argv[1],'r')
outfile1=open(sys.argv[1]+'.pos','w')
outfile2=open(sys.argv[1]+'.stat','w')
List=process_fasta(infile)
find_N(List)
infile.close()
outfile1.close()
outfile2.close()
四、总结:
编程思路请见下面的逻辑图
- [python项目一]查找输出fasta序列的gap的起始终止等信息
- python 判断字符串中的的起始、终止子字符串
- perl应用:DNA序列翻译(下):从fasta格式中读取序列,然后输出蛋白质序列,以及fasta格式的介绍
- Python程序设计——查找列表中连续递增序列的起始位置
- 生物信息脚本练习(1) 找出fasta文件中大于500的序列
- 用python编写统计fasta格式的序列的长度脚本
- python 写出一年中每周的起始日期和终止日期
- stl的算法(一):对序列进行只读操作(查找、搜索等)
- 获得一个指定星期的起始和终止日期
- 在规定年的起始时间与终止时间内
- oracle 求连续日期的起始日期和终止日期
- oracle 求连续日期的起始日期和终止日期
- 有序数组中某个数的起始和终止位置
- [BLE--GAP]Advertising中信息的传递
- postgresql更新序列的起始值
- C++输出字符串的起始地址
- python Fasta文件格式化-每行固定数目碱基输出
- 如何查找python的模块函数等信息
- c++ 多态 虚函数 析构函数 抽象类
- UI_UItabBarController
- ssh secure shell工具的中文乱码问题
- 黑马程序员---OC学习笔记之autorelease快速创建对象的应用
- OKHttp(2)——源码解析
- [python项目一]查找输出fasta序列的gap的起始终止等信息
- Apache http server 64位绿色解压版的安装、部署、启动和使用说明
- 语义分析的一些方法(上篇)
- iOS 获取设备类型
- 退出app,后台推送的服务也停止了,怎么可以做到不停止后台服务呢?
- Objective-C:禁止调用方法
- 设计模式之Iterator:简单模拟java中集合类的实现
- 黑马程序员---OC学习笔记之ARC的概念及原理
- 弱校联萌十一大决战之强力热身 C.Censor (KMP变形 好题)