生物信息-002-人类基因组本地化及简单分析
来源:互联网 发布:数据库笛卡尔积图解 编辑:程序博客网 时间:2024/05/20 18:54
在NCBI上下载 GRCh38
wget ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/GRCh38_latest/refseq_identifiers/GRCh38_latest_genomic.fna.gz
解压文件(.fasta, .fa, .fna, .fsa, .mpfa)
gzip -d GRCh38_latest_genomic.fna.gz#人的h38基因组是3G的大小,一个英文字符是一个字节,所以30亿bp的碱基就是3G左右
head GRCh38_latest_genomic.fna
查看该文件可以看到,里面有很多的N,这是基因组里面未知的序列,用N占位,但是觉得部分都是A.T.C.G这样的字符,大小写都有,分别代表不同的意思
统计了一下里面这个文件的行数
time wc -l GRCh38_latest_genomic.fna
用awk统计行数(效率相比wc –l 慢)
time awk 'END { print NR }' GRCh38_latest_genomic.fna
看一下标题行
grep '>' GRCh38_latest_genomic.fna | sed -n 'p'grep '>' GRCh38_latest_genomic.fna | sed -n 'p' >> list.txt
统计每个标题下基因片段的长度,提取标题和长度写入一个新文件
time python GECh38_title_length.py
fasta_file=open('/home/sunchengquan/GRCh38_latest_genomic.fna','r')out_file = open('GRCh38_title_length.txt','w')seq = ''i = 0for line in fasta_file: if line[0] == '>' and seq == '': header = line.strip() elif line[0] != '>': seq =seq + line.strip() elif line[0] == '>' and seq != '': num = len(seq) out_file.write(header +'\n'+ str(num)+ '\n') i += 1 print('writing:',i) seq = '' header = line.strip() out_file.close()
看一下GRCh38_title_length.txt里面的内容
提取标题行,添加到列表,并打印
time python GECh38_title.py
input_file=open("/home/sunchengquan/GRCh38_latest_genomic.fna","r")title_list = []for line in input_file: if line[0] == '>': field = line title_list.append(field) print(field)类似于grep '>' GRCh38_latest_genomic.fna | sed -n 'p' > list.txt
阅读全文
0 0
- 生物信息-002-人类基因组本地化及简单分析
- 生物信息-001-简单的文件数据处理
- 肿瘤与癌症检测相关产品的生物信息分析
- 21款生物信息在线分析工具汇编
- 本地化测试错误分析及方法
- 可视分析 、智能交通、时空信息分析、生物信息数据简介
- 生物信息_Call_snp_by_soapsnp_外显子
- 生物信息_MAF_Minor_Allele_Frequency
- 生物信息常用数据库
- 生物信息-related
- 生物信息笔记
- 生物信息实用语言
- 生物信息 Phthon
- 生物信息类期刊
- 从一种生物信息数据种进行单个或多个生物标志的分析所存在的问题
- 生物信息之多序列比对,进化树分析,保守位点分析
- 生物图像分析
- 生物在线补习及生物网址
- C++程序调用Python的函数(简单应用)及Ubuntu16.04下codeblocks的环境配置
- 生活小记51
- 牛客:数据库SQL实战(一)查询入职最晚的员工的所有信息
- 第一题 点排序
- 数据结构 排序
- 生物信息-002-人类基因组本地化及简单分析
- 51NOD
- apk文件编译、修改、反编译和签名
- 解决Hibernate保存数据到mysql时的中文乱码问题
- Java锁--Lock实现原理(底层实现)
- 成为一名推荐系统工程师永远都不晚
- Less运算和函数
- 【Git】gitk图形界面中文乱码情况
- fastjson将java转换成json数据;指定日期格式,取消循环引用