RNA的.fasta数据转换为数字数据

来源:互联网 发布:数据大魔王 编辑:程序博客网 时间:2024/05/22 06:35

特征转换:.fasta->.numerical

将.fasta格式的数据转换为数字格式的数据

  • 特征转换fasta-numerical
    • fasta格式1
    • RNA_m5c数据集
    • 手动将fasta数据集转换为csv格式
    • 使用Anaconda_Spyder_python实现数据转换


.fasta格式1

在生物信息学中,FASTA格式(又称为Pearson格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。— [百度百科]

RNA_m5c数据集

Supporting Information S1. The benchmark dataset consists of a positive dataset and a negative dataset. The former contains 120 true m5C site containing sequences with the m5C site in the center, while the latter contains 120 false m5C site containing sequences. Each of these segments is 41-bp long.
m5c_P.fasta
I. 120 true m5C site containing sequences
P_1
CGCCUCCCACGCGGGAGACCCGGGUUCAAUUCCCGGCCAAU
P_2
CCGGGUUCAAUUCCCGGCCACUGCACGUGGUUGUUUUUCAC
P_3
GGCCGUGGGUGUGUAGAGGCCUUGGUGGUGCAGUGGUAGAA
m5c_N.fasta
II. 120 false m5C site containing sequences
N_1
GGGAGUGGGAACAGGAUUUGCAAGACUCCUAGUACCUAAAU
N_2
GAAAUGGCCUCAUUUGAUAACUAGUAGGUUUUACACAGUGU
N_3
GGGCAGCCUCCUUCUUGUCUCUGUUGUUGAGGAGUGGAAUG

手动将.fasta数据集转换为.csv格式


只保留.fasta数据集中的RNA序列,并且添加标签“serial”,方便进行下一步数据转换,生成m5c_N.csv和m5c_P.csv两个文件

使用Anaconda_Spyder_python实现数据转换

import pandas as pdimport csvm5c_N_data=pd.read_csv('.\\m5c_N.csv')m5c_P_data=pd.read_csv('.\\m5c_P.csv')csvfile=file('.\\data.csv','wb')writer=csv.writer(csvfile)data=[]for i in range(120):    temp=[]    for j in range(41):        if m5c_N_data['serial'][i][j]=='A':            temp.append(0)        elif m5c_N_data['serial'][i][j]=='C':            temp.append(1)        elif m5c_N_data['serial'][i][j]=='G':            temp.append(2)        else:            temp.append(3)    temp.append(0)    data.append(temp)for i in range(120):    temp=[]    for j in range(41):        if m5c_P_data['serial'][i][j]=='A':            temp.append(0)        elif m5c_P_data['serial'][i][j]=='C':            temp.append(1)        elif m5c_P_data['serial'][i][j]=='G':            temp.append(2)        else:            temp.append(3)    temp.append(1)    data.append(temp)writer.writerows(data)csvfile.close()

  1. http://baike.baidu.com/item/fasta%E6%A0%BC%E5%BC%8F ↩
0 0
原创粉丝点击