NGS项目三:ChiP-seq数据分析workflow

来源:互联网 发布:windows 10 fall 推送 编辑:程序博客网 时间:2024/05/16 00:57

概念:内涵:用于在全基因组范围中研究DNA结合蛋白(相互反应)、组蛋白修饰(表观遗传标记)和核小体的技术,研究这三个主题可有助于了解基因之间的相互调控以及染色体的功能结构[1,2]

外延:

几种技术的特性比较

技术名称

主要区别

共同之处

Chip-seq Chip-chiq

测序和芯片,开放性

免疫沉淀

Chip-seq RNA-seq

结合蛋白,全RNA

高通量测序

MeDIP-seq RRBS

免疫共沉淀和酶切

CpG位点甲基化信息


原理:通过在特定时间点上用甲醛交联等方式“固定”细胞内所有DNA结合蛋白的活动,相当于这一时间点上细胞内蛋白和DNA相互作用的关系被瞬时“快照(snapshot)”下来。再通过后续的裂解细胞、断裂DNA,将蛋白质-DNA复合物与特定DNA结合蛋白的抗体孵育,然后将与抗体特异结合的蛋白-DNA复合物洗脱下来,最后将洗脱得到的特异DNA与蛋白解离、纯化DNA后,进行下游分析。



















应用:主要应用两个方面:一是DNA序列上转录子结合位点(Bindingsites)的识别,如顺式作用元件的识别;另一方面应用在表观遗传领域。包括研究基因组甲基化、组蛋白修饰和核小体定位等问题。


基本数据分析流程:定位读长定位又称读长对齐(Alignment),是把所有读长定位到参考基因组序列上,能够定位的读长称为标签,标签和读长通常是同一意思。当前常用的是BowtieBWA,前者对人类等大型基因组,更为普遍更适于有较多插入和删除突变的情况。



Bowtie2使用方法与参数详细介绍


懒人必看

Bowtie2-q --phred33 --sensitive --end-to-end -I 0 -X 500 --fr --un unpaired--al aligned \
--un-conc unconc --al-conc alconc -p 6 --reorder -x{-1-2| -U} -S []

用法:

bowtie2 [options]* -x <bt2-idx> {-1 <m1> -2 <m2> |-U <r>} -S [<hit>]

必须参数:

-x<bt2-idx> bowtie2-build所生成的索引文件的前缀。首先在当前目录搜寻,然后
在环境变量BOWTIE2_INDEXES 中制定的文件夹中搜寻。
-1<m1> 双末端测寻对应的文件1。可以为多个文件,并用逗号分开;多个文件必须和-2 
<m2>中制定的文件一一对应。比如:"-1flyA_1.fq,flyB_1.fq -2 flyA_2.fq,flyB
_2.fq".测序文件中的reads的长度可以不一样。
-2<m2> 双末端测寻对应的文件2.
-U<r> 非双末端测寻对应的文件。可以为多个文件,并用逗号分开。测序文件中的reads
长度可以不一样。
-S <hit> 所生成的SAM格式的文件前缀。默认是输入到标准输出。

bwa软件使用


需要参考序列fasta格式文件,和一个需要处理的fastq格式文件。跑完三步会生成一个sam文件,其中第一列表示id,第十列表示序列
SolexaReads mapping BWA
• Index reference sequences
bwa index -ais/bwtsw ref.fa is: <2Gb
bwtsw: >2Gb
• Mapping
bwaaln ref.fa short_read.fq > aln_sa.sai
• Output alignments inthe SA
bwa samse ref.fa aln_sa.sai short_read.fq > aln.sam
bwasampe ref.fa aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln.sam



MACS软件使用

Using MACS to Identify Peaks from ChIP-Seq Data[6]


参考文献:



1 Park,P.J. ChIP-seq: advantages and challenges of a maturing technology.Nat Rev Genet 10, 669-680 (2009).

2 Pepke,S., Wold, B. & Mortazavi, A. Computation for ChIP-seq and RNA-seqstudies. Nat Methods 6, S22-32 (2009).

3生物通《掌握技巧,做好ChiP-seq并不难》来源:mcmillipore

http://www.ebiotrade.com/newsf/2014-10/20141023170853830.htm



4高山,张宁,李勃,.下一代测序中ChIP-seq数据的处理与分析[J].遗传,2012, 34(6):773-783.DOI:10.3724/SP.J.1005.2012.00773.http://wenku.baidu.com/link?url=nc21dLfsJsSlEvp0PtgkG3zecWAbN8cy7gJYarKm2PJoCUNYg55CU0E-2PYHf2yvFmcnbzaPf4FxNCuduCVkZGAQM1NG3Pn99y5m7NxhV6y


5Analysis ofChIP-seq data in Galaxy

http://jura.wi.mit.edu/bio/education/hot_topics/galaxy/GalaxyNov2012_ChIP-seq_toPost.pdf


6 Using MACS toIdentify Peaks from ChIP-Seq Data

http://www.researchgate.net/publication/51185206_Using_MACS_to_identify_peaks_from_ChIP-Seq_data


0 0