kb=千碱基 kilobase
nt=核苷酸 nucleotide
bp=碱基对 base pair
高通量测序
高通量测序技术(High-throughput sequencing,HTS),有些文献中称其为下一代测序技术(next generation sequencing,NGS),又被称为深度测序(Deep sequencing)
基因组重测序(Genome Re-sequencing)
全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法
de novo测序
也称为从头测序
外显子测序(whole exon sequencing)
mRNA测序(RNA-seq)
small RNA测序
Small RNA(micro RNAs、siRNAs和 pi RNAs)
miRNA(microRNA)测序
Chip-seq
染色质免疫共沉淀技术(ChromatinImmunoprecipitation,ChIP)也称结合位点分析法
CHIRP-Seq
CHIRP-Seq(Chromatin Isolation by RNA Purification)是一种检测与RNA绑定的DNA和蛋白的高通量测序方法
metagenomic(宏基因组)
Read
高通量测序平台产生的序列标签就称为reads
Contig
拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)
Contig N50
Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3...………Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig 3+Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准
Scaffold
基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或lllumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold
Scaffold N50
Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...………Scaffold 25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50。举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准
测序深度和覆盖度
测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖所有的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的
转录本重构
用测序的数据组装成转录本。有两种组装方式:1,de-novo构建; 2,有参考基因组重构