基于基因组测序数据鉴定单碱基变异的方法总结

单核苷酸多态性,英文single nucleotide polymorphism,缩写为SNP,读音为Snip。SNP主要是指在基因组水平上引起的单个碱基的变异,其在群体中的发生频率不小于1%,包括单碱基的转换、颠换以及单碱基的插入和缺失等。

多态性示意图(图片来源:genome news network)

突变(mutation)和多态性(polymorphism)的主要区别在于

1)突变在群体中的发生频率小于1%,而多态性的发生频率在大于1%;

2)突变通常对生生物体是有害的,而多态性通常都是无害的。

多态性和突变的区别(图片来源:genome news network)

那么基于基因组测序数据,包括全基因组测(WGS)、全外显子测序(WES)或靶向测序(targeted sequencing),鉴定基因组变异的标准流程是什么样的呢?(更多精彩请关注微信公众号:AIPuFuBio)

具体如下图所示:

基因组变异鉴定标准流程(DePristo et al. Nature Genetics, 2011)

所以基于测序数据进行基因组变异检测的第一步就是数据匹配,即把测序数据匹配到参考基因组上。匹配测序数据的软件非常多,下图列举了一些典型的匹配软件。具体如下所示:

常用的测序数据匹配软件比较(Li et al. Cancer Informatics, 2015)

由上表可知,Bowtie(目前有Bowtie2)、BWA和SOAP(目前有SOAP2)都是总体性能很好的短序列匹配软件。

那么基因组变异的检测软件哪些呢?基于测序数据的变异检测软件也非常多,下图列举了一些典型的软件。具体如下所示:

常用的基因组变异检测软件(Li et al. Cancer Informatics, 2015)

由于GATK拥有非常好的综合性能,目前GATK是已成为最流行的SNV/SNP检测软件。

GATK的具体算法原理可参考原文章:

McKenna et al. The Genome Analysis Toolkit: A MapReduce framework for analyzing next-generation DNA sequencing dataGenome Research, 2010

而GATK软件的具体使用可参考官网:

https://software.broadinstitute.org/gatk/best-practices/

(更多精彩,可见大型免费综合生物信息学资源和工具平台AIPuFu:www.aipufu.com,关注微信公众号:AIPuFuBio)

希望今天的内容对大家有用,会持续更新经典内容,欢迎留言~~

原文地址:https://www.cnblogs.com/aipufu/p/11561559.html

时间: 2024-08-08 17:53:50

基于基因组测序数据鉴定单碱基变异的方法总结的相关文章

基于全基因组测序数据鉴定结构变异的四大类算法总结

不同类型的基因组变异示意图(图片来源:labspaces) 上次给大家总结介绍了基因组单核苷酸多态性(single nucleotide polymorphism,SNP)的鉴定方法,今天给大家介绍结构变异(structural variations,SV)的种类及基于基因组测序数据的鉴定方法. 因为结构变异是造成物种表型差异的一个重要原因,且与各类疾病,特别是癌症的发生.发展紧密相关,因此研究结构变异非常重要. 结构变异通常是指长度大于1Kb的基因组序列变异,包括多种不同的类型:插入(inse

基于单细胞测序数据构建细胞状态转换轨迹(cell trajectory)方法总结

细胞状态转换轨迹构建示意图(Trapnell et al. Nature Biotechnology, 2014) 在各种生物系统中,细胞都会展现出一系列的不同状态(如基因表达的动态变化等),这些状态(state)之间会按照一定的时间顺序转换.最典型的比如细胞的分化过程,从不成熟的细胞逐渐分化为成熟细胞.此外,细胞在受到外界刺激或扰动时,细胞内基因的表达也可能发生一系列的变化,从而呈现出一系列状态的转换. 这些特别提一下,细胞状态(cell state)和细胞亚型(cell subtype)是两

单细胞转录组测序数据的可变剪接(alternative splicing)分析方法总结

可变剪接(alternative splicing),在真核生物中是一种非常基本的生物学事件.即基因转录后,先产生初始RNA或称作RNA前体,然后再通过可变剪接方式,选择性的把不同的外显子进行重连,从而产生不同的剪接异构体(isoform).这种方式,使得一个基因可产生多个不同的转录本,这些转录本分别在细胞/个体分化发育的不同阶段,在不同的组织中有各自特异的表达和功能,从而极大地丰富了编码RNA和非编码RNA种类和数量,进而增加了转录组和蛋白质组的复杂性. 可变剪接主要有以下五种常见的形式: 1

Circular RNA的产生机制、功能及RNA-seq数据鉴定方法

推荐关注微信公众号:AIPuFuBio,和使用免费生物信息学资源和工具AIPuFu:http://www.aipufu.com. [Circular RNA的产生机制] Circular RNA,缩写为circRNA,中文名为环状RNA,属于非编码RNA,是近年的一个重要研究热点. CircRNA主要是通过backsplicing的方式产生,明显不同于线性RNA(linear RNA)经典的5′–3′的模式.因此,circRNA不含有线性RNA的经典结构,如5′端加帽,3′端有poly A尾巴等

PacBio全基因组测序和组装

PacBio公司的业务范围也就5个(官网): Whole Genome Sequencing Targeted Sequencing Complex Populations RNA Sequencing Epigenetics 其中全基因组测序应该是PacBio的拿手好戏,因为它这么贵(貌似是二代的10倍),但它的核心优势就是长,还有无偏向性:这在科研上可就立马变成香饽饽了,现在用纯二代技术根本就发不了基因组的文章了,稍微高端点的分析都会用上三代的技术. Fully characterize g

单台设备基于63G的数据量快速完成mysql主从搭建

一.演示课题说明: 单台物理机利用xtrabackup工具在线备份63G的mysql数据,来新建slave库.演示的目的主要是记录下在单台物理服务器上利用63G的测试库数据,然后在本机上快速新建一个slave库,大概需要多久完成.以及在新增的slave的过程中对master库锁表影响多大? 二.设备和系统环境说明: 设备环境: x86_64位最小化安装 [[email protected] scripts]# cat /etc/redhat-release CentOS Linux releas

测序数据质量控制

基于边合成边测序(Sequencing By Synthesis,SBS)技术,Illumina HiSeq2500高通量测序平台对cDNA文库进行测序,能够产出大量的高质量Reads,测序平台产出的这些Reads或碱基称为原始数据(Raw Data),其大部分碱基质量打分能达到或超过Q30.Raw Data通常以FASTQ格式提供,每个测序样品的Raw Data包括两个FASTQ文件,分别包含所有cDNA片段两端测定的Reads. FASTQ格式文件示意图如下: FASTQ格式文件示意图 注:

宏基因组测序及分析

宏基因组测序: 浓度>=50ng/ul OD260/280:1.8-2.0 DNA两次需要量>=3ug 宏基因组测序需要提供什么样品要求? (1)提供环境微生物的基因组DNA或者扩增产物,OD值在1.8-2.0 之间:样品浓度大于30 ng/ul:每次样品制备需要10μg样品,如果需要多次制备样品,则需要样品总量=制备样品次数*10 ug. (2)DNA样品请置于-20℃保存:请提供DNA样品具体浓度.体积.制备时间.溶剂名称.请同时附上QC数据,包括电泳胶图.分光光度或Nanodrop仪器检

基于Extjs的web表单设计器 第七节——取数公式设计之取数公式的使用

基于Extjs的web表单设计器 基于Extjs的web表单设计器 第一节 基于Extjs的web表单设计器 第二节——表单控件设计 基于Extjs的web表单设计器 第三节——控件拖放 基于Extjs的web表单设计器 第四节——控件拖放 基于Extjs的web表单设计器 第五节——数据库设计 基于Extjs的web表单设计器 第六节——界面框架设计 基于Extjs的web表单设计器 第七节——取数公式设计之取数公式定义 基于Extjs的web表单设计器 第七节——取数公式设计之取数公式的使用