基于基因组测序数据鉴定单碱基变异的方法总结

单核苷酸多态性，英文single nucleotide polymorphism，缩写为SNP，读音为Snip。SNP主要是指在基因组水平上引起的单个碱基的变异，其在群体中的发生频率不小于1%，包括单碱基的转换、颠换以及单碱基的插入和缺失等。

多态性示意图（图片来源：genome news network）

突变（mutation）和多态性（polymorphism）的主要区别在于：

1）突变在群体中的发生频率小于1%，而多态性的发生频率在大于1%；

2）突变通常对生生物体是有害的，而多态性通常都是无害的。

多态性和突变的区别（图片来源：genome news network）

那么基于基因组测序数据，包括全基因组测（WGS）、全外显子测序（WES）或靶向测序（targeted sequencing），鉴定基因组变异的标准流程是什么样的呢？（更多精彩请关注微信公众号：AIPuFuBio）

具体如下图所示：

基因组变异鉴定标准流程（DePristo et al. Nature Genetics, 2011）

所以基于测序数据进行基因组变异检测的第一步就是数据匹配，即把测序数据匹配到参考基因组上。匹配测序数据的软件非常多，下图列举了一些典型的匹配软件。具体如下所示：

常用的测序数据匹配软件比较（Li et al. Cancer Informatics, 2015）

由上表可知，Bowtie（目前有Bowtie2）、BWA和SOAP（目前有SOAP2）都是总体性能很好的短序列匹配软件。

那么基因组变异的检测软件哪些呢？基于测序数据的变异检测软件也非常多，下图列举了一些典型的软件。具体如下所示：

常用的基因组变异检测软件（Li et al. Cancer Informatics, 2015）

由于GATK拥有非常好的综合性能，目前GATK是已成为最流行的SNV/SNP检测软件。

GATK的具体算法原理可参考原文章：

McKenna et al. The Genome Analysis Toolkit: A MapReduce framework for analyzing next-generation DNA sequencing data, Genome Research, 2010

而GATK软件的具体使用可参考官网：

（更多精彩，可见大型免费综合生物信息学资源和工具平台AIPuFu：www.aipufu.com，关注微信公众号：AIPuFuBio）

希望今天的内容对大家有用，会持续更新经典内容，欢迎留言~~

原文地址：https://www.cnblogs.com/aipufu/p/11561559.html

时间： 2024-10-10 22:15:48

基于全基因组测序数据鉴定结构变异的四大类算法总结