如何用GATK call snp

1, 什么是GATK?

The Genome Analysis Toolkit or GATK is a software package developed at the
Broad Institute to analyse next-generation resequencing data.

The toolkit offers a wide variety of tools, with a primary focus on variant
discovery and genotyping as well as strong emphasis on data quality
assurance.

Its robust architecture, powerful processing engine and high-performance
computing features make it capable of taking on projects of any size.

2, 如何用GATK call SNP?

用来call snp的数据为经过处理过的bam文件。如何处理另见博文。用到的工具为HaplotypeCaller。假如我有四个bam文件,

LC17-1_L005.sorted.rmp.rg.recal.bam,

LC17-2_L008.sorted.rmp.rg.recal.bam,

RC17-1_L003.sorted.rmp.rg.recal.bam,

RC17-3_L004.sorted.rmp.rg.recal.bam,

都是经过处理,符合GATK要求的bam文件,这四个文件都属于样本C17,我现在要用对样本C17 call snp, 具体命令如下:

java -jar ./GenomeAnalysisTK.jar -nct 50 -T HaplotypeCaller -R
RAP_cDAN.fasta  \

-I LC17-1_L002.sorted.rmp.rg.recal.bam -I LC17-1_L005.sorted.rmp.rg.recal.bam
\

-I LC17-2_L006.sorted.rmp.rg.recal.bam -I LC17-2_L008.sorted.rmp.rg.recal.bam
\

-I LC17-3_L002.sorted.rmp.rg.recal.bam -I RC17-1_L003.sorted.rmp.rg.recal.bam
\

-I RC17-2_L004.sorted.rmp.rg.recal.bam -I RC17-3_L004.sorted.rmp.rg.recal.bam
\

-o gatk.vcf

以上几行命令要在同一行,所以看到每行最后有换行符,工具选用的是GATK中的HaplotypeCaller,

-R后跟参考序列,-I 后是bam文件,这几个bam文件都属于一个sample, -o后跟输出文件名字。

-nct 是指定线程数,目前并不能多线程,只能用一个cpu。

结果文件就为gatk.vcf。

时间: 2024-11-09 14:12:54

如何用GATK call snp的相关文章

The meaning of the standard read group fields

用GATK call snp 的同学都会为繁琐的数据前期处理而苦恼,甚至放弃GATK 而用别的工具,对于bam文件,read group信息是必不可少的,别的软件 也许只需要一个sample name, 而在GATK中 除了SM(sample)是必须的之外 ,还需要read group ID, platform, library等.因为GATK 要利用这些信息来进行BQST,realign等等. 下面说一下我对这几个的理解. 首先说下sample , 就是样本,假如说你要研究某三个水稻品种(CS

The Variant Call Format

VCF is a text format. It contains meta-information lines, a header line, and then data lines each containing information about a posittion in the genome. The fomat also has the ability to contain genotype information on samples for each position. (图看

结合GATK和samtools以及picardtools call snp

刚开始学生物信息学,老师给了个以snp为标记来画遗传图的课题,研究了一段时间,开始用bwa+samtools来call snp,师姐以前用这套做过,她建议我用另外的方法来做,于是准备学下用GATK来做snp calling. call snp首先要有个比较准确的参考基因组,然后有样本,我的样本是杂交产生的F2,下面使自己的一些使用过程和心得体会, 这套流程相对于bwa和samtool来说有所不同,先需要对sample的fasta进行筛选,我自己找了下主要是用NGSQC toolkit下的perl

如何用 samtools 和 bcftools call snp

samtools 之前博文已经介绍过一些常用的方法.本篇主要说下如何利用samtools 和 bcftools来call snp. 和其他工具一样,bam文件都要经过处理(另见博文).假如对C17样本进行call snp, 数据为: LC17-1_L002.sorted.rmp.rg.recal.bam LC17-2_L006.sorted.rmp.rg.recal.bam LC17-3_L002.sorted.rmp.rg.recal.bam RC17-1_L003.sorted.rmp.rg

GATK的BaseRecalibration程序在无标准SNP数据库情况下,是否还能进行BaseRecalibration?

GATK(Genome Analysis Toolkit)是美国Broad Institute研发的一套检测SNP(SNP calling)的流程.测序后的碱基质量由于测序过程中的物理化学反应和测序仪的瑕疵会导致碱基质量偏离真实情况,为了矫正碱基质量,BaseRecalibrator程序被开发出来.在碱基质量矫正过程中,已知的标准SNP数据库是非常重要的输入文件,例如人类的dbSNP数据库.但如果研究的基因组是一个比较新的物种,没有标准的SNP数据库的话,对碱基指令进行校正是否还可行?答案是仍有

How to prepare a FASTA file for calling SNP by GATK

1, Creating the fasta sequence dictionary file java -jar CreatSequenceDictionary.jar R=sequencename.fasta O=sequencename.dict 2,Creating the fasta index file samtools faidx sequencename.fasta

call snp protocol by SOAP2

最近Tanger师兄让我看一个大豆基因组重测序的文章,里面call snp使用的是SOAP2等相关的软件,于是想自己摸索,写个call snp的流程出来,也算是一次尝试吧,写的不好不要见笑 soap是华大开发的一个系列软件,全称是Short Oligonucleotide Analysis Package,我理解的中文意思是短寡聚核苷酸序列分析包,soap有很多功能,我也在慢慢摸索学习,先说下我用到的两个软件SOAPsnp和SOAPaligner,分别用来call snp和mapping的,安装

GATK 一些资料

1. http://blog.sciencenet.cn/home.php?mod=space&uid=1469385&do=blog&classid=166694&view=me&from=space [转载]如何使用SnpEff 对SNP结果进行分析 [转载]基因组变异检测概述   :重要要看看 [转载]GATK Best Practices for version 3.x 实战篇(中)

GATK errors 及解决办法 (持续更新)

1, MESSAGE: Input files reads and reference have incompatible contigs: Relative ordering of overlapping contigs differs, which is unsafe.##### ERROR   reads contigs = [Chr1, Chr10, Chr11, Chr12, Chr2, Chr3, Chr4, Chr5, Chr6, Chr7, Chr8, Chr9, ChrSy,