The Variant Call Format

VCF is a text format. It contains meta-information lines, a header line, and
then data lines each containing information about a posittion in the genome. The
fomat also has the ability to contain genotype information on samples for each
position.

(图看不清楚的话放大。按住ctrl , 滚动鼠标滚轮)

meta-information lines 是有##开头的,对下面出现的信息进行一下说明,是以键值对的形式表示的。如DP total read
depth at the locus.

header line只有一行,以#开头,它描述了下面data line 每列代表什么意思。

CHROM 表示参考序列的名字。

POS表示变异位点在参考序列上的位置。

ID 如果在call snp 过程中用到了dbSNP,恰好这个位点在dbSNP中,则显示此位点在dbSNP中的名字。

REF 参考序列在此位点上的碱基

ALT alternate non-reference alleles called on at least one of
sample,如果有多个sample的话会用逗号隔开

QUAL 质量,越大质量越高。

FILTER 如果对结果进行过filter,会出现filter的相关信息。

INFO additional informations.如AC:allel count in genotypes. DP: combineed
depth across samples. NS:number of samples with data.

FORMAT: 如下图第一列所示, GT指genotype, 1/1 代表homozygote, 两个等位基因均和参考基因组不同。 0/1
代表heterozygote, 一个等位基因与参考基因组一样,另一个不一样。

DP:read depth at this postion for this sample

RO:和reference一样的碱基有多少个   QR : RO的质量

AO:和reference不一样的碱基多少个   QA : AO的质量

GL :
三种基因型的likelihood,越接近于0,可能性越大。

C17是这个样本的名字 下面的信息都是描述这个样本的, 多个样本的话,会被隔开。

不同的软件,不同的参数,结果vcf可能略有差别。以上的例子是freebayes的结果。下图是gatk call snp 的结果:

上图中的AD相当于RO 和 AO, 可以看到AD对应后面的是两个值。GQ, 是基因型的质量。 PL 和GL类似,可能算法不同,都是越接近0
,可能性越大。

下图是用samtools call snp 的结果。PL 在DP的前面而不是在最后了。其他含义相同。

有些我也不是很清楚,大概是这个意思。个人理解,有错误欢迎指正。

by freemao

FAFU.

[email protected]

时间: 2024-10-19 00:08:45

The Variant Call Format的相关文章

VCF (Variant Call Format)格式详解

VCF文件示例(VCFv4.2) ##fileformat=VCFv4.2 ##fileDate=20090805 ##source=myImputationProgramV3.1 ##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta ##contig=<ID=20,length=62435964,assembly=B36,md5=f126cdf8a6e0c7f379d618ff66beb2da,species="

Variant Call Format(VCF)

Introduction Variant Call Format (VCF) is a text file format for storing marker and genotype data. This short tutorial describes how Variant Call Format encodes data for single nucleotide variants. Every VCF file has three parts in the following orde

VCF文件详细信息

Variant Call Format(VCF)是一个用于存储基因序列突变信息的文本格式.表示单碱基突变, 插入/缺失, 拷贝数变异和结构变异等.BCF格式文件是VCF格式的二进制文件. CHROM [chromosome]: 染色体名称. POS [position]: 参考基因组突变碱基位置,如果是INDEL(插入缺失),位置是INDEL的第一个碱基位置. ID [identifier]: 突变的名称.若没有,则用'.'表示其为一个新变种. REF [reference base(s)]:

VCFtools

The C++ executable module examples This page provides usage examples for the executable module. Extended documentation for all of the options can be found on the manual page. Running the program Getting basic file statistics Applying a filter Writing

samtools常用命令详解

samtools的说明文档:http://samtools.sourceforge.net/samtools.shtml samtools是一个用于操作sam和bam文件的工具合集.包含有许多命令.以下是常用命令的介绍 1. view view命令的主要功能是:将sam文件转换成bam文件:然后对bam文件进行各种操作,比如数据的排序(不属于本命令的功能)和提取(这些操作 是对bam文件进行的,因而当输入为sam文件的时候,不能进行该操作):最后将排序或提取得到的数据输出为bam或sam(默认的

samtools和bcftools使用说明

转自:http://www.cnblogs.com/emanlee/p/4316581.html samtools是一个用于操作sam和bam文件的工具合集.包含有许多命令.以下是常用命令的介绍 1. view view命令的主要功能是:将sam文件转换成bam文件:然后对bam文件进行各种操作,比如数据的排序(不属于本命令的功能)和提取(这些操作 是对bam文件进行的,因而当输入为sam文件的时候,不能进行该操作):最后将排序或提取得到的数据输出为bam或sam(默认的)格式. bam文件优点

21 、GPD PSL

1.Variant Call Format(VCF) Example ##fileformat=VCFv4.0 ##fileDate=20110705 ##reference=1000GenomesPilot-NCBI37 ##phasing=partial ##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data"> ##INFO=<ID=DP,Number=1,Type

vcf格式简介

1)背景 伴随着大规模的基因分型及测序工程的产生(例如1000 Genomes Project),之前的信息贮存格式例如gff文件它记录了每一个基因的详细信息,其中许多基因信息在基因组之间是共享的,而我们需要记录的仅仅是不同基因组之间变异的地方,因此这些格式会显得格外冗余.这就迫切需要一种新的格式来记录高效的记录这些变异信息.VCF(Variant Call Format)就是这样一种用来贮存基因序列变异信息的文本文件(通常是压缩格式). 2)VCF格式简介 VCF 格式文件包含有3部分:元信息

Format 函数示例

Format 函数示例本示例显示用 Format 函数做格式化输出的不同用法.对于日期分隔号(/),时间分隔号(:),以及 AM/ PM 等文本而言,其真正的显示格式会因计算机上的国际标准不同而有所差异.在开发阶段,日期与时间是以短日期的格式,配合代码的国际标准来显示的.而在运行时,短日期则是根据系统的国际标准而定,而系统的国际标准和代码的国际标准可能并不相同.本示例中是假设国际标准为 English/United States. MyTime 及 MyDate 在开发环境下,使用系统的短日期设