VCF is a text format. It contains meta-information lines, a header line, and
then data lines each containing information about a posittion in the genome. The
fomat also has the ability to contain genotype information on samples for each
position.
(图看不清楚的话放大。按住ctrl , 滚动鼠标滚轮)
meta-information lines 是有##开头的,对下面出现的信息进行一下说明,是以键值对的形式表示的。如DP total read
depth at the locus.
header line只有一行,以#开头,它描述了下面data line 每列代表什么意思。
CHROM 表示参考序列的名字。
POS表示变异位点在参考序列上的位置。
ID 如果在call snp 过程中用到了dbSNP,恰好这个位点在dbSNP中,则显示此位点在dbSNP中的名字。
REF 参考序列在此位点上的碱基
ALT alternate non-reference alleles called on at least one of
sample,如果有多个sample的话会用逗号隔开
QUAL 质量,越大质量越高。
FILTER 如果对结果进行过filter,会出现filter的相关信息。
INFO additional informations.如AC:allel count in genotypes. DP: combineed
depth across samples. NS:number of samples with data.
FORMAT: 如下图第一列所示, GT指genotype, 1/1 代表homozygote, 两个等位基因均和参考基因组不同。 0/1
代表heterozygote, 一个等位基因与参考基因组一样,另一个不一样。
DP:read depth at this postion for this sample
RO:和reference一样的碱基有多少个 QR : RO的质量
AO:和reference不一样的碱基多少个 QA : AO的质量
GL :
三种基因型的likelihood,越接近于0,可能性越大。
C17是这个样本的名字 下面的信息都是描述这个样本的, 多个样本的话,会被隔开。
不同的软件,不同的参数,结果vcf可能略有差别。以上的例子是freebayes的结果。下图是gatk call snp 的结果:
上图中的AD相当于RO 和 AO, 可以看到AD对应后面的是两个值。GQ, 是基因型的质量。 PL 和GL类似,可能算法不同,都是越接近0
,可能性越大。
下图是用samtools call snp 的结果。PL 在DP的前面而不是在最后了。其他含义相同。
有些我也不是很清楚,大概是这个意思。个人理解,有错误欢迎指正。
by freemao
FAFU.
[email protected]