vcf格式简介

1)背景

伴随着大规模的基因分型及测序工程的产生(例如1000 Genomes Project),之前的信息贮存格式例如gff文件它记录了每一个基因的详细信息,其中许多基因信息在基因组之间是共享的,而我们需要记录的仅仅是不同基因组之间变异的地方,因此这些格式会显得格外冗余。这就迫切需要一种新的格式来记录高效的记录这些变异信息。VCF(Variant Call Format)就是这样一种用来贮存基因序列变异信息的文本文件(通常是压缩格式)。

2)VCF格式简介

VCF 格式文件包含有3部分:元信息(meta-information),以‘##’为前缀,通常包含fileformat、fileDate、reference等信息;头行信息( header line ),以‘#’为前缀;数据行(data lines),该部分为主题部分,记录了每个样品每个位点处的基因分型信息。

主题部分每列的含义:


1)CHROM - chromosome:参考基因组标识。
2)POS - position:变异位点相对于参考基因组所在的位置(1-based)。在每个染色体内,按照数字位置升序排列。
3)ID - identi?er: 如果是dbSNP variant则需要给出相应的rs 号,若不是,则默认使用‘.’
4)REF - reference base(s): 参考序列碱基,必须是 A,C,G,T,N其中的一种。
5) ALT - alternate base(s): 表示variant的Allele,若有多个,则使用逗号分隔,(变异所支持的碱基类型及碱基数量)这里的碱基类型和碱基数量,对于SNP来说是单个碱基类型的编号,而对于Indel来说是指碱基个数的添加或缺失,以及碱基类型的变化
6)QUAL - quality:表示 Phred质量值,用来表示 ALT的可靠性
7)FILTER - ?lter status:表示是否通过过滤。PASS表示该位点通过过滤,否则表示没有通过。例如,q10表示质量值低于10
8)INFO - additional information:表示的是变异描述信息。包括18种,都是以<key>=[,data]格式,并使用分号分隔的形式,其中很多的注释信息在VCF文件的头部注释中给出。

AA :ancestral allele    AC  :allele count in genotypes, for each ALT allele, in the same order as listed    AF  :allele frequency for each ALT allele in the same order as listed: use this when  estimated from primary data, not called genotypes AN  :total number of alleles in called genotypes    BQ  :RMS base quality at this position  CIGAR :cigar string describing how to align an alternate allele to the reference alleleDB  :dbSNP membership   DP  :combined depth across samples, e.g. DP=154 END :end position of the variant described in this record H2  :membership in hapmap2  H3  :membership in hapmap3  MQ  :RMS mapping quality, e.g. MQ=52    MQ0 :Number of MAPQ == 0 reads covering this record NS  :Number of samples with data    SB  :strand bias at this position   SOMATIC :indicates that the record is a somatic mutation, for cancer genomics   VALIDATED :validated by follow-up experiment    1000G :membership in 1000 Genomes

9)FORMAT:可选的扩展,例如GT:AD:DP:GQ:PL。该部分是主体部分,表示基因型信息的多个标签,这些标签之间以冒号分割,其对应的值位于第10列,同样以冒号分割,表示第一个样品的基因型结果
10)SAMPLES:表示样本信息,各个Sample的值,由BAM文件中的@RG下的SM标签所决定,这些值对应着第9列的各个格式,不同格式的值用冒号分开,每一个sample对应着1列;多个samples则对应着多列,这种情况下列的数多余10列。

3)vcftools

3)习题

4)参考资源

The Variant Call Format Speci?cation,VCFv4.3 and BCFv2.2
https://en.wikipedia.org/wiki/Variant_Call_Format
http://www.cnblogs.com/emanlee/p/4562064.html
https://gatkforums.broadinstitute.org/gatk/discussion/1268/how-should-i-interpret-vcf-files-produced-by-the-gatk

原文地址:https://www.cnblogs.com/djx571/p/9504787.html

时间: 2024-10-15 19:58:14

vcf格式简介的相关文章

BMP、GIF、JPEG、PNG以及其他图片格式简介

BMP格式 BMP是英文Bitmap(位图)的简写,它是Windows操作系统中的标准图像文件格式,能够被多种Windows应用程序所支持.随着Windows操作系统的流行与丰富的Windows应用程序的开发,BMP位图格式理所当然地被广泛应用.这种格式的特点是包含的图像信息较丰富,几乎不进行压缩,但由此导致了它与生俱生来的缺点--占用磁盘空间过大.所以,目前BMP在单机上比较流行. GIF格式 GIF是英文Graphics Interchange Format(图形交换格式)的缩写.顾名思义,

java解析vcf格式文件导入导出

package com.yfli.test; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.ByteArrayOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import j

JSON数据表示格式简介(JavaScript对象表示法)

[1] JSON简介    > JSON全称 JavaScript Object Notation    > 类似于JS中对象的创建的方法    > JSON和XML一样,都是一种表示数据的格式    > 但是JSON比XML的存储和解析性能要高的多,JSON要比XML高个30%左右.    <user>        <name>sunwukong</name>        <age>18</age>        &

“background-image:url(data:image”data类型的Url格式简介

所谓"data"类型的Url格式,是在RFC2397中 提出的,目的对于一些"小"的数据,可以在网页中直接嵌入,而不是从外部文件载入.例如对于img这个Tag,哪怕这个图片非常非常的小,小到只有一个 点,也是要从另外一个外部的图片文件例如gif文件中读入的,如果浏览器实现了data类型的Url格式,这个文件就可以直接从页面文件内部读入了. data类型的Url格式早在1998年就提出了,时至今日,Firfox.Opera.Safari和Konqueror这些浏览器都

VCF文件详细信息

Variant Call Format(VCF)是一个用于存储基因序列突变信息的文本格式.表示单碱基突变, 插入/缺失, 拷贝数变异和结构变异等.BCF格式文件是VCF格式的二进制文件. CHROM [chromosome]: 染色体名称. POS [position]: 参考基因组突变碱基位置,如果是INDEL(插入缺失),位置是INDEL的第一个碱基位置. ID [identifier]: 突变的名称.若没有,则用'.'表示其为一个新变种. REF [reference base(s)]:

iOS开发- 生成/解析.vcf文件

vcf, 通讯录导出的一种格式. 一.生成vcf文件 如果要把我们iPhone通讯录里的数据, 生成vcf格式文件. 我们可以借助iCloud. 小技巧:通过iCloud导出iPhone通讯录的方法 当然, 如果你想在应用中, 利用代码生成, 完全可以.先导出通讯录数据, 再解析, 再生成vcf文件即可. 参考下面代码: -(NSString*)generateVCardStringWithContacts:(CFArrayRef)contacts { NSInteger counter = 0

图像YUV格式介绍

1 YUV格式简介 YUV格式,与我们熟知的RGB类似,YUV也是一种颜色编码方法,主要用于电视系统以及模拟视频领域,它将亮度信息(Y)与色彩信息(UV)分离,没有UV信息一样可以显示完整的图像,只不过是黑白的,这样的设计很好地解决了彩色电视机与黑白电视的兼容问题.并且,YUV不像RGB那样要求三个独立的视频信号同时传输,所以用YUV方式传送占用极少的频宽. YUV格式有两大类:planar和packed.对于planar的YUV格式,先连续存储所有像素点的Y,紧接着存储所有像素点的U,随后是所

bmp格式解析

最近一直在写图像处理的作业,好多啊 bmp格式简介 a.格式组成 1:位图头文件数据结构,它包含BMP图像文件的类型.显示内容等信息: 2:位图信息数据结构,它包含有BMP图像的宽.高.压缩方法,以及定义 颜色等信息: 3:调色板,这个部分是可选的,有些位图需要调色板,有些位图,比如真 彩色图(24位的BMP)就不需要调色板: 4:位图数据,这部分的内容根据BMP位图使用的位数不同而不同,在24位 图中直接使用RGB,而其他的小于24位的使用调色板中颜色索引值. b.对应数据结构 BMP文件头(

各种图片格式的区别

JPEG格式简介    JPEG格式的全称为Joint Photograhic Experts Group,扩展名为JPG.JPEG是一个可以提供优异图像质量的文件压缩格式,设置为JPEG格式所拍摄的照片在相机内部通过影像处理器已经加工完 毕,可以直接出片.虽然JPEG是一种有损压缩格式,一般情况下,只要不追求图像过于精细的品质,JPEG有诸多值得考虑的优势,JPEG通常压缩比率在 10:1至40:1之间,因此可以节省很大一部份存储卡的空间,从而大大增加了图片拍摄的数量,并加快了照片存储的速度,