用比对软件,如bwa, bowtie, 进行比对后产生的结果,一般为sam 或 bam
格式。bam是sam的二进制文件。下面用实例介绍一下sam文件格式:
sam 分为header section (@开头)和 alignment section(一般分为11列),
下图为一个sam文件的前半部分:
header 部分以@开头,格式为‘TAG:VALUE’, TAG是两个字符:
@HD The header line. The first line if present
VN Format version
SO Sorting order of
alignments.如unknown, unsorted, queryname, coordinate
@SQ Reference sequence dictionary.
SN Reference sequence
name
LN Reference sequence
length
@RG read group
ID Read group identifier, each @RG
line must have a unique ID.
LB library
PL Platform/technology used to
produce the reads
PU platform unit
SM sample
@PG Program
ID Program record indetifier
PN program name
VN program version
关于read group 的解释请参考我写的博文
下面介绍alignment section.
上图只展示了六列,我们先解释前六列:
1, QNAME Query template NAME, 就是read的名字
2,FLAG bitwise flag #稍微有点复杂,一共有12个bit,
分别代表不同的含义,如果这个alignment 满足其中几个,就将这几个相加得到该值。详细见官方文档。
3,RNAME 参考序列的名字。
4,POS 比对到的最左端的位置
5,MAPQ 比对的质量得分
6,CIGAR 将比对的结果用CIGAR表示,如M 表示match, I 表示对于ref 来说的 insertion, D
表示deletion。
下图显示的是第7,8,9,10列
7, RNEXT Ref. name of the mate/next read.
8, PNEXT Position of the mate/next read
9, TLEN observed Template length.
10, SEQ 就是你的read碱基。
下图是11, 12 , 13列。
11,QUAL 是你碱基的质量。每个字符代表一个得分。
11列之后是optional fields, 我们在这里不做介绍。
其实我不太明白那个TLEN的含义。
by freemao
FAFU.
[email protected]