bam文件格式说明

  • bam文件说明

    bam文件和sam文件内容其实是一样的,只是bam是二进制的压缩文件,需要通过特定的软件来进行查看,bam文件通常可以理解为12个字段组成

    BAM格式分为header section(头部分,注释信息,以@开头,可有可无)和alignment section(比对结果)两个部分。

  • alignment section由11个字段组成

    1 序列的名字,也就是reads的名称

    2 是一个标记的数字,是有需要转换成二进制才能知道代表的意思,各个数字分别代表

`1. 序列是一对序列中的一个`
`2. 比对结果是一个pair-end比对的末端`
`4. 没有找到位点`
`8. 这个序列是pair中的一个但是没有找到位点`
`16. 在这个比对上的位点,序列与参考序列反向互补`
`32. 这个序列在pair-end中的的mate序列与参考序列反响互补`
`64. 序列是 mate 1`
`128. 序列是 mate 2`
假如说标记为以上列举出的数目,就可以直接推断出匹配的情况。假如说标记不是以上列举出的数字,比如说83=(64+16+2+1),就是这几种情况值和,可以使用二进制数来表示

3 参考序列的名字

4 在参考序列上的位置

5 mapping qulity 越高则位点越独特,比对的质量值

bowtie2有时并不能完全确定一个短的序列来自与参考序列的那个位置,特别是对于那些比较简单的序列。但是bowtie2会给出一个值来显示出 这个段序列来自某个位点的概率值,这个值就是mapping qulity。Mapping qulity的计算方法是:Q=-10log10p,Q是一个非负值,p是这个序列不来自这个位点的估计值。
假如说一条序列在某个参考序列上找到了两个位点,但是其中一个位点的Q明显大于另一个位点的Q值,这条序列来源于前一个位点的可能性就比较大。Q值的差距越大,这独特性越高。
Q值的计算方法来自与SAM标准格式,请查看SAM总结。

6 代表比对结果的CIGAR字符串,如37M1D2M1I,这段字符的意思是37个匹配,1个参考序列上的删除,2个匹配,1个参考序列上的插入。M代表的是alignment match(可以是错配),可以理解为表示比对的具体情况

7 mate 序列所在参考序列的名称,mate一般指大的片段序列

8 mate 序列在参考序列上的位置

9 估计出的片段的长度,当mate 序列位于本序列上游时该值为负值。

10 read的序列

11 read序列对应的ASCII码格式的碱基质量值

12 可选的区域 header section

其中header section用不同的tag表示不同的信息,主要有@HD,说明符合标准的版本、对比序列的排列顺序@SQ,参考序列说明@RG,比对上的序列(read)说明@PG,使用的程序说明@CO,任意的说明信息。Tag以键值对的形式存在。

AS:i 匹配的得分
XS:i 第二好的匹配的得分
YS:i mate 序列匹配的得分
XN:i 在参考序列上模糊碱基的个数
XM:i 错配的个数
XO:i gap open的个数
XG:i gap 延伸的个数
NM:i 经过编辑的序列
YF:i 说明为什么这个序列被过滤的字符串
YT:Z
MD:Z? 代表序列和参考序列错配的字符串

原文地址:https://www.cnblogs.com/raisok/p/10917769.html

时间: 2024-08-30 07:17:47

bam文件格式说明的相关文章

samtools flags 的含义

对于双端比对的数据,生成的BAM文件中,R1端序列和R2端序列的标识符是一样的,之前一直不知道如何根据bam文件区分哪条序列是R1端,哪条序列是R2端,昨天仔细研究了一下,原来代表R1端和R2端的信息都存储在flag中,即bam文件的第二列: 在bam文件格式中定义了各种flag代表的意思 /*! @abstract the read is paired in sequencing, no matter whether it is mapped in a pair */ #define BAM_

NGS中的一些软件功能介绍

1.bowtie 短序列比对工具,blast也是短序列比对工具,速度快,结果易理解. 输入可以是fastq或者fasta文件. 生成比对结果文件sam格式的吧. 2.bwa 转自:https://www.jianshu.com/p/1552cc6ac3be 将DNA序列比对到参考基因组上的软件,包含三种算法: BWA-backtrack:适合比对长度不超过100bp的序列: BWA-SW:合于长度为70-1M bp的序列: BWA-MEM:合于长度为70-1M bp的序列,高质量的测序数据,其比

生物信息前期入门大纲

零.前言 "不懂就问",但是这里的"问"是指问百度和谷歌,实在不懂再问人! 上谷歌教程,参考文章:谷歌浏览器插件与电脑软件推荐 (1)生信论坛推荐 生信技能树(生信菜鸟团),有很多优秀的帖子,以及对应的微信公众号,其它生信微信公众号优秀的文章它会转载,所以关注这个够了,历史消息值得翻阅一遍: PLoB:https://www.plob.org/ Biostars,国外生信论坛 (2)文本文件浏览软件 nodepad++.sublime text.破解版的UE 一.l

17、SAM文件格式说明(转载迷宫中的将军)

1. SAM格式说明 SAM代表Sequence Alignment/Map格式,是一种制表符分隔的文本格式,包含一个可选的头部分(header section,有人称之为"注释部分"),和一个比对部分(alignment section).如果包含头部分,那么头部分必须置于比对部分之前.头部分的行以@符号开头,而比对部分的行不以@符号开头.比对部分的每一行包含11个必选的字段,用于说明重要的比对信息,如比对位置(mapping position)等:另有可变数量的可选字段,用于存储其

3GP文件格式研究

需要看的文档 http://www.3gpp.org/ftp/Specs/archive/26_series/ 3GPP TS 26.233 3GPP TS 26.243 3GPP TS 26.244 luxh找到的一个好东西 http://isotc.iso.org/livelink/livelink/fetch/2000/2489/Ittf_Home/PubliclyAvailableStandards.htm 大家一定要仔细找找啊,宝藏! 我们研究3gpp文件最重要的两个文档就是<ISO/

sam/bam格式

一)Sam (Sequence Alignment/Map) ------------------------------------------------- 1) SAM 文件产生背景 随着Illumina/Solexa, AB/SOLiD and Roche/454测序技术不断的进步,各种比对工具产生,被用来高效的将reads比对到参考基因组.因为这些比对工具产生不同格式的文件,导致下游分析比较困难,因此一个通用的格式可以提供一个很好的接口用于链接比对与下游分析(组装,变异等,基因分型等)

配置文件格式用哪个?文件夹+纯文本文件,XML,SQLite

稍具规模的软件都会须要一个配置文件来支持软件的执行.眼下常见的配置文件格式有纯文本.XML.SQLite.自己定义二进制格式,怎样进行选择呢? 1 纯文本--永远不会失效的文件格式 文本化是传统Unix哲学的教条之中的一个,可见其巨大威力.大多数类Unix系统的软件配置文件都是採用了纯文本格式. 比如/etc/inittab, /etc/fstab, httpd.conf等等. 1.1 长处 (1)可读性强 配置文件不仅须要让机器理解,也须要让人理解. 纯文本就很easy让人理解. (2)存在大

INI文件格式

最近在看git命令,遇到INI文件格式,上网查了一下,把它总结一下: 程序没有任何配置文件,那么它对外是全封闭的,一旦程序需要修改一些参数必须要修改程序代码本身并重新编译,为了让程序出厂后还能根据需要进行必要的配置,所以要用配置文件:配置文件有很多种,如INI配置文件,XML配置文件,cfg配置文件,还有就是可以使用系统注册表等. 本文主要介绍INI文件的格式信息. INI "就是英文 "initialization"的头三个字母的缩写:当然INI file的后缀名也不一定是

Caffe应用篇----文件格式转换

我们手中有的一般都是图片数据,jpg.bmp格式等,但caffe常使用的数据是db格式(leveldb/lmdb),因此首先我们要将自己数据转换成caffe可运行的格式文件.别捉鸡,caffe有给我们提供工具.根目录的tools文件下convert_imageset.cpp,经编译生成可执行文件,存放于./build/tools/文件,这个文件可帮我们将图片文件转换成db格式. 以分类任务为例,需要4个文件,train.train.txt.val.val.txt,train和val分别存放训练数