SAM (Sequence Aliginment/Map Format )

用比对软件,如bwa, bowtie, 进行比对后产生的结果,一般为sam 或 bam
格式。bam是sam的二进制文件。下面用实例介绍一下sam文件格式:

sam 分为header section (@开头)和 alignment section(一般分为11列),
下图为一个sam文件的前半部分:

header 部分以@开头,格式为‘TAG:VALUE’,  TAG是两个字符:

@HD The header line. The first line if present

VN Format version

SO Sorting order of
alignments.如unknown, unsorted, queryname, coordinate

@SQ Reference sequence dictionary.

SN  Reference sequence
name

LN  Reference sequence
length

@RG read group

ID Read group identifier, each @RG
line must have a unique ID.

LB library

PL Platform/technology used to
produce the reads

PU platform unit

SM sample

@PG  Program

ID Program record indetifier

PN  program name

VN program version

关于read group 的解释请参考我写的博文

下面介绍alignment section.

上图只展示了六列,我们先解释前六列:

1, QNAME  Query template NAME, 就是read的名字

2,FLAG    bitwise flag #稍微有点复杂,一共有12个bit,
分别代表不同的含义,如果这个alignment 满足其中几个,就将这几个相加得到该值。详细见官方文档。

3,RNAME  参考序列的名字。

4,POS  比对到的最左端的位置

5,MAPQ 比对的质量得分

6,CIGAR 将比对的结果用CIGAR表示,如M 表示match, I 表示对于ref 来说的 insertion, D
表示deletion。

下图显示的是第7,8,9,10列

7, RNEXT Ref. name of the mate/next read.

8,   PNEXT Position of the mate/next read

9,   TLEN observed Template length.

10, SEQ 就是你的read碱基。

下图是11, 12 , 13列。

11,QUAL 是你碱基的质量。每个字符代表一个得分。

11列之后是optional fields, 我们在这里不做介绍。

其实我不太明白那个TLEN的含义。

by freemao

FAFU.

[email protected]

时间: 2024-10-10 20:59:51

SAM (Sequence Aliginment/Map Format )的相关文章

Java中的容器类(List,Set,Map,Queue)

Java中的容器类(List,Set,Map,Queue) 一.基本概念 Java容器类类库的用途是“保存对象”,并将其划分为两个不同的概念: 1)Collection.一个独立元素的序列,这些元素都服从一条或多条规则.List必须按照插入的顺序保存元素,而Set不能有重复的元素.Queue按照排队规则来确定对象产生的顺序(通常与它们被插入的顺序相同). 2)Map.一组成对的“键值对”对象,允许你使用键来查找值.ArrayList允许你使用数字来查找值,因此在某种意义上讲,它将数字与对象关联在

hdu 4941 Magical Forest(STL之map应用)2014多校训练第7场

Magical Forest                                                                       Time Limit: 24000/12000 MS (Java/Others)    Memory Limit: 131072/131072 K (Java/Others) Problem Description There is a forest can be seen as N * M grid. In this fore

Android基础 -- Activity之间传递数据(bitmap和map对象)

原文:http://blog.csdn.net/xueerfei008/article/details/23046341 做项目的时候需要用到在2个activity之间传递一些数据,之前做的都是些字符串之类的东东,结果这次卡了好久,折腾了一个下午. 第一个:传递bitmap 这个问题非常奇葩(可能我android水平还不够),居然不会报错,我是直接用bundle或Intent的extral域直接存放bitmap,结果运行时各种宕机,各种界面乱窜(我非常的纳闷)...搜索之后看大家都说不能直接传递

51nod 1094 和为k的连续区间(暴力和map优化)

题目意思: http://www.51nod.com/onlineJudge/questionCode.html#!problemId=1094 一整数数列a1, a2, ... , an(有正有负),以及另一个整数k,求一个区间[i, j],(1 <= i <= j <= n),使得a[i] + ... + a[j] = k. Input 第1行:2个数N,K.N为数列的长度.K为需要求的和.(2 <= N <= 10000,-10^9 <= K <= 10^9

ZOJ 3674 Search in the Wiki(字典树 + map + vector)

题目链接:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemId=4917 题意:每个单词都一些tips单词.先输入n个单词和他们的tips.然后m组查询,每次查询一些单词,按字典序输出这些单词的公有tips.(每个单词都都只包含小写大写字母) 思路:对第i个单词,用vector数组g,g[i]来存这个单词的所有tips.对于所有单词建立字典树,在单词的结尾结点存好该单词的tips在g数组中存的一维下标i.最后用map来计数每组询问中

POJ 2418 Hardwood Species(字典树 || map运用)

题目链接:http://poj.org/problem?id=2418 Description Hardwoods are the botanical group of trees that have broad leaves, produce a fruit or nut, and generally go dormant in the winter. America's temperate climates produce forests with hundreds of hardwood

[hdu4436 str2int]后缀自动机SAM(或后缀数组SA)

题意:给n个数字串,求它们的所有不包含前导0的不同子串的值之和 思路:把数字串拼接在一起,构造SAM,然后以每个状态的长度len作为特征值从小到大排序,从前往后处理每个状态,相当于按拓扑序在图上合并计算答案. #include <bits/stdc++.h> using namespace std; #define X first #define Y second #define pb(x) push_back(x) #define mp(x, y) make_pair(x, y) #defi

UVa 11419 我是SAM(最小点覆盖+路径输出)

https://vjudge.net/problem/UVA-11419 题意:一个网格里面有一些目标,可以从某一行,某一列发射一发子弹,可以打掉它:求最少的子弹,和在哪里打? 思路: 每个点的x坐标与y坐标相连,现在就是要找一个最小点覆盖,同时还要输出哪些点被覆盖了. 1 #include <cstdio> 2 #include <cstring> 3 #include <vector> 4 #include <algorithm> 5 using nam

Mac/iPhone 多媒体(图片、音视频)处理

Mac/iPhone 多媒体(图片.音视频)处理 如何从 iPhone 导出照片和录制的视频 应用 Image Capture(图像捕捉) "图像捕捉"在数码相机或扫描仪与您的 Mac 电脑之间传输图像.当带有摄像头的兼容设备连接到电脑时,可以使用"图像捕捉"来拍照.然后,您可以在 iPhoto 或 Automator 中使用这些图像,或者通过网络共享这些图像. 打开[图像捕捉]应用,选择要导入的已连接的 iPhone.点击底栏左侧下方的箭头按钮展开,可选择[连接此