samtools的mpileup

samtools的mpileup命令是一个samtools中一个很重要的命令。它的主要功能主要是生成BCF、VCF文件或者pileup一个或多个bam文件。比对记录以在@RG中的样本名作为区分标识符。如果样本标识符缺失,那么每一个输入文件则视为一个样本。

在pileup格式中(没有-u或者-g参数),每一行代表基因组的位置,由染色体名、1个碱基坐标、参考碱基、reads覆盖该位点的数量、reads的碱基、碱基质量和比对质量。有关匹配、错配、插入缺失、链、比对质量和一条reads的开始结束位置都被编码到reads碱基列。在此列上,“.”表示与正链上的参考碱基匹配,“,”表示与负链上的参考碱基匹配,“>”和“<”表示跳过参考基因,“ACGTN”表示正链上的错配,“acgtn”表示负链上的错配。此模式“+[0-9]+[ACGTNacgtn]+”表示在此位点至下一个位点之间与参考基因组对应位点相比,多了一段插入碱基,插入长度由模式中的整数表示。与此类似,“-[0-9]+[ACGTNacgtn]+”表示缺失,缺失的碱基使用“*”表示。同时,“^”表示reads的开始,“$”表示reads的结束。在“^”后的字符的ASCII码值减去33表示比对质量值。

另外,要注意到在输入文件中,有两种正交方式,通过使用-r和-l参数实现。-r参数需要指定一个索引号去进行随机访问而后者-l参数通过文件中的指定区域进行过滤,无需索引。这两个参数可以同时使用。通常使用bed文件,将待处理的文件进行分割,然后同时进行处理,这样可以加快处理速度。最后,处理完毕后,再合并。

时间: 2024-10-12 12:45:04

samtools的mpileup的相关文章

Call Indels/SV常用软件-搬运工

Indel Calling相比于SNP Calling的难度要大一些,因为由于这种插入-缺失的存在,本身就很容易干扰排序,这种干扰会导致Indel周围出现很多假阳性的SNP,而且会影响Indel本身的准确性.理论上来说,检测Indel的最好方式就是做de novo assembly,然后比较de novo得到的基因组与原来的基因组,不过实际上de novo assembly的难度更大OTL Paired-end测序为寻找较长片段的Indel提供了非常有用的信息,但是如何准确的利用这些信息也是目前

结合GATK和samtools以及picardtools call snp

刚开始学生物信息学,老师给了个以snp为标记来画遗传图的课题,研究了一段时间,开始用bwa+samtools来call snp,师姐以前用这套做过,她建议我用另外的方法来做,于是准备学下用GATK来做snp calling. call snp首先要有个比较准确的参考基因组,然后有样本,我的样本是杂交产生的F2,下面使自己的一些使用过程和心得体会, 这套流程相对于bwa和samtool来说有所不同,先需要对sample的fasta进行筛选,我自己找了下主要是用NGSQC toolkit下的perl

samtools常用命令详解

samtools的说明文档:http://samtools.sourceforge.net/samtools.shtml samtools是一个用于操作sam和bam文件的工具合集.包含有许多命令.以下是常用命令的介绍 1. view view命令的主要功能是:将sam文件转换成bam文件:然后对bam文件进行各种操作,比如数据的排序(不属于本命令的功能)和提取(这些操作 是对bam文件进行的,因而当输入为sam文件的时候,不能进行该操作):最后将排序或提取得到的数据输出为bam或sam(默认的

如何用 samtools 和 bcftools call snp

samtools 之前博文已经介绍过一些常用的方法.本篇主要说下如何利用samtools 和 bcftools来call snp. 和其他工具一样,bam文件都要经过处理(另见博文).假如对C17样本进行call snp, 数据为: LC17-1_L002.sorted.rmp.rg.recal.bam LC17-2_L006.sorted.rmp.rg.recal.bam LC17-3_L002.sorted.rmp.rg.recal.bam RC17-1_L003.sorted.rmp.rg

samtools和bcftools使用说明

转自:http://www.cnblogs.com/emanlee/p/4316581.html samtools是一个用于操作sam和bam文件的工具合集.包含有许多命令.以下是常用命令的介绍 1. view view命令的主要功能是:将sam文件转换成bam文件:然后对bam文件进行各种操作,比如数据的排序(不属于本命令的功能)和提取(这些操作 是对bam文件进行的,因而当输入为sam文件的时候,不能进行该操作):最后将排序或提取得到的数据输出为bam或sam(默认的)格式. bam文件优点

samtools的基本用法

1.sam,bam的格式转换: $samtools view -sb file.sam >file.bam $samtools view -sb file.sam -o file.bam #sam文件转换为bam,-s 输入文件为sam -b 输出文件为bam $samtools view file.bam>file.sam$samtools view -h file.bam -o file.sam#bam文件转换为sam文件 2.对bam文件进行排序 $samtools sort -n fi

Difference between Hard Clip(H) and Soft Clip(S) in Samtools CIGAR string

一般人都知道 H 和 S 的表面上的区别,即 S 就是 soft, H 就是 hard,S 后,序列里还是会保留序列的信息,而 H 则不会. 但这只是表面上的,在深层次的意义上, H 和 S 又有什么本质的不同呢? 首先要了解嵌合体的概念: 嵌合体就是两个不同的序列错误的拼接到了一起,也就是一条序列分别比对到了 ref 的两个地方(这和多重比对.次级比对之间又有区别) Example of extended CIGAR and the pileup output. (a) Alignments

[samtools] 文本查看语法,浏览SNP/INDEL位点

santools可以作为文本查看工具,查看比对结果文件,下面做一简单介绍: 1. 通过BWA比对获取sam比对文件,也可以将fastq文件转化为bam/sam文件: 2. 转换sam文件为bam文件,samtools view -bS seq.sam > seq.bam 3. 对bam文件进行排序,samtools sort seq.bam -o seq.sorted.bam 4. 对bam文件进行index,samtools index seq.sorted.bam 5. 查看比对结果文件,s

linux下bwa和samtools的安装与使用

bwa的安装流程安装本软体总共需要完成以下两个软体的安装工作:1) BWA2) Samtools 1.BWA的安装a.下载BWA (download from BWA Source Forge ) http://bio-bwa.sourceforge.net/bwa.shtmlb.安装BWA$ tar -jxvf bwa-*.tar.bz2c.编译BWA$ make 2.Samtools的安装a.下载Samtools (download from Samtools Source Forge )