bowtie2-inspect 根据bowtie2的索引取得fasta 序列

   今天运行tophat2的时候看到下面这条记录:

[2016-02-27 11:40:03] Checking for reference FASTA file
        Warning: Could not find FASTA file /home/pub/database/Human/hg19/bowtie2_db/hg19.fa.fa
[2016-02-27 11:40:03] Reconstituting reference FASTA file from Bowtie index
  Executing: /home/pub/software/bowtie2/bowtie2-inspect /home/pub/database/Human/hg19/bowtie2_db/hg19.fa > /home/xudl/mrna/15B1230A/data_analysis/map/tophat2/CASE2/tmp/hg19.fa.fa

tophat2 在指定的bowtie2的索引目录下没有找到对应的名称为bowtie2_index.fa 的参考基因组文件,第一步首先根据

bowtie2索引构建参考基因组的fasta序列,用到bowtie2中的 bowtie2-inspect 程序

该程序的用法如下:

bowtie2-inspect bowtie2-inedx > ref.fa

之前一直用bowtie2做比对,没想到还有这么一个功能。

时间: 2024-12-28 20:52:52

bowtie2-inspect 根据bowtie2的索引取得fasta 序列的相关文章

samtools faidx 命令处理fasta序列

samtools faidx 能够对fasta 序列建立一个后缀为.fai 的文件,根据这个.fai 文件和原始的fastsa文件, 能够快速的提取任意区域的序列 用法: samtools faidx input.fa 该命令对输入的fasta序列有一定要求:对于每条序列,除了最后一行外, 其他行的长度必须相同, >one ATGCATGCATGCATGCATGCATGCATGCAT GCATGCATGCATGCATGCATGCATGCATGC ATGCAT >two another chro

Lucene 5.2.1 + jcseg 1.9.6中文分词索引(Lucene 学习序列2)

Lucene 5.2.1 + jcseg 1.9.6中文分词索引(Lucene 学习序列2) jcseg是使用Java开发的一个开源的中文分词器,使用流行的mmseg算法实现.是一款独立的分词组件,不是针对lucene而开发,但是提供了最新版本的lucene和solr分词接口. Java Code <span style="font-size:14px;">package com.qiuzhping.lucene; import java.sql.Connection; i

通过bed文件获取fasta序列

一.BED 文件格式 BED 文件格式提供了一种灵活的方式来定义的数据行,以用来描述注释的信息.BED行有3个必须的列和9个额外可选的列. 每行的数据格式要求一致. 必须包含的3列: 1.chrom, 染色体名字(e.g. chr3, chrY) 2.chromStart, 目标区段在染色体起始位置,染色体第一个碱基的位置是0 3.chromEnd, 目标区段在染色体结束位置,染色体的末端位置没有包含到显示信息里面.例如,首先得100个碱基的染色体定义为chromStart =0 . chrom

统计fasta序列条数

1.统计大于号开始的行数或seqkit 工具 # 通过搜索>的数量 grep -c '^>' myFasta.fasta 1397492 #seqkit统计提取,速度也是很快的 seqkit stats t.fa -T | grep -v file | cut -f 4 1397492 # 统计 1-100bp 范围长的序列数 cat t.fa | seqkit seq -m 1 -M 100 | seqkit stat -T | grep -v file | cut -f 4 Total s

Perl去重fasta序列

常规方法 #! usr/bin/perl -w use strict; my $input=shift; my %hash; open IN,"<$input"; $/=">"; while(<IN>){ chomp; $hash{$_}=1; } foreach my $key(keys %hash){ print ">$key"; } close IN; Bioseq模块方法 #!/usr/bin/perl us

十分钟入门pandas数据结构和索引

pandas数据结构和索引是入门pandas必学的内容,这里就详细给大家讲解一下,看完本篇文章,相信你对pandas数据结构和索引会有一个清晰的认识. 一.数据结构介绍 在pandas中有两类非常重要的数据结构,即序列Series和数据框DataFrame.Series类似于numpy中的一维数组,除了通吃一维数组可用的函数或方法,而且其可通过索引标签的方式获取数据,还具有索引的自动对齐功能:DataFrame类似于numpy中的二维数组,同样可以通用numpy数组的函数和方法,而且还具有其他灵

SqlServer索引及优化详解

(一)深入浅出理解索引结构 实际上,您可以把索引理解为一种特殊的目录.微软的SQL SERVER提供了两种索引:聚集索引(clustered index,也称聚类索引.簇集索引)和非聚集索引(nonclustered index,也称非聚类索引.非簇集索引).下面,我们举例来说明一下聚集索引和非聚集索引的区别: 其实,我们的汉语字典的正文本身就是一个聚集索引.比如,我们要查“安”字,就会很自然地翻开字典的前几页,因为“安”的拼音是“an”,而按照拼音排序汉字的字典是以英文字母“a”开头并以“z”

聚集索引与非聚集索引

转自:聚集索引和非聚集索引(整理) 官方说法: 聚集索引 一种索引,该索引中键值的逻辑顺序决定了表中相应行的物理顺序. 聚集索引确定表中数据的物理顺序.聚集索引类似于电话簿,后者按姓氏排列数据.由于聚集索引规定数据在表中的物理存储顺序,因此一个表只能包含一个聚集索引.但该索引可以包含多个列(组合索引),就像电话簿按姓氏和名字进行组织一样. 聚集索引对于那些经常要搜索范围值的列特别有效.使用聚集索引找到包含第一个值的行后,便可以确保包含后续索引值的行在物理相邻.例如,如果应用程序执行 的一个查询经

聚集索引和非聚集索引

聚集索引 一种索引,该索引中键值的逻辑顺序决定了表中相应行的物理顺序.  聚集索引确定表中数据的物理顺序.聚集索引类似于电话簿,后者按姓氏排列数据.由于聚集索引规定数据在表中的物理存储顺序,因此一个表只能包含一个聚集索引.但该索引可以包含多个列(组合索引),就像电话簿按姓氏和名字进行组织一样.    聚集索引对于那些经常要搜索范围值的列特别有效.使用聚集索引找到包含第一个值的行后,便可以确保包含后续索引值的行在物理相邻.例如,如果应用程序执行 的一个查询经常检索某一日期范围内的记录,则使用聚集索