fastax-toolkit使用详解

FASTX-Toolkit是一款用于处理Short-Reads FASTA/FASTQ文件的程序,里面包含了丰富的FASTA/FASTQ文件格式转换、统计等命令。软件下载地址:http://hannonlab.cshl.edu/fastx_toolkit/download.html

下面是其功能介绍:

  • FASTQ-to-FASTA converter (FASTQ转换成Fasta):Convert FASTQ files to FASTA files.

命令:usage: fastq_to_fasta [-h] [-r] [-n] [-v] [-z] [-i INFILE] [-o OUTFILE]

输入文件:fastq文件

输出文件:fasta文件

  • FASTX Statistics(质量统计)

命令:fastx_quality_stats [-h] [-i INFILE] [-o OUTFILE]

输入文件: FASTA/Q文件

输出文件:文本文件

  • FASTQ Information(FastQ质量统计图、核酸长度分布):Chart Quality Statistics and Nucleotide Distribution

输入文件:fastx_quality_stats结果

输出文件:png文件

  • FASTQ/A Collapser:Collapsing identical sequences in a FASTQ/A file into a single sequence (while maintaining reads counts)
  • FASTQ/A Trimmer (去掉FASTA/FASTQ中barcode序列):Shortening reads in a FASTQ or FASTQ files (removing barcodes or noise).
  • FASTQ/A Renamer(批量对FASTA/FASTQ序列重命名):Renames the sequence identifiers in FASTQ/A file.
  • FASTQ/A Clipper(去掉FASTA/FASTQ中的接头序列):Removing sequencing adapters / linkers

命令:fastx_clipper [-h] [-a ADAPTER] [-D] [-l N] [-n] [-d N] [-c] [-C] [-o] [-v] [-z] [-i INFILE] [-o OUTFILE]

输入文件:FASTA/FASTQ

输出文件:FASTA/FASTQ

$ fastx_clipper -Q 33 -l 18 -a TGGAATTCTCGGGTGCCAAGG -v -i input.fastq -o input_clipped.fastq

这里 -v可以显示输入和输出功能, -l 18是去掉长度小于18nt的reads,要善用fastx_clipper -h,这样就能挑选自己想要的参数。-Q 33 在Fastx Toolkit的应用中都要加,这个在-h中不显示,我暂时能找到的解释是这么说的-Q is an undocumented parameter to indicate that quality values use ASCII 33 encoding。结果显示如下:

Clipping Adapter: TGGAATTCTCGGGTGCCAAGG

Min. Length: 18

Input: 15344568 reads.

Output: 10454576 reads.

discarded 4708543 too-short reads.

discarded 31383 adapter-only reads.

discarded 150066 N reads.

然后是去低质量的reads,可以用fastq_quality_filter这个应用

$ fastq_quality_filter -Q 33 -v -q 30 -p 80 -i input_clipped.fastq -o input_clipped_qualified.fastq

关于 -q 和 -p 下列这个图片解释的很清楚,-q 30 -p 80 所过滤掉的reads介于-q 20 -p 90和-q 20 -p 100之间。

  • FASTQ/A Reverse-Complement(取FASTA/FASTQ的反向互补序列)
  • Producing the Reverse-complement of each sequence in a FASTQ/FASTA file.

输入文件:FASTA/FASTQ

输出文件:FASTA/FASTQ

  • FASTQ/A Barcode splitter(根据Barcode将FASTA/FASTQ分成多个样本文件)

Splitting a FASTQ/FASTA files containning multiple samples

  • FASTA Formatter:changes the width of sequences line in a FASTA file
  • FASTA Nucleotide Changer:Convets FASTA sequences from/to RNA/DNA
  • FASTQ Quality Filter:Filters sequences based on quality
  • FASTQ Quality Trimmer:Trims (cuts) sequences based on quality
  • FASTQ Masker:Masks nucleotides with ‘N‘ (or other character) based on quality
时间: 2024-10-25 08:33:26

fastax-toolkit使用详解的相关文章

pt(Percona Toolkit)工具详解:(一)安装

pt(Percona Toolkit)工具是由Percona公司开发的一个用perl语言编写的工具集,包含很多功能,例如在线更改数据表结构,校验主从数据,检查数据库状态,分析慢查询等这些靠人手做起来比较麻烦的事情,功能强大,操作简单. 安装 既然是perl语言开发的工具集,那当然是先安装perl相关依赖包了 yum install -y perl perl-IO-Socket-SSL perl-DBD-MySQL perl-Time-HiRes perl-Digest-MD5 然后,就到下面这个

linux查看端口及端口详解

今天现场查看了TCP端口的占用情况,如下图 红色部分是IP,现场那边问我是不是我的程序占用了tcp的链接,,我远程登陆现场查看了一下,这种类型的tcp链接占用了400多个,,后边查了一下资料,说ESTABLISHED状态 ESTABLISHED的意思是建立连接.表示两台机器正在通信.      之后查找  ncube-lm  发现ncube-lm是一个端口,是nCube License Manager (即ncube管理的一个许可证明),意思是被允许,被认证开放的意思,,, 之后查看端口号 是1

MySQL 执行计划explain详解

MySQL 执行计划explain详解 2015-08-10 13:56:27 分类: MySQL explain命令是查看查询优化器如何决定执行查询的主要方法.这个功能有局限性,并不总会说出真相,但它的输出是可以获取的最好信息,值得花时间去了解,因为可以学习到查询是如何执行的. 调用EXPLAIN 在select之前添加explain,mysql会在查询上设置一个标记,当执行查询计划时,这个标记会使其返回关于执行计划中每一步的信息,而不是执行它.它会返回一行或多行信息,显示出执行计划中的每一部

WebService WSDL详解(上)

为什么使用WSDL? 像Internet协议之类的标准有没有为权威所利用,或者人们这样看待它是因为顺之所获的好处远远超出了代价?曾经有许多试图建立的标准都流产了.有时候,那些还没有普遍使用的标准甚至由法令或政府规定强行推出:Ada语言就是一例. 我相信正是跟随标准所带来的好处使它广泛接受.例如,对于铁路服务来说,真正重要的是,不同公司所铺设的铁路结合到一起,或者是来自好几个公司的产品协调的工作在一起.几家大的企业合力建立了SOAP标准.Web Service描述语言(WSDL)向这种Web Se

Comet技术详解:基于HTTP长连接的Web端实时通信技术

前言 一般来说,Web端即时通讯技术因受限于浏览器的设计限制,一直以来实现起来并不容易,主流的Web端即时通讯方案大致有4种:传统Ajax短轮询.Comet技术.WebSocket技术.SSE(Server-sent Events). 关于这4种技术方式的优缺点,请参考<Web端即时通讯技术盘点:短轮询.Comet.Websocket.SSE>.本文将专门讲解Comet技术.(本文同步发布于:http://www.52im.net/thread-334-1-1.html) 学习交流 - 即时通

MySQL 5.5 主从复制异步、半同步以及注意事项详解

大纲 一.前言 二.Mysql 基础知识 三.Mysql 复制(Replication) 四.Mysql 复制(Replication)类型 五.Mysql 主从复制基本步骤 六.Mysql 主从复制(异步) 七.Mysql 主从复制(半同步) 八.Mysql 复制工具 九.Mysql 复制注意事项 十.Mysql 复制过滤 一.前言 从这一篇博客开始我们就来学习mysql的高级课程,在前面的几篇博客我们讲解了mysql基础知识.mysql日志类型.mysql配置文件.mysql备份策略,这一篇

Mysql 命令详解

1.读取服务器变量:    show [global|session] variables;2.更改非静态(只读)变量:    set [global|session] <variable_name> = <value>;3.读取状态变量:    show status;    show session status;    show global status;4.显示给定数据库的表的详情    show table [from <db>] status;5.显示所有

JVM常用分析工具JPS/JINFO/JSTACK/JSTAT/JMAP详解

最近一直在上项目,导致博主天天加班幸福感爆棚,有木有. 平时一直没有关注过JVM,最近上了一个新的项目,它对内存的需求量比较大,导致目前项目在用的JVM参数不能满足他的需求.起初还没发现是这方面问题,后来在启动的时候报错了,一报错不要紧,要紧就要紧在博主我要调整JVM的参数了.调整参数也不要紧,更要紧的是调不对很让我着急. 因此,我就百谷了下,对JVM的相关内容突击了一下,受益匪浅啊. 废话不扯了,下面就是我的学习笔记啦.本篇博文就和大家分享下平时去分析JVM以及排故障时需要用到的几款工具. 目

JavaFX学习之道:详解JavaFX架构与框架

JavaFX 2.0平台是基于Java技术的富客户端平台.它使应用程序开发者更加容易的开发和部署跨平台的富互联网应用(RIA).JavaFX 2.0文档包含了JavaFX 2.0所提供的功能的概述. 图1描述了JavaFX 2.0平台的架构组件.后面的部分将对每一个组件进行逐一的描述.在JavaFX通用API的下面是用来运行JavaFX代码的引擎.这个引擎包括以下子组件:JavaFX高性能图形引擎(Prism);新的更小但更有效率的窗体系统(Glass);媒体引擎和Web引擎.虽然这些组件不是包

详解Tomcat 7的七大新特性和新增功能

Apache发布首个Tomcat 7版本已经发布了有一段时间了,Tomcat 7引入了许多新功能,并对现有功能进行了增强.很多文章列出了Tomcat 7的新功能,但大多数并没有详细解释它们,或指出它们的不足,或提供代码示例.本文将明确描述Tomcat 7中七个最显著的特征和新增的功能,并对其作出评论,而不是仅仅列出新的功能.本文还提供了代码例子以方便你可以对其有更好的理解. 本文分为两个部分,分别是"Tomcat 7的新特性"和"Tomcat 7增强的功能". To