Filter FASTA files

Use a regular expression for filtering sequences by id from a FASTA file, e.g. just certain chromosomes from a genome. There are other tools as part of bigger packages to install (and no regex support), mostly awk-based awkward (sorry for the pun) bash solutions, and scripts using packages that one needs to install and with still no support for regular expressions. This however is a simple, straightforward little python script for a simple task. It doesn’t do anything else and doesn’t need anything but a stock python installation. Based on the FASTA reader snippet.

Usage:

python FASTAfilter.py [-h] regex infile outfile

From a FASTA-file with multiple >entries, filter by sequence ids using a
regex.

positional arguments:
regex Regex to filter entry ids, e.g. ‘chr[1-4]’. Note that the id does not contain the initial > character.
infile A FASTA input file, usually with multiple entries.
outfile The new file with only the matching entries.

optional arguments:
-h, –help show this help message and exit

INSTALL:

cd /data/software
wget http://dm516.user.srcf.net/fastafilter/FASTAfilter.zip
unzip FASTAfilter.zip
easy_install argparse

USAGE:

python FASTAfilter.py [1-9,10,11,12,13,14,15,16,17,18,X] \
/dat2/INPUT.fa \
/dat2/OUTPUT.fa

Error:

Traceback (most recent call last):
File "FASTAfilter.py", line 3, in <module>
import argparse
ImportError: No module named argparse

Solution:

run "easy_install argparse" as root user.

http://dm516.user.srcf.net/?p=314

时间： 2024-10-29 15:53:19

Filter FASTA files的相关文章

OpenFileDialog.Filter 属性

如果 Filter 属性为 Empty,将显示所有文件. 始终显示文件夹. Filter 由以下部分组成:筛选器说明,后跟竖线 (|) 和筛选模式. 筛选器可以指定一个或多个文件类型. 说明描述了对话框中显示的文件的类型. 尽管说明可以是任意字符串,但它通常由以下部分组成:筛选器中包括的文件的类型,后跟其中包含与该说明关联的扩展名的括号. 筛选器说明显示在对话框的下拉列表中. 下面是一个筛选器说明的示例. My Files (*.my) 筛选模式确定对话框显示哪些文件. 相同说明的筛选模式由分号

fastax-toolkit使用详解

FASTX-Toolkit是一款用于处理Short-Reads FASTA/FASTQ文件的程序,里面包含了丰富的FASTA/FASTQ文件格式转换.统计等命令.软件下载地址:http://hannonlab.cshl.edu/fastx_toolkit/download.html 下面是其功能介绍: FASTQ-to-FASTA converter (FASTQ转换成Fasta):Convert FASTQ files to FASTA files. 命令:usage: fastq_to_fa

Falcon Genome Assembly Tool Kit Manual

Falcon Falcon: a set of tools for fast aligning long reads for consensus and assembly The Falcon tool kit is a set of simple code collection which I use for studying efficient assembly algorithm for haploid and diploid genomes. It has some back-end c

&lt;二代測序&gt; 下载 NCBI sra 文件

本文近期更新地址: http://blog.csdn.net/tanzuozhev/article/details/51077222 随着測序技术的不断提高.二代測序数据成指数增长. NCBI提供了SRA数据库存储这些数据. http://www.ncbi.nlm.nih.gov/sra 为了方便更好的分析这些数据,NCBI提供了下载的命令行工具:sra-toolkit. 包含下面命令: 官方文档: http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi

定时器(Quartz)快速入门

Quartz概述 Quartz中的触发器 Quartz中提供了两种触发器,分别是CronTrigger和SimpleTrigger. SimpleTrigger 每隔若干毫秒来触发纳入进度的任务.因此,对于夏令时来说,根本不需要做任何特殊的处理来"保持进度".它只是简单地保持每隔若干毫秒来触发一次,无论你的 SimpleTrigger每隔10秒触发一次还是每隔15分钟触发一次,还是每隔24小时触发一次. CronTrigger 在特定"格林日历"时刻触发纳入进程的

8) pom.xml

http://maven.apache.org/xsd/maven-4.0.0.xsd <xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema" xmlns="http://maven.apache.org/POM/4.0.0" elementFormDefault="qualified" targetNamespace="http://maven.apache.org/POM/

格式化xml

打开xml: string xmlstring = ""; private void button1_Click(object sender, EventArgs e) { OpenFileDialog dialog = new OpenFileDialog(); dialog.InitialDirectory = Application.StartupPath; dialog.Filter = "All Files|*.*|xml file(*.xml)|*.xml&quo

去除文本多余空行

1.读取文件: OpenFileDialog dialog=new OpenFileDialog(); dialog.InitialDirectory = Application.StartupPath; dialog.Filter = "All Files|*.*|text file(*.txt)|*.txt"; dialog.RestoreDirectory = true; if (dialog.ShowDialog() == DialogResult.OK) { string f

基于C#的单元测试（VS2015）

这次来联系怎么用VS2015来进行C#代码的单元测试管理,首先,正好上次写了一个C#的WordCount程序,就用它来进行单元测试联系吧. 首先,根据VS2015的提示,仅支持在共有类或共有方法中支持创建单元测试.所以,如果我们要测试私有或是保护的类和方法,是要先将他们暂时设定成公有类型. 在VS2015中创建单元测试非常简单,只要在我们想测试的地方点击右键,就会出现 “创建单元测试” 选项. 如果发现菜单没有显示,可以参照这篇博客进行设置.http://www.bubuko.com/infod

猜你喜欢

多线程与网络之NSURLConnection发送请求

*:first-child { margin-top: 0 !important; } body > *:last-child { margin-bottom: 0 !important; } ...

CSS position的absolute和relative的解析[转]

定位一直是WEB标准应用中的难点,如果理不清楚定位那么可能应实现的效果实现不了,实现了的效果可能会走样.如果理清了定位的原理,那定位会让网页实现的更加完美. 定位的定义:在CSS中关于定位的内容是: ...

Python开发基础-Day24socket套接字基础2

基于UDP的socket 面向无连接的不可靠数据传输,可以没有服务器端,只不过没有服务器端,发送的数据会被直接丢弃,并不能到达服务器端 1 #客户端 2 import socket 3 ip_port ...

ThreadPoolExecutor

1 package concurrency; 2 3 import java.util.List; 4 import java.util.concurrent.BlockingQueue; 5 imp ...

vim常用命令总结（转)

vim 选择文本,删除,复制,粘贴文本的选择,对于编辑器来说,是很基本的东西,也经常被用到,总结如下: v 从光标当前位置开始,光标所经过的地方会被选中,再按一下v结束. V 从 ...

斯坦福大学的机器学习跟深度学习。

http://openclassroom.stanford.edu/MainFolder/CoursePage.php?course=MachineLearning http://deeplearni ...

codeforce -602B Approximating a Constant Range(暴力)

CF上说是数据结构类型.表示不会. 题意是,找连续的并且任意两个数相差不超过1的最长串. 思路:题中说相邻的两个数相差不超过1: 那么cnt最小为2,cnt赋初值2:由于要相差不超过一,所以每个串的最 ...

AutoLayout深入浅出五[UITableView动态高度]

本文转载至 http://grayluo.github.io//WeiFocusIo/autolayout/2015/02/01/autolayout5/ 我们经常会遇到UITableViewCell ...

2015年创业中遇到的技术问题：11-20

11.SpringMVC接收参数,冲突. class LoanBean { private Double amount; } class LoanInfo{ piavate Money amount; ...

Linux环境下快速项目部署

由于Linux和Java一样开源,所以现在在服务器的部署上基本上都是采用Linux平台作为服务器,然后部署项目!在开发项目的过程中,绝大部分程序猿还是使用最经典的windows操作系统,虽然Linux ...

图的基本算法

近两个星期,回顾数据结构时又把图的相关知识复习了一下,顺便为了提高编码能力,将基本算法也都实现了一下.现将实例附录如下: 1)要实现的算法 ①建立图的存储结构 ②深度优先搜索和广度优先搜索 ③求图的最 ...

C#中使用TCP通信

TCP通信需要通信双方都在线,所以需要先启动服务端进行监听,客户端才能获得连接,服务端代码: static void Main(string[] args) { TcpClient client = ...

Matlab随笔之插值与拟合（上）

1.拉格朗日插值新建如下函数: function y=lagrange(x0,y0,x) %拉格朗日插值函数 %n 个节点数据以数组 x0, y0 输入(注意 Matlat 的数组下标从1开始), ...

你不知道的 flex 技巧

一.使用 Auto Margins 对齐不需要给图片使用任何的 flex,也不需要给父容器设置 space-between,只需要给 ' BUY-BUY-BUY' 按钮设置 margin-left: ...

常见的HTTP错误总结

一般来说HTTP2XX,代表请求正常完成,HTTP3XX代表网站重定向,HTTP4XX,代表客户端出现错误,HTTP5XX,代服务器端出现了错误 HTTP301:请求的数据具有新的位置 HTTP302 ...

HDFS概述

该文章参考 Hadoop权威指南引言随着数据爆炸式增长,数据的存储和分析作为一个大的难题.多年来硬盘存储容量增长的同时,访问速度-数据从硬盘读取的速度,未内与时俱进.比如1990年, 一个磁盘存储 ...

思迅软件思迅餐饮软件找回会员卡信息数据库修复误删除修复

2016年4月18日广州牛排餐厅思迅误格式化数据库碎片重组找回今天接到思迅代理商打来电话,说客户因为电脑问题找当地的电脑维修人员把电脑格式化重新安装系统,磁盘有原来的6个区变成了4个分区,客 ...

东华实业控股股东所持逾1.36亿股被冻结

根据公告,上述股份冻结原因为:粤泰集团与无锡市兆顺不锈中板有限公司(简称"兆顺不锈")签订<矾山矿业股权转让协议书>,按照协议书约定,兆顺不锈向粤泰集团转让其所持有的庐 ...

ZOJ3551 Bloodsucker(概率dp)

转载请注明出处: http://www.cnblogs.com/fraud/ ——by fraud Bloodsucker Time Limit: 2 Seconds Me ...

使用Mysql慢查询日志对有效率问题的SQL进行监控

输入命令:show variables like 'slow%' 可以发现 slow_query_log 为 OFF(默认),表示未开启慢查询日志 slow_query_log_file 为慢查询日志 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.031 s.