基因组注释之软件使用

1、RepeatMasker

1.1、输入

输入格式为fasta序列,不接受其它 GenBank, Staden,等格式。它既可以处理一个批文件(一个文件包含许多条序列),也可以批处理许多文件(每个文件含有一条序列)。

RepeatMasker *.fasta

该命令将mask当前目录下所有的以.fasta文件结尾,并为每个文件提供单独的报告。虽然处理批文件更快,但是处理单个文件更精准。

This command will mask all files that end with .fasta in the current directory and give separate reports for each file. Note that if you have
multiple small sequences it is considerably faster to run RepeatMasker on one batch file than on many single sequence files. The summary file
will be more informative as well. However, analysis on single files (when larger than 2 kb each) can be slightly more accurate, since GC levels
 for each sequence will be calculated and used to choose appropriate parameters.

1.2、输出

RepeatMasker返回3个文件:

.mask文件:其中包含所有已标识的重复和低复杂度序列,即mask后得基因组。

.out文件:列出被mask的序列,及其注释文件。序列按提交文件中的顺序打印,而序列在注释表中按字母顺序表示。

tbl文件是所分析序列的重复程度得摘要统计。

RepeatMasker returns a .masked file containing the query sequence(s) with all identified repeats and low complexity sequences masked. These masked sequences are listed and annotated in the .out file. The masked sequences are printed in the same order as they are in the submitted file, whereas the sequences are presented alphabetically in the annotation table. The .tbl file is a summary of the repeat content of the analyzed sequence.

原文地址:https://www.cnblogs.com/djx571/p/12340799.html

时间: 2024-10-11 00:16:49

基因组注释之软件使用的相关文章

基因组注释

基因组注释主要包括四个研究方向:重复序列的识别:非编码RNA的预测:基因结构预测和基因功能注释.我们将分别对这四个领域进行阐述. 1 重复序列的识别. 1.1  重复序列的研究背景和意义:重复序列可分为串联重复序列(Tendam repeat)和散在重复序列(Interpersed repeat)两大类.其中串联重复序列包括有微卫星序列,小卫星序列等等:散在重复序列又称转座子元件,包括以DNA-DNA方式转座的DNA转座子和反转录转座子(retrotransposon).常见的反转录转座子类别有

【annotation】非人类物种基因组注释(MSU为例)

基因组注释工具ANNOVAR是一款非常好用的注释软件,功能强大,输出数据简单美中不足就是对于非人类物种来说UI不够完善,因此总结一下整个注释的过程,帮助别人快乐自己. 首先我们需要明确我们需要的数据和软件: 数据包括: all.gff3 #MSU的v7.0版本组装的注释文件 all.con #基因组序列 这样就是所有的输入文件了,现在我们列举一下需要用到的软件: gffread #gff3 to gtf gtfToGenePred #gtf to genePred (建库需要的文件) annov

使用BRAKER2进行基因组注释

来自:https://www.jianshu.com/p/e6a5e1f85dda 使用BRAKER2进行基因组注释 BRAKER2是一个基因组注释流程,能够组合GeneMark,AUGUSTUS和转录组数据. 在使用软件之前,有几点需要注意下 尽量提供高质量的基因组.目前随着三代测序价格下降,这一点问题不大. 基因组命名应该简单,最好就是">contig1"或">tig000001" 基因组需要屏蔽重复序列 默认参数通常表现效果就很好,但是也要根据物种

基因组注释之基因功能注释

1.下载所需的数据库及软件 nr数据库已经有了,这里不做介绍 2.pfam数据库 wget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/Pfam-A.hmm.gzwget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/Pfam-A.hmm.dat.gzwget ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release

三代基因组拼接软件--Falcon篇

Falcon是PacBio开发的一款用于三代基因组devono拼接软件,该软件支持PBS,SLURM,SGE,TORQE, LSF作业调度系统.大体的工作原理是将长reads分隔成指定大小模块,这些模块彼此间再相互比对,进行自我纠错以及查找重叠信息,然后再用De Bruijn算法进一步拼接生成contigs. 原理简介: 1.Raw sub-reads overlapping for error correction(构建进行错误矫正的重叠信息) 具体先由fasta2DB与DBsplit对原始r

antiSMASH数据库:微生物次生代谢物合成基因组簇查询和预测

2017年4月28日,核酸研究(Nucleic Acids Research)杂志上,在线公布了一个可搜索微生物次生代谢物合成基因组簇的综合性数据库antiSMASH数据库 4.0版,前3版年均引用250次,累计引物1600+:可实现基因组与基因组之间的相关天然产物合成基因簇的查询和预测. 临床上使用的大部分抗生素和药物均来自植物或微生物的天然产物.结合基因组挖掘的经典分离与分析法使得能鉴定和描述基于宏基因组的天然产物途径,该过程与研究结果是天然产物研究领域中在近二十年来较为创新的技术.为使该技

基于eXpress对转录组和基因组进行量化

; color:rgb(51,51,51); font-family:Arial,Console,Verdana,'Courier New'"> NGS 目录(?)[+] General workflow eXpress是一个通用的丰度估计工具,它可以应用于任意靶序列和高通量测序reads. 靶序列可以是任意基因组区域,例如RNA-seq中的转录本.因此,一般的流程应该是这样的: 1. 选择你要分析的数据 2. 产生靶序列的集合 3.将目的片段比对到靶序列上 4. eXpress需要的参数

多年收集的一些稀有软件2

QQ:365543212 Fuel Economy Calculator v1.1 B.001(汽车工程软件,用于预测车辆燃油消耗率,是目前此类软件中最为全面的,能接收从最新的发动机分析程序Engine Analyzer自动发送来的强大的游标和发动机规格) Psat v5.1 1CD ProScan.v5.1 1CD PowerFlow v3.3p3a for Linux 1CD(Exa公司的汽车外气流计算软件) Rotating Inertia Calculator v1.1 A.000(一款

R语言基因组数据分析可能会用到的data.table函数整理

R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快.包括两个方面,一方面是写的快,代码简洁,只要一行命令就可以完成诸多任务,另一方面是处理快,内部处理的步骤进行了程序上的优化,使用多线程,甚至很多函数是使用C写的,大大加快数据运行速度.因此,在对大数据处理上,使用data.table无疑具有极高的效率.这里主要介绍在基因组数据分析中可能会用到的函数. fread 做基因组数据分析时,常常需要读入处理大文件,这个时候我们就可以舍弃read.ta