interProScan的使用

InterProScan的三种使用方法

Interproscan,通过蛋白质结构域和功能位点数据库预测蛋白质功能。是EBI开发的一个集成了蛋白质家族、结构域和功能位点的非冗余
数据库。Interproscan整合了一些使用最普及的一些数据库,并应用于功能未知的蛋白进行Interpro注释和GO注释。

以下介绍3中interpro注释的方法:

一、网页版的Interpro注释

打开InterProScan的官网地址:http://www.ebi.ac.uk/Tools/pfa/iprscan/。将序列粘贴到输入框中进行Interpro注释。

优点:使用网页版,方便快捷;不消耗本地计算资源。
缺点:输入必须为蛋白质序列;一次只能比对条蛋白质序列。

二、使用EBI提供的perl程序进行远程比对

程序下载网页地址:http://www.ebi.ac.uk/Tools/webservices/services/pfa/iprscan_rest

其实,除了perl程序,Python和Ruby也各有一支程序。分别是:
iprscan_lwp.pl
; iprscan_urllib2.py
; iprscan_net_http.rb

优点:不消耗本地计算资源;可以自己编写脚本来大批量比对本地的protein序列到EBI的
interpro服务器,获得得interpro注释。
缺点:比对结果为xml格式,普通科研人员玩不来。

三、本地化的InterProScan注释


3.1 本地化的InterProScan安装与配置

3.1.1 从ftp://ftp.ebi.ac.uk/pub/databases/interpro/iprscan下载以下5个文件:

RELEASE/latest/iprscan_v4.8.tar.gz
BIN/4.x/iprscan_bin4.x_[PLATFORM].tar.gz
DATA/iprscan_DATA_[LATESTDATAVERSION].tar.gz
DATA/iprscan_PTHR_DATA_[LATESTDATAVERSION].tar.gz
DATA/iprscan_MATCH_DATA_[LATESTDATAVERSION].tar.gz

3.1.2 将5个文件解压到一个文件夹中,然后运行其中的文件Config.pl,来对InterProScan进行配置。
3.1.3
配置的过程中,若选择进行本地web配置,则修改本地www服务的配置文件,以能进行本地化网页版的运行。

3.2 本地化InterProScan的使用。

3.2.1 命令行运行iprscan的方法:

$ bin/iprscan -cli -iprlookup -goterms -format xml -i test.fasta -o test.out

3.2.2 iprscan的参数说明:

-cli         设定程序在unix命令下运行,如果不设此参数,程序会被当作CGI程序运行。
-iprlookup 结果里显示相应的interpro注释信息。
-goterms 结果里显示相应的GO注释信息,但前面要加上-iprlookup参数。
-format 输出结果的格式,有raw, xml, txt, html(default), ebixml
(EBI header on top of xml) gff。
-appl 数据库和扫描方法的的选择。无此参数表示默认选择全部数据库(配置Interpro
scan时候设置的数据库)。选择多个数据库则需该参数多次。本地运行Interproscan相
比官网运行,有两个数据库不能选择为:tmhmm 和 signalp。这两个数据库的选择需要
commercial license。
-i 输入文件,InterProScan支持输入蛋白质序列和核酸序列,如果输入核
酸系列,程序会将其翻译成蛋白质序列,你可以指定翻译用到的密码表,用下面的-trtable
参数,序列格式可以是raw,Fasta或者EMBL。
-o 结果输出文件,如果不选择此参数,结果将输出到标准输出,输出格式可以
用下面的-format参数设定。
-trtable 选择核酸翻译蛋白质的密码表,同时可以设定-trlen 参数来控制核酸翻译
的转录子长度。
-nocrc 不对输入蛋白质序列进行crc64匹配。不加此参数,则默认是会对蛋白质
序列开启了crc64匹配。Interpro数据库(memember database)已经包含了大量序列
搜索的结果,就是如果你的蛋白序列已经包含在interpro的数据库里面,iprscan会直接
给出搜索结果,无需进行本地运算。interpro数据库不包括tmhmm, coil和signalp,
所以crc64匹配不到这3个数据库。一般情况下,由于commercial licese而无法使用
tmhmm和signalp数据库,coil数据库也不会使用。故不使用此参数,加快程序运行速度。
-seqtype    输入的序列类型,蛋白质序列(-seqtype p)(defult)或者(-se
qtype n)。
-email    设定一个Email地址,程序运行完毕向信箱发送邮件通知分析完毕。
-verbose 程序运行过程中显示运行的状态。
-help 显示帮助信息。

3.2.3 InterProScan其它附带的重要程序

meter.pl     reports the progress of a job.有百分之几的chunk已经运行完毕。
converter.pl 将raw的格式转换成其它的格式,比如html,xml,txt等格式。
iterator.pl 运用于逐条去注释序列

3.2.4 多线程运行
hmmpfam, hmmscan 和 hmmsearch 能多线程运行。
经过测试 PIR superfamily 和
SUPERFAMILY
这两个数据库的应用比较费时,可以设置conf文件夹中的配置文件hmmpir.conf和superfamily.conf,将其中的cpu_opt的值设置高一些。默认是1。

3.2.5 逐条序列地运行

InterProScan不能立马给出结果文件并相继把结果放入到结果文件中。可以采用逐条比对的方法来得到注释结果。可以采用如下的方法来随时终结掉程序,并拿到部分结果。

$ bin/iterator.pl -i test.fa -o test.out -c "bin/iprscan -cli -i %infile -iprlookup -goterms -format xml"

3.2.6 优缺点

优点:使用本地化的数据库,在断网和计算机资源充足的情况下,能加快注释速度;本地化网页版能同时比对多条序列;本地化能对DNA序列进行interpro注释。
缺点:本地化安装InterProScan比较复杂耗时;需要不时更新本地数据库;本地化运行耗费计算资源大;

转自: http://www.chenlianfu.com/?p=650

时间: 2024-11-03 21:37:22

interProScan的使用的相关文章

Interproscan, xml文件转化为tsv

将interproscan的结果转化格式 很奇怪 tsv格式里没有go, kegg, inter-domain信息,但是xml文件里面却有,tsv文件比较好处理,所以先将xml文件转化为tsv.用软件自带的工具: The convert mode is designed to work only for XML documents created with the same version. This makes sure we can introduce new schema updates

interproscan 的使用和遇到的问题

运行interproscan时报错: [Wed Oct 08 13:07:16] [email protected] /share/bioinfo/miaochenyong/interproscan-software/tars/interproscan-5.7-48.0 $ ./interproscan.sh -i test_proteins.fasta 08/10/2014 13:08:53:591 Welcome to InterProScan-5.7-48.0 08/10/2014 13:

InterProScan 5.14-53.0 安装

InterProScan 5.14-53.0 安装,目前最新版的interproscan 引用自 每日一生信--interproscan安装及使用(终结版)原文官网:http://code.google.com/p/interproscan/wiki/Introduction 配置要求:至少2 cores and 4 GB of RAM, 这样才能同时分析5 - 10 sequences . 软件要求: Linux, 32 bit or 64 bit (64 bit recommended).

一个基于QT的解析interproscan结果的C++成员函数

结构域预测软件interproscan提供多种输出格式,出于后期分析的需要,选用了gff3格式.我比较喜欢结合数据库进行分析,所以先要把数据导入数据库. 我之前用QT写好了界面,所以只要在菜单里添加一个QAction.再在主窗口类中添加槽函数就可以了.这里给出我解析文件的槽函数. void MainWindow::on_interproToMyDB(){ PfamToMyDBDlg * dbDlg = new PfamToMyDBDlg(this); dbDlg->exec(); QFile q

GO 功能注释

文章转载于 Original 2017-06-12 liuhui 生信百科 相似的基因在不同物种中,其功能往往保守的.显然,需要一个统一的术语用于描述这些跨物种的同源基因及其基因产物的功能,否则,不同的实验室对相同的基因的功能的描述不同,将极大限制学术的交流.而 Gene Ontology (GO) 项目正是为了能够使对各种数据库中基因获基因产物功能描述相一致的努力结果. 所谓的 GO,是生物学功能注释的一个标准词汇表术语(GO term),将基因的功能分为三部分: 基因执行的分子功能(Mole

Gene Ontology (GO) 注释

Gene Ontology (GO) 注释 Posted on 2017-06-11 |  In 生信 相似的基因在不同物种中,其功能往往保守的.显然,需要一个统一的术语用于描述这些跨物种的同源基因及其基因产物的功能,否则,不同的实验室对相同的基因的功能的描述不同,将极大限制学术的交流.而 Gene Ontology (GO) 项目正是为了能够使对各种数据库中基因获基因产物功能描述相一致的努力结果. 所谓的 GO,是生物学功能注释的一个标准词汇表术语(GO term),将基因的功能分为三部分:

【R】clusterProfiler的GO/KEGG富集分析用法小结

前言 关于clusterProfiler这个R包就不介绍了,网红教授宣传得很成功,功能也比较强大,主要是做GO和KEGG的功能富集及其可视化.简单总结下用法,以后用时可直接找来用. 首先考虑一个问题:clusterProfiler做GO和KEGG富集分析的注释信息来自哪里? GO的注释信息来自Bioconductor,提供了19个物种的org类型的GO注释信息,如下表所示.Bioconductor中更多的注释包可参考http://www.bioconductor.org/packages/rel