Orthomcl的详细使用

参考了众多文章并结合实际操作后的感想。

参考:http://www.plob.org/2013/09/18/6174.html

参考:http://www.plob.org/2012/06/12/2207.html

Orthomcl需要的linux详细配置,简单叙述。

  系统:unix

  BLAST

  Database:oracle 或 mysql

  内存4G,硬盘100G

  perl: DBI module 和 DBD-mysql

  MCL程序

详细操作过程及需要注意的点:

1.数据库安装和配置

  我用的mysql,为避免mysql运行出问题,最好修改mysql配置文件:

  1.设置myisam_sort_buffer_size为可用内存的一半

  2.设置myisam_max_sort_file_size为orthomclBlastParser程序生成文件similarSequences.txt的5倍大小

  3.设置read_buffer_size的值为???,或者尽量大

2.安装MCL

  下载地址在 http://www.micans.org/mcl/src/mcl-latest.tar.gz,自动获取最新版

  $ ./configure

  $ make

  $ make install

  #注意出现make[] Nothing to be done for ‘***‘

       make[] leaving directory ‘/*/*/***‘

  不是make错误!make时最好用root权限

3.安装配置Orthomcl software

  下载地址 http://orthomcl.org/common/downloads/software/v2.0/ 我下的是orthomclSoftware-v2.0.9.tar.gz

  下载完成后解压文件 $ tar -xf orthomclSoftware-v2.0.9.tar.gz,解压完成后包括bin config doc lib 四个文件夹

  把bin目录加到环境变量里,方便以后操作

  $ vim .bashrc #在~目录下执行此操作

  在最后一行加 export PATH=$PATH:/home/abc/.../orthomclSoftware/bin

  $source .bashrc

  在Orthomcl software主文件夹下创建文件夹my_orthomcl_dir作为工作目录,把/doc/OrthoMCLEngine/Main/orthomcl.config.template文件复制到my_orthomcl_dir下,命令如下:[当前路径在my_orthomcl_dir]

  $ mkdir my_orthomcl_dir

  $ cd my_orthomcl_dir

  $ cp /doc/OrthoMCLEngine/Main/orthomcl.config.template orthomcl.config #重命名为orthomcl.config

  打开orthomcl.config:

  ##

  dbVendor=mysql  #使用的数据库为mysql,若为oracle,则改成oracle

  dbConnectString=dbi:mysql:orthomcl  #连接到mysql里的orthomcl数据库

  dbLogin=test  #数据库的用户名

  dbPassword=123  #与用户名相对应的密码

  orthologTable=Ortholog

  inParalogTable=InParalog

  coOrthologTable=CoOrtholog

  interTaxonMatchView=InterTaxonMatch

  percentMatchCutoff=50

  evalueExponentCutoff=-5

  oracleIndexTblSpc=NONE

4.在mysql中创建数据库,并创建表

  $ mysql -u root -p  #先用root登录创建名为orthomcl的数据库(如果test用户有权限创建数据库的话就用test用户登录创建)

  mysql> create database orthomcl;

  mysql> grant all on orthomcl.* to ‘test‘@‘%‘;  #赋予test用户操作orthomcl数据库的所有权限,test处为用户名,%代表任何主机

  $ orthomclInstallSchema orthomcl.config mysql.log species  #执行orthomclInstallSchema命令,按照orthomcl.config的配置,在数据库中创建表,mysql.log记录日志文件(选) species为每个表名后加物种名(选)

5.格式化orthomcl输入文件

  orthomcl的输入文件要求为fasta格式,且需满足一定的要求,格式要求为如下:

    >taxoncode|unique_protein_id  #taxoncode为物种代码一般为3-4个字母;unique_protein_id为蛋白id,taxoncode和蛋白id之间用|隔开

      MFAXGETHFD..........

   如:

    >Dha|CAG25565

      MKFGHA...........

  使用orthomclAdjustFasta程序可以把从NCBI上下载下来的序列文件转换成orthomcl的标准格式,转换格式前先在my_orthomcl_dir目录下创建名为compliantFasta的文件夹,命令如下:[当前路径为my_orthomcl_dir]

  $ mkdir compliantFasta

  $ cd compliantFasta

  $ orthomclAdjustFasta hsa ../Homo_sapiens.NCBI36.53.pep.all.fa 1  #hsa为物种代码;***.fa为序列文件,存放在my_orthomcl_dir目录下;1代表在id前加物种名和|

  执行完上述命令后,产生的文件为hsa.fasta存放在compliantFasta目录下,格式如下:

    >hsa|TIG25566

      MHSJKXG..........

  compliantFasta文件夹下存放各个物种的蛋白组,如Hsa.fasta Dha.fasta Ali.fasta Kla.fasta......

  当然,,,自己编写的脚本也很容易完成格式转换,,,

6.过滤序列

  使用orthomclFilterFasta命令对compliantFasta文件夹下的序列进行过滤,orthomcl的推荐规则是允许protein序列最短长度为10,stop coden占的最大比例为20%,命令会在my_orthomcl_dir目录下产生goodProteins.fasta和poorProteins.fasta,goodProteins.fasta文件中包含所有comliantFasta文件夹下经过筛选的物种蛋白组。[当前路径为my_orthomcl_dir]

  $ orthomclFilterFasta comliantFasta/ 10 20

7.创建blast数据库,对goodProteins.fasta做blastp

  下载最新版本blast+,安装成功根据需求下载蛋白数据库,以我自己为例,我只需要compliantFasta文件夹下的几个物种蛋白组,即只需要goodProteins.fasta作为数据库

  把blast添加到环境变量后,执行如下命令:[当前路径为blast主目录]

  $ mkdir db  #创建文件夹db,作为blast数据库文件夹

  $ cd db

  $ makeblastdb -in goodProteins.fasta -dbtype prot -title orthomcl -parse_seqids -out orthomcl -logfile orthomcl.log  #以goodProteins.fasta为序列文件,创建名为orthomcl的blast数据库[当前路径为db]

  $ blastp -db orthomcl -query goodProteins.fasta -seg yes -out orthomcl.blastout -evalue 1e-5 -outfmt 7  #goodProteins.fasta对orthomcl库做blast,产生的结果文件为orthomcl.blastout(自身对自身做blast,找出目标物种间的同源基因)

8.处理blast产生的结果(参考)[当前路径为db]

  $ grep -P "^[^#]" orthomcl.blastout > blastresult  #将orthomcl.blastout中的注释行去掉,产生新文件blastresult。

  $ cp blastresult /home/abc/.../orthomclSoftware/my_orthomcl_dir  #把blastresult复制到orthomcl工作目录下

  $ cd /home/abc/.../orthomclSoftware/my_orthomcl_dir  #转到orthomcl工作目录

  手动把blastresult文件中的gnl|替换为空,gredit中的ctrl+h命令

  $ orthomclBlastParser blastresult compliantFasta > similarSequences.txt  #使用orthomclBlastParser命令引入compliantFasta文件夹下文件,生成similarSequences.txt文件,找出相似性序列,从第1列到第8列分别是:query_id, subject_id, query_taxon, subject_taxon, evalue_mant, evalue_exp, percent_ident, percent_match。

  $ perl -p -i -e ‘s/\t(\w+)(\|.*)orthomcl/\t$1$2$1/‘ similarSequences.txt  #将subject_taxon修改为正确的分类名

  $ perl -p -i -e ‘s/0\t0/1\t-181/‘ similarSequences.txt  #修改evalue_mant, evalue_exp,将evalue为0修改为1e-181,为在后续步骤寻找pairwise relationships

9.将similarSequences.txt文件中的相似性序列载入mysql数据库中[当前路径为my_orthomcl_dir]

  $ orthomclLoadBlast orthomcl.config similiarSequences.txt  #将数据导入数据库中

10.寻找成对蛋白质[当前路径为my_orthomcl_dir]

  $ orthomclPairs orthomcl.config orthomcl_pairs.log cleanup=no  #此命令对数据库中的空表进行操作

11.将数据从mysql数据库中导出[当前路径为my_orthomcl_dir]

  $ orthomclDumpPairsFiles orthomcl.config  #此命令会在my_orthomcl_dir下生成一个mclInput文件和一个pairs文件夹,pairs文件夹下包含coorthologs.txt和inparalogs.txt和orthologs.txt三个文件

12.使用mcl对pairs进行聚类[当前路径为my_orthomcl_dir]

  $ mcl mclInput --abc -I 1.5 -o mclOutput

13.提取mcl的结果,生成group.txt文件[当前路径为my_orthomcl_dir]

  $ orthomclMclToGroups Fungi 1 < mclOutput > groups.txt  #生成groups.txt文件,每个同源组的编号从Fungi1开始,依次递增

至此orthomcl程序运行完毕,产生的groups.txt即为最终结果文件,可对其进行各种数据操作

时间: 2024-10-08 12:26:38

Orthomcl的详细使用的相关文章

Linux下WebSphereV8.5.5.0 安装详细过程

Linux下WebSphereV8.5.5.0 安装详细过程 自WAS8以后安装包不再区别OS,一份介质可以安装到多个平台.只针对Installation Manager 进行了操作系统的区分 ,Websphere产品介质必须通过专门的工具Install Managere安装.进入IBM的官网http://www.ibm.com/us/en/进行下载.在云盘http://yun.baidu.com/share/linkshareid=2515770728&uk=4252782771 中是Linu

微信送礼物投票系统的详细解答

就目前来说,市场上的第三方微信投票系统种类很多,功能不一鱼龙混杂,功能很多的情况下有一些细微的区别,对于用户来说选择有一定的难度,下面我就来简单介绍一下微信投票活动大家经常关注的16个问题,对此进行详细的解答:只要能同时包括这个些功能的系统,通常都能够很好的满足活动举办方的要求,活动良好的用户体验! Q1.该投票系统可以设置每个微信用户投票次数吗? A3:可以的,可以设置一次活动每个微信用户的投票数,可设置每个微信用户每天的投票数!并且取消关注自动减掉此用户投票的所有记录,做到了自动减票的功能.

C#开发微信门户及应用(4)--关注用户列表及详细信息管理

在上个月的对C#开发微信门户及应用做了介绍,写过了几篇的随笔进行分享,由于时间关系,间隔了一段时间没有继续写这个系列的博客了,并不是对这个方面停止了研究,而是继续深入探索这方面的技术,为了更好的应用起来,专心做好底层的技术开发. 微信的很重要的一个特点就是能够利用其平台庞大的用户群体,因此很容易整合在CRM(客户关系管理)系统里面,服务号和订阅好都能够向关注者推送相关的产品消息,还能和48小时内响应消息和事件的活跃用户进行交互对话,因此用户信息是微信API里面非常重要的一环,本随笔主要介绍获取关

Capistrano自动化部署工具安装详细过程

Capistrano是一种通过ssh向多个服务器部署web应用的一种框架和工具.具体更详细的介绍,大家可以登录官方网站或其它相关网站进行了解. 一.软件版本 1. 操作系统:CentOS6.8最小化安装 2. Ruby:2.4.0 3. gem:2.6.10 4. capistrano:3.7.2 二.安装ruby 1. 下载 wget https://cache.ruby-lang.org/pub/ruby/2.4/ruby-2.4.0.tar.gz (请先安装wget: yum instal

HTTP 首部字段详细介绍

HTTP 协议的请求和响应报文中必定包含 HTTP 首部,只是我们平时在使用 Web 的过程中感受不到它.本章 我们一起来学习 HTTP 首部的结构,以及首部中各字段的用法. 6.1 HTTP 报文首部 首部内容为客户端和服务器分别处理请求和响应提供 所需要的信息.对于客户端用户来说,这些信息中的大部分内容都无须亲自查看. HTTP 请求报文 在请求中,HTTP 报文由方法.URI.HTTP 版本.HTTP 首部字段等部分构成. 下面的示例是访问 http://hackr.jp 时,请求报文的首

Vsftpd 详细配置

Vsftpd 详细配置         目    录 1.配置文件 2.给匿名用户的配置 3.系统用户配置 4.禁锢所有ftp系统用户在家目录中 5.禁锢或不禁锢特定的系统用户在家目录中,与上面设置互斥 6.wu-ftp日志 7.vsftpd日志 8.登录提示信息 9.目录访问提示信息 10.使用pam完成用户认证 11.是否启用控制用户登录的列表文件 12.连接限制 13.传输速率 :字节/秒 14.连接时间:秒为单位 15.优先以文本方式传输 16.其他参数 Vsftpd服务有vsftpd包

GitHub超详细图文攻略 - Git客户端下载安装 GitHub提交修改源码工作流程 Git分支 标签 过滤 Git版本工作流(转载)

最近听同事说他都在使用GitHub,GitHub是程序员的社区,在里面可以学到很多书上学不到的东西,所以最近在准备入手这方面的知识去尝试学习,正好碰到这么详细完整的文章,就转载了,希望对自己和大家有帮助. GitHub操作总结 : 总结看不明白就看下面的详细讲解. GitHub操作流程 : 第一次提交 : 方案一 : 本地创建项目根目录, 然后与远程GitHub关联, 之后的操作一样; -- 初始化Git仓库 :git init ; -- 提交改变到缓存 :git commit -m 'desc

超级详细的iptable教程文档

Iptabels是与Linux内核集成的包过滤防火墙系统,几乎所有的linux发行版本都会包含Iptables的功能.如果 Linux 系统连接到因特网或 LAN.服务器或连接 LAN 和因特网的代理服务器, 则Iptables有利于在 Linux 系统上更好地控制 IP 信息包过滤和防火墙配置. netfilter/iptables过滤防火墙系统是一种功能强大的工具,可用于添加.编辑和除去规则,这些规则是在做信息包过滤决定时,防火墙所遵循和组成的规则.这些规则存储在专用的信 息包过滤表中,而这

QT学习 之 对话框 (四) 字体对话框、消息对话框、文件对话框、进程对话框(超详细中文注释)

QMessageBox类: 含有Question消息框.Information消息框.Warning消息框和Critical消息框等 通常有两种方式可以来创建标准消息对话框: 一种是采用“基于属性”的API,一种是使用QMessageBox的静态方法. 后者书写容易,但缺少灵活性,针对用户给出的提示的信息不够丰富,并且不能自定义消息对话框里面的按钮提示信息.因此推荐第一种写法. [cpp] view plaincopy <span style="font-size:18px;"&