1、snap的下载与安装
snap的说明文档: /home/share/biosoft/snap/00README
下载:
wget http://korflab.ucdavis.edu/Software/snap-2013-11-29.tar.gz
文件说明:
DNA Contains some sample sequences HMM Contains SNAP parameter files LICENSE The GNU General Public License Makefile For compiling Makefile.include Automatically generated, should not be edited fathom.c Utility for investigating sequences and annotation forge.c Parameter estimation hmm-assembler.pl Creates HMMs for SNAP snap.c Gene prediction program zoe* Sources from the ZOE library
2、编译
make
3、环境变量设置(Enviroment)
SNAP使用ZOE环境变量来查找HMM文件。设置这个指向包含此文件的目录。如果你不设置Zoe环境变量,依旧可以用SNAP,但是必须指定参数文件的明确路径
export ZOE=/home/share/biosoft/snap/Zoe/
4、参数估计
序列必须采用FASTA格式。如果你没有彼此之间联系太紧密这样的基因,这是个好主意。基因结构必须是ZFF格式。ZFF是什么?它是非标准格式(即。除了我,没有人使用它。ZFF有两种格式,短格式和长格式。在短格式中,有4个字段:Label、Begin、End、Group。第四个字段是可选的。Label是一个受控词汇表(参见zoefeatures .h浏览完整名单)。一个基因的所有外显子转录单元)必须共享相同的唯一组名。链的在坐标中隐含特征,因此如果开始>结束,则特征位于负链。下面是两个序列的简短格式示例,在正链上含有一个基因。
>sequence-1 Einit 201 325 Y73E7A.6 Eterm 2175 2319 Y73E7A.6 >sequence-2 Einit 201 462 Y73E7A.7 Exon 1803 2031 Y73E7A.7 Exon 2929 3031 Y73E7A.7 Exon 3467 3624 Y73E7A.7 Exon 4185 4406 Y73E7A.7 Eterm 5103 5280 Y73E7A.7
长格式:
The long format adds 5 fields between the coordinates and the group: Strand,Score, 5‘-overhang, 3‘-overhang, and Frame. Strand is +/-. Score is any floating
point value. 5‘- and 3‘-overhang are the number of bp of an incomplete codon at each end of an exon. Frame is the reading frame (0..2 and *not* 1..3). Here‘s an example of the long format:
long格式在坐标和组之间添加了5个字段:Strand、Score、5‘-overhang、3‘-overhang和Frame。链是+ / -。Score是任何浮点值。5‘-和3‘-伸出量是外显子两端不完整密码子的bp值。帧是读取帧(0..2和*not* 1..3)。下面是长格式的一个例子:
>Y73E7A.6 Einit 201 325 + 90 0 2 1 Y73E7A.6 Eterm 2175 2319 + 295 1 0 2 Y73E7A.6 >Y73E7A.7 Einit 201 462 + 263 0 1 1 Y73E7A.7 Exon 1803 2031 + 379 2 2 0 Y73E7A.7 Exon 2929 3031 + 236 1 0 0 Y73E7A.7 Exon 3467 3624 + 152 0 2 0 Y73E7A.7 Exon 4185 4406 + 225 1 2 2 Y73E7A.7 Eterm 5103 5280 + 46 1 0 2 Y73E7A.7
The most important part of parameter estimation is preparing a training set.There are many ways to go about this. At the end, you want these in the ZFF
short format. Save the ZFF as genome.ann and the FASTA as genome.dna. The first step is to look at some features of the genes:
fathom genome.ann genome.dna -gene-stats
接下来,你要验证这些基因没有明显的错误:
fathom genome.ann genome.dna -validate
您可能会发现一些错误和警告。在某种基因组中浏览器(genome browser)删除那些真正的错误。接下来,将序列分解成每个序列有一个基因片段,使用以下命令:
fathom -genome.ann genome.dna -categorize 1000
在基因的每一边都有多达1000个bp。你会发现一些新的文件。
alt.ann, alt.dna (genes with alternative splicing) err.ann, err.dna (genes that have errors) olp.ann, olp.dna (genes that overlap other genes) wrn.ann, wrn.dna (genes with warnings) uni.ann, uni.dna (single gene per sequence)
使用以下命令将单基因转换为正链:
fathom uni.ann uni.dna -export 1000 -plus
你会发现4个新文件:
export.aa proteins corresponding to each gene export.ann gene structure on the plus strand export.dna DNA of the plus strand export.tx transcripts for each gene
参数估计程序forge创建了许多文件。你可能要创建一个目录,以便在执行程序之前保持整洁。
mkdir params cd params forge ../export.ann ../export.dna cd ..
最后是构建一个HMM模型:
hmm-assembler.pl my-genome params > my-genome.hmm
原文地址:https://www.cnblogs.com/djx571/p/11063594.html