38、EST序列拼接流程

转载:http://fhqdddddd.blog.163.com/blog/static/18699154201241014835362/

http://blog.sina.com.cn/s/blog_4476400f0100iq0x.html

EST----
对EST序列进行冗余查找,利用CD_HIT软件聚类,快速批量去除冗余序列

est-trimer(去掉帽子和尾巴,去掉太短而不可信的)

RepeatMaster(去掉转座子等重复)

seqclean(去除载体,线粒体叶绿体等序列)

CAP3(拼接)

est-trimmer可以从 http://pgrc.ipk-gatersleben.de/misa/do- wnload/est_trimmer.pl 下载,就是个perl脚本,不用安装。脚本运行参数:

DESCRIPTION: Tool for trimming EST (DNA) sequences

##

## SYNTAX:   est_trimmer.pl <FASTAfile> [-amb=n,win] [-tr5=(A|C|G|T),n,win]

##                          [-tr3=(A|C|G|T),n,win] [-cut=min,max] [-id=name]

##                          [-help]

##

##    <FASTAfile>    Single file in FASTA format containing the sequence(s).

##    [-amb=n,win]   Removes distal stretches containing "n" ambiguous bases in

a

##                   "win" bp sized window.

##    [-tr5=N,n,win] Removes stretches of the given type N={A,C,G,T} from the 5

##                   end. Value "n" defines the min. accepted repeat number of

"N"

##                   in a 5‘ window of the size "win".

##    [-tr3=N,n,win] according to [-tr5] for the 3‘ end.

##    [-cut=min,max] Sets min. value for cutoff and max. sequence size.

##    [-id=name]     Optional. Final results are stored in "name".results, wher

eas

##                   processing steps are listed in "name".log. If not used,

##                   extensions are appended to <FASTAfile>.

##    [-help]        Further descriptions. Use "EST_trimmer.pl -help".

##

##    Arguments can be used plurally and are processed according to their order

.

##

## EXAMPLE:  est_trimmer.pl ESTs -amb=2,50 -tr5=T,5,50 -tr3=A,5,50 -cut=100,700

## ____________________________________________________________________________

___

##

个人觉得-amb 太恐怖了,还是没有,-cut 删除了太多了 将700设定到最大,我是设定到10000。

我的命令:

perl est_trimmer.pl input  -tr5=T,5,50 -tr3=A,5,50 -cut=100,10000 -id=output

 

 

repeatmasker 下载地址:http://repeatmasker.org/RMDownload.html

repeatmasker 是个比较复杂的软件,参数比较多,此外还必须在本机装过crossmatch或者wu-blast要多看手册根据自己实际情况设定。其软件有个数据库,每年都更新,本地计算的必须要注意。

此外 repeatmasker运行真是慢,最好可以设成几个CPU一起算。

我的命令 repeatmasker input -e crossmatch -s

seqclean (下载:http://compbio.dfci.harvard.edu/tgi/software/)

我倒是没遇到参数的问题,就是得在NCBI上下载下载体序列ftp://ftp.ncbi.nih.gov/pub/UniVec/ 里面还有个core的,和全的,我的数据反正算的快,就选了比较大的那个文件,将univec用formatdb命令格式化下就可以直接用了

我的命令

/usr/biosoft/blast-2.2.18/bin/formatdb -i UniVec -p F -o T

/usr/biosoft/seqclean/seqclean BnE091007.fasta -v UniVec -o BnE_clean.fasta

当是我因为程序的权限不够,怎么都用不了。后来用chmod把seqclean程序的文件夹的东西都改了才行。还好最后终于成功了

时间: 2024-10-10 21:03:42

38、EST序列拼接流程的相关文章

Est数据库

Est--编码序列,gene 片段且具有标签 其中,est数据库中是类似测序1.测序2.测序3这样的序列.实验室测得的序列是cDNA,通过上图方法拼接,电脑克隆(dbest).如果有overlap则认为两个序列来自于同一个gene,overlap的碱基数目是40(不建议低于30,不建议高于40),过少容易拼接乱,过多对碱基突变的容忍性差.就一条序列来说,将比对后延长的结果进行二次比对,以此类推,直到不能延长为止. est数据库的覆盖率超过95%. 先利用其他数据库(eg:引物数据库.末端数据库)

opencv拼接相关1

这里面都是一些比较杂的东西,没什么实际意义.主要是为了,后面能跑一个程序: Stitcher: 抠细节: http://docs.opencv.org/2.4.2/modules/stitching/doc/high_level.html?highlight=stitcher#stitcher Stitcher是啥? class Stitcher High level image stitcher. It’s possible to use this class without being aw

(六)WebGIS中地图瓦片在Canvas上的拼接显示原理

1.前言 在之前的五个章节中,我们在第一章节里介绍了WebGIS的基本框架和技术,第二章节里介绍了什么是瓦片行列号以及计算它的原因,第三章节里介绍了如何通过地理范围计算出这个范围内瓦片的行列号,第四和第五章节里介绍了在得到瓦片行列号后如何获得离线和在线地图的URL,这个章节里,我们将介绍在通过URL得到瓦片后,如何将其显示在浏览器相对应的地方,拼接出整块地图. 2.左上角瓦片起始点屏幕坐标的计算 在第三章节中,我介绍了对于左上角瓦片起始点屏幕坐标的换算原理和方法,这里我再次给出这个公式: off

python学习 数据类型之序列

一.序列(本文使用python3.5)############################################################# 列表.元组 字符窜都是序列#特点:#1.通过索引可以获取特定的元素#2.可以通过切片操作获取一个小的序列#基本操作str="abc";str1="efg";print(len(str));#获取序列长度print(str+str1);#序列拼接print(str*5);#使序列重复5次 abcabcabca

python基础教程_学习笔记8:序列_练习与总结_1

序列_练习与总结 每次处理一个字符 任务: 用每次处理一个字符的方式处理字符串. 方案: 可以创建一个列表,列表的子项是字符串的字符.python实际上并没有一个特别的类型来对应"字符"并以此和字符串区分开来.可以调用内建的list,用字符串作为参数: thelist=list(thestring) 也可以不创建一个列表,直接用for语句完成对该字符串的循环遍历: for c in thestring: do_something_with(c) 或者使用列表推导中的for来遍历: re

1.6 序列的通用操作

下面几个小节分别会介绍到的list.tuple.str等都属于序列. 先介绍序列通用操作,序列的通用操作部分对list.tuple.str都适用,此处以list为例进行演示. 在讲序列的通用操作之前,先讲一下列表的构造.列表的构造方法: (1)直接把列表的元素直接放在[]中, (2)使用全局list()函数构造列表.list会把传进来的序列值进行拆分.其他可迭代对象也能生成列表. #先生成一个list类型的对象 1 >>> l = ['张三','李四','王五'] 2 >>&

生物信息学题目整理: 陈润生

生物信息学题目整理: 陈润生: 一.什么是生物信息学?你怎么理解它的含义? Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation. 1.生物信息学是一个学科领域,包含着基因组信息的获取.处理.存储.分配 .

中科院生物信息学题目整理

1.什么是生物信息学,如何理解其含义? 答:生物信息学有三个方面的含义: 1)         生物信息学是一个学科领域,包含着基因组信息的获取.处理.存储.分配 .分析和解释的所有方面. 2)         生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质:同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测:其本质是识别基因信号. 3)         生物信息学的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律"

多年收集的一些稀有软件2

QQ:365543212 Fuel Economy Calculator v1.1 B.001(汽车工程软件,用于预测车辆燃油消耗率,是目前此类软件中最为全面的,能接收从最新的发动机分析程序Engine Analyzer自动发送来的强大的游标和发动机规格) Psat v5.1 1CD ProScan.v5.1 1CD PowerFlow v3.3p3a for Linux 1CD(Exa公司的汽车外气流计算软件) Rotating Inertia Calculator v1.1 A.000(一款