[bio] STAR 通用超快的RNA aligner

rna call varients时gatk推荐工具,broad institute都推荐了,还是encode计划时冷泉港内部开发的,特点:快速、as支持性好、支持长reads、全转录本、发现嵌合转录本等,有理由看一下。百度了下,没中文的博文,我来翻译一个吧……

####################

原理:

STAR utilizes sequential maximum mappable seed search in uncompressed suffix arrays followed by seed clustering and stitching procedure.

http://code.google.com/p/rna-star/

http://joseph.yy.blog.163.com/blog/static/509739592013411103358773/

####################

使用:

没耐心读manual的人:

1.安装:github自行下载,解压后既有预编译的执行文件,可在x86和x64的linux上运行,mac等其它环境需要自行编译。

2.建库:对genome建索引,新建文件夹/path/to/GenomeDir

2种方式,无注释的:

/pathToStarDir/STAR --runMode genomeGenerate --genomeDir /path/to/GenomeDir --genomeFastaFiles /path/to/genome/fasta1 /path/to/genome/fasta2 --runThreadN <n> …

有注释引导的(gff3或gtf):

/pathToStarDir/STAR --runMode genomeGenerate --genomeDir /path/to/GenomeDir --genomeFastaFiles /path/to/genome/fasta1 /path/to/genome/fasta2 --runThreadN <n> --sjdbGTFfile <FileName> --sjdbOverhang <N>…

gff3的话,再加  --sjdbGTFtagExonParentTranscript Parent

--sjdbOverhang <N> 是剪切点左边或右边"overhang"的长度,最好设置为RNASEQ时的MateLength - 1。

3.map:

/pathToStarDir/STAR --genomeDir /path/to/GenomeDir --readFilesIn /path/to/read1 [/path/to/read2] --runThreadN <n> --<inputParameterName> <input
parameter value(s)> …

4.共享内存:

--genomeLoad <value>

map的时候,这个参数控制基因组读到ram里面是否作为共享的,如果共享,其它在同节点运行的同样以此genome作为ref的star任务,可以共享它,节省计算资源。若要使用,请读manual。

5.结果:

log、sam、剪切点注释 三类文件,需要注意的是,sam里第五列 uniquely mapping reads的map质量值是255。

Manual:

https://code.google.com/p/rna-star/downloads/detail?name=STARmanual_2.3.0.1.pdf

####################

star map to gatk:

2轮map策略,第一次直接用ref的fa序列建index来map,生成的js注释合并ref的fa再建库,再map一次。 map完用picard加read groups,等。后续gatk中加上Split‘N‘Trim步骤,此步骤gatk3.2-2中存在bug,无法跑通,需要下载nightly builds版本或更新稳定版。

详见gatk说明页面:

http://www.broadinstitute.org/gatk/guide/topic?name=methods

时间: 2024-10-24 19:19:28

[bio] STAR 通用超快的RNA aligner的相关文章

中国首创真空管磁悬浮轨道车:超快!

途牛网 5 月 9 日挂牌 5 月 9 日消息,据美国财经网站 iposcoop 网站报道,途牛旅游网将于今晚(5 月 9 日)在纳斯达克正式挂牌上市. 途牛网 4 月 4 日首次提交 IPO 招股书,最新版招股书显示,途牛网计划在纳斯达克上市,股票交易代码为"TOUR",发行价区间为每股美国存托股(ADS)9 美元至 11 美元,发行量最高 920 万股 ADS,最高融资额为 1.012 亿美元,销商为摩根士丹利国际.瑞信证券和华兴资本证券.OPPENHEIMER. 进入微软.亚马逊

新版本NDK环境结构(避Cygwin,超快)

曾经做Android的项目要用到NDK就必需要下载NDK,下载安装Cygwin(模拟Linux环境用的),下载CDT(Eclipse C/C++开发插件),还要配置编译器,环境变量... 麻烦到不想说了,Shamoo在网上查了一下资料,发现了一个超级快配置NDK的办法. Step1:到Android官网下载Android的开发工具ADT(Android Development Tool的缩写),该工具集成了最新的ADT和NDK插件以及Eclipse,另一个最新版本号SDK.解压之后就能够用了,很

Eclipse+超快的模拟器Genymotion开发Android应用(第一步:安装及配置Genymotion)

一.安装及配置Genymotion (1)由于Eclipse中自带的SDK模拟器,启动之慢,不说了 现在给大家介绍一种比较快的模拟器Genymotion (2)首先去Genymotion的官网注册一个账号,这个账号是有用的 请记着你的账号和密码(我用的是QQ好注册的) 网址是:https://www.genymotion.com/ (3)填好信息之后 点击 Creat account 即可注册  然后到你的邮箱激活 就好了! (4)然后去下载genymotion  鉴于下载的比较慢,特意传到云盘

暑期学习日记——超快的素数筛选法(改进)

素数筛选法: 最近发现了一个用bool数组去判断素数的方法,很强大,速度非常之快,方法是从大佬博客:https://www.cnblogs.com/wpnan/p/4073852.html 截下来的,可以看去看一下. 素数筛法是这样的: 1.开一个大的bool型数组prime[],大小就是n+1就可以了.先把所有的下标为奇数的标为true,下标为偶数的标为false. 2.然后: for( i=3; i<=sqrt(n); i+=2 ) { if(prime) for( j=i+i; j<=n

超快安卓模拟器Genymotion在eclipse里面的安装方式

eclipse自带的安卓模拟器,速度简直无语,arm引擎的就不说了,即使费劲下载了x86的加速引擎,启动也得有个十几秒,实在让人难以忍受. Genymotion号称是专门解决这个问题的,需要VirtualBox的支持,可以在线下载很多种手机模板. 在eclipse-help-install new software,点击Add以后输入地址:http://plugins.genymotion.com/eclipse以后,你会发现下面的列表框提示并不是genymotion,而是找不到分类...开始以

阿里云maven仓库镜像mirror,速度超快

<mirror> <id>alimaven</id> <name>aliyun maven</name> <url>http://maven.aliyun.com/nexus/content/groups/public/</url> <mirrorOf>central</mirrorOf> </mirror> 配置在maven的setting.xml文件中

超快模拟器genymotion在android studio上的安装

Android studio 自带的模拟器太慢了,下面介绍genymotion安装,电脑是win7 (1)进入https://www.genymotion.com (2)注册,必须注册才能下载,后期也用到账号,所以拷贝别人的安装包没用 (3)点击,getgenymotion,进入选择free下面的download,免费版本少了些功能,但凑活用. (4)选择pc系统,默认进入win界面,注意:win挺简单,只要点击Get Genymotion,下载包中包含VirtualBox,而mac版本就不包含

postgresql数据库备份和恢复(超快)

PostgreSQL自带一个客户端pgAdmin,里面有个备份,恢复选项,也能对数据库进行备份 恢复(还原),但最近发现数据库慢慢庞大的时候,经常出错,备份的文件过程中出错的几率那是相当大,手动调节灰常有限.所以一直寻找完美的备份恢复方案. 梦里寻他千百度,伊人却在灯火阑珊处...其实PostgreSQL内置不少的工具,寻找的备份恢复方案就在其中:pg_dump,psql.这两个指令 在数据库的安装目录下,比如我自己本地安装的,路径形如:C:\Program Files\PostgreSQL\9

超快的前端引擎——artTemplate-3.0

一.特性 性能卓越,执行速度通常是 Mustache 与 tmpl 的 20 多倍, 支持运行时调试,可精确定位异常模板所在语句, 对 NodeJS Express 友好支持, 安全,默认对输出进行转义.在沙箱中运行编译后的代码(Node版本可以安全执行用户上传的模板), 支持include语句,可在浏览器端实现按路径加载模板, 支持预编译,可将模板转换成为非常精简的 js 文件, 模板语句简洁,无需前缀引用数据, 支持所有流行的浏览器. 二.上手 1.编写模板 使用一个type="text/h