rna call varients时gatk推荐工具,broad institute都推荐了,还是encode计划时冷泉港内部开发的,特点:快速、as支持性好、支持长reads、全转录本、发现嵌合转录本等,有理由看一下。百度了下,没中文的博文,我来翻译一个吧……
####################
原理:
STAR utilizes sequential maximum mappable seed search in uncompressed suffix arrays followed by seed clustering and stitching procedure.
http://code.google.com/p/rna-star/
http://joseph.yy.blog.163.com/blog/static/509739592013411103358773/
####################
使用:
没耐心读manual的人:
1.安装:github自行下载,解压后既有预编译的执行文件,可在x86和x64的linux上运行,mac等其它环境需要自行编译。
2.建库:对genome建索引,新建文件夹/path/to/GenomeDir
2种方式,无注释的:
/pathToStarDir/STAR --runMode genomeGenerate --genomeDir /path/to/GenomeDir --genomeFastaFiles /path/to/genome/fasta1 /path/to/genome/fasta2 --runThreadN <n> …
有注释引导的(gff3或gtf):
/pathToStarDir/STAR --runMode genomeGenerate --genomeDir /path/to/GenomeDir --genomeFastaFiles /path/to/genome/fasta1 /path/to/genome/fasta2 --runThreadN <n> --sjdbGTFfile <FileName> --sjdbOverhang <N>…
gff3的话,再加 --sjdbGTFtagExonParentTranscript Parent
--sjdbOverhang <N> 是剪切点左边或右边"overhang"的长度,最好设置为RNASEQ时的MateLength - 1。
3.map:
/pathToStarDir/STAR --genomeDir /path/to/GenomeDir --readFilesIn /path/to/read1 [/path/to/read2] --runThreadN <n> --<inputParameterName> <input
parameter value(s)> …
4.共享内存:
--genomeLoad <value>
map的时候,这个参数控制基因组读到ram里面是否作为共享的,如果共享,其它在同节点运行的同样以此genome作为ref的star任务,可以共享它,节省计算资源。若要使用,请读manual。
5.结果:
log、sam、剪切点注释 三类文件,需要注意的是,sam里第五列 uniquely mapping reads的map质量值是255。
Manual:
https://code.google.com/p/rna-star/downloads/detail?name=STARmanual_2.3.0.1.pdf
####################
star map to gatk:
2轮map策略,第一次直接用ref的fa序列建index来map,生成的js注释合并ref的fa再建库,再map一次。 map完用picard加read groups,等。后续gatk中加上Split‘N‘Trim步骤,此步骤gatk3.2-2中存在bug,无法跑通,需要下载nightly builds版本或更新稳定版。
详见gatk说明页面:
http://www.broadinstitute.org/gatk/guide/topic?name=methods