关于转录组比对STAR软件使用

参考文章:http://weibo.com/p/23041883f77c940102vbkd?sudaref=passport.weibo.com

软件连接:https://github.com/alexdobin/STAR/

因为不连续的转录本结构,相对短的片段长度,和测序技术持续增加的通量,高通量RNA-seq数据的准确比对是一个有挑战性且仍未解决的问题。当前可用的RNA-seq比对器遭受高比对错误率,低比对速度,片段长度限制和比对偏差。结果:为了比对我们的大量(> 800亿片段)ENCODE转录组RNA-seq数据集,我们基于一种以前未描述的RNA-seq比对算法开发了STAR(Spliced Transcripts Alignments to a Reference,STAR)软件,该算法使用了未压缩后缀阵列中的连续最大可比对种子搜索,接着种子聚类和缝合过程。STAR在比对速度上胜过其他比对器50多倍,在一个普通的12核服务器上,每小时比对5.5亿2 x 76 bp双端片段到人类基因组上,同时改进了比对敏感性和准确性。除了典型剪接的非偏从头检测外,STAR能够发现非典型拼接和嵌合(融合)转录本,并能够比对全长RNA序列。使用逆转录聚合酶链式反应扩增子的罗氏454测序,我们实验上验证了1960个新的基因间剪接点,具有80-90%的准确率,证实了STAR比对策略的高准确性。可用性和实现:STAR被实现为一个单机C++代码。STAR是在GPLv3许可证下发布的免费开源软件。

1:STAR的比对分析基本上可以分为两步:一是genomeGenerate(类似于tophat的index);二是:序列比对

2:关于第一步genomeGenerate运行一次就可以了:

STAR --runMode genomeGenerate --runThreadN 10 --genomeFastaFiles/home/share/genome/Homo_sapiens/UCSC/hg19/Sequence/WholeGenomeFasta/genome.fa--sjdbGTFfile/home/share/genome/Homo_sapiens/UCSC/hg19/Annotation/Genes/genes.gtf--sjdbOverhang 89

—runMode:运行程序模式,默认是比对,所以第一步这个参数设置很关键

—runThreadN: 运行的线程数

—genomeDir: 这个参数很重要,是存放你声称index文件路径,需要你事先建立一个有可读写权限的文件夹

—genomeFastaFiles: 基因组fasta格式文件

—sjdbGTFfile :GTF注释文件

—sjdbOverhang: 这个值为你测序read的长度减1,是在注释可变剪切序列的时候使用的最大长度值

5:运行比对

STAR不但可以进行比对,还可以输出可变剪切,转录本融合,以及控制输出格式为SAM或者BAM,并对输出的BAM可进行选择性排序输出。最主要在比对的过程中还提供了ENCODE的比对参数。

STAR --runThreadN 20 --readFilesIn/home/fanyc/RNA-seq/raw_data/SRR993723.sra_1.fastq/home/fanyc/RNA-seq/raw_data/SRR993723.sra_2.fastq--quantMode TranscriptomeSAM --outSAMtype BAM SortedByCoordinate--outFileNamePrefix /home/fanyc/RNA-seq/STAR/23--outFilterType BySJout --outFilterMultimapNmax 20 --alignSJoverhangMin 8 --alignSJDBoverhangMin 1 --outFilterMismatchNmax 999 --outFilterMismatchNoverLmax0.04 --alignIntronMin 20 --alignIntronMax 1000000 --alignMatesGapMax 1000000 --chimSegmentMin 20

上面结合了ENCODE的参数,同时又加上了比对输出为BAM格式,并对BAM格式进行排序。另外输出可变剪切,以及转录本融合的结果。

—readFilesIn 输出的原始测序数据

--outSAMtype BAM SortedByCoordinate 输出格式为BAM并排序

--chimSegmentMin20 输出融合转录本,20代表比对的最短的碱基数目

--outFileNamePrefix  输出文件的前缀

--quantMode TranscriptomeSAM  转录本定量

6:生成的文件:

Chimeric.out.junction  融合转录本

Aligned.sortedByCoord.out.bam  比对输出

Aligned.toTranscriptome.out.bam 转录本比对输出

SJ.out.tab 可变剪切结果输出

时间: 2024-08-10 15:07:30

关于转录组比对STAR软件使用的相关文章

多年收集的一些稀有软件2

QQ:365543212 Fuel Economy Calculator v1.1 B.001(汽车工程软件,用于预测车辆燃油消耗率,是目前此类软件中最为全面的,能接收从最新的发动机分析程序Engine Analyzer自动发送来的强大的游标和发动机规格) Psat v5.1 1CD ProScan.v5.1 1CD PowerFlow v3.3p3a for Linux 1CD(Exa公司的汽车外气流计算软件) Rotating Inertia Calculator v1.1 A.000(一款

gene数据库

目录 1.Genebank 1.Genebank Genebank 数据库官网地址 http://www.ncbi.nlm.nih.gov/genbank 百度文库 http://wenku.baidu.com/link?url=kCaZn-IozaGgvrOdIOgebWexJ7aQ9khq42Ehq-uuK9UKP13xqCt7xjtkRydw4UuzXKX6TtLrAH663YcJPVyqH_RHfu8NEZOsM0wcvI61Xee GenBank是美国国家生物技术信息中心(Nation

单细胞测序数据的差异表达分析方法总结

无论是传统的多细胞转录组测序(bulk RNA-seq)还是单细胞转录组测序(scRNA-seq),差异表达分析(differential expression analysis)是比较两组不同样本基因表达异同的基本方法,可获得一组样本相对于另一组样本表达显著上调(up-regulated)和下调的基因(down-regulated),从而可进一步研究这些差异表达基因的功能,包括富集的通路(pathway)或生物学过程(biological process). 由于单细胞测序技术的局限性,单细胞

转录组分析工具大比拼 (完整翻译版)

转录组分析工具大比拼 文献阅读与翻译 - Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis (Nature Communications DOI: 10.1038/s41467-017-00050-4) 摘要 RNA-sequencing (RNA-seq)是转录组研究的重要技术.自从RNA-seq技术问世以来,已经开发了大

软件三重门——业务功能,业务性能及业务智能

软件三重门:业务功能,业务性能,业务智能.这是我在看的<码农>第二期里酷壳博主陈皓说的.原文如下: 我在"软件开发'三重门'"里说过,第一重门是业务功能,在这重门里,的确是会编程就可以了:第二重门是业务性能,在这一重门里,技术的基础就很管用了,比如操作系统的文件管理.进程调度.内存管理,网络的七层模型,TCP/UDP的协议,语言用法.编译和烦请库的实现,数据结构,算法等等就非常关键了:第三重门是业务智能,在这一重门里,你会发现很多东西都很学院派了,比如搜索算法.推荐算法.预

好几年才收集到的软件,分享给大家。。。

QQ:365543212Email:[email protected]请按Clrt+F查找,输入软件关键字查询(不要输入版本号),如果找不到,您可以咨询客服.................FD......................12D MODEL 7.0 规划设计232Analyzer v4.1 高级串口分析监测3D Home Architect Design Suite Deluxe 8.0 室内装潢3D Profiler Tools 11.2 For Archicad 113D R

转录组入门(5):序列比对

任务列表 比对软件 hisat2的用法 下载index文件 比对.排序.索引 质量控制 载入IGV,截图几个基因 hisat2的用法 本作业是比对到基因组,所以使用gapped or splices mapper,此流程已经更新.TopHat首次被发表已经是7年前,STAR的比对速度是TopHat的50倍,HISAT更是STAR的1.2倍.HISAT2是TopHat2/Bowti2的继任者,使用改进的BWT算法,实现了更快的速度和更少的资源占用,作者推荐TopHat2/Bowti2和HISAT的

软件清单

IT生涯, 我的常用软件清单 IT生涯, 我的常用软件清单 SkySeraph Jan. 26th 2017 Email:[email protected] 更多精彩请直接访问SkySeraph个人站点:www.skyseraph.com About 前两天把系统给重装了下,好像最近一次安装应该是两年前了,一般情况下不愿意再做此类耗时无聊的事情,但没法,拥有SSD和高配置内存,开几个IDE却卡成翔,系统分析折腾了老半天还是决定重装了,重装后的那个清爽真是无与伦比, 至少依旧可以在我的Win 10

windows向ubuntu过渡之常用编程软件安装

不出意外的上篇文章又被踢出首页了,心情甚是悲桑..希望更多人能看到 1.安装codeblocks 直接在软件中心搜索codeblocks就可以 2.安装jdk并配置环境变量 http://www.linuxidc.com/Linux/2015-01/112030.htm (1)首先去官网下载jdk:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html,选择后缀名位.tar.gz的版本