HISAT2,StringTie,Ballgown处理转录组数据

HISAT2,StringTie,Ballgown处理转录组数据

本文总阅读量次2017-05-26

HISAT2,StringTie,Ballgown处理转录组数据思路如下:

  1. 数据质控
  2. 将RNA-seq的测序reads使用hisat2比对
  3. samtools将sam文件转成bam,并且排序,为下游分析做准备
  4. stringtie对每个样本进行转录本组装
  5. stringtie 将所有样本的转录本进行合并 注意:此处的mergelist.txt是自己创建的
  6. 计算表达量并且为Ballgown包提供输入文件
  7. Ballgown的安装 分析,需提供一个分组信息;

0.数据质控(QC):
Ubuntu软件包内自带Fastqc,故安装命令apt-get install fastqc
fastqc命令:
fastqc -o . -t 5 SRR3101238_1.fastq.gz &
-o . 将结果输出到当前目录
-t 5 表示开5个线程运行
(四个样本,双端测序,要分别对八个fastq文件执行八次)

1.将RNA-seq的测序reads使用hisat2比对
准备软件:
安装HISAT2
下载地址:
http://ccb.jhu.edu/software/hisat2/downloads/
wget http://ccb.jhu.edu/software/hisat2/downloads/hisat2-2.0.0-beta-Linux_x86_64.zip -P ./
解 压 缩:
unzip hisat2-2.0.0-beta-Linux_x86_64.zip

准备文件:

  1. 参考基因组序列;genome (chr.fa)
  2. 参考基因组的注释文件;genes (chr.gtf)
  3. Hisat2索引文件;indexes (chr_tran.1.ht2)
  4. 测序数据;samples (chr_1.fastq.gz, chr_2,fastq.gz;样本表型信息 与 样本列表)

下载人类参考基因组和注释文件:
1.1 人类参考基因组:Hisat2官网上有Ensemble GRCh38的基因组索引, 链接:http://ccb.jhu.edu/software/hisat2/index.shtml
1.2 注释文件:下载自ensemble数据库ftp://ftp.ensembl.org/pub/release-86/gtf/homo_sapiens
1.3 索引文件的创建:从gtf文件中构建索引,命定如下:
extract_exons.py hg19.annotation.gtf > exons.txt
extract_splice_sites.py hg19.annotation.gtf > splicesites.txt

创建索引另外一种方法:
hisat2-build [options]*<reference_in><ht2_base>

<reference_in>:用于指定参考基因组;

<ht2_base>:用于指定生成的索引文件的基名;

./hisat2-2.0.0-beta/hisat2-build -f ucsc.hg19.fasta –ss splicesites.txt –exon exons.txt -p 7 ./ucsc.hg19

#添加–ss和–exon选项后,需要很大的内存,build 人基因组的话需要200G RAM,如果没有这么大内存,不要添加这两个选项,但要在后续运行hisat时添加 –known-splicesite-infile选项(见下文)
如hisat2-build -f ucsc.hg19.fasta -p 7 ./uscs.hg19 ##大概需要一小时二十分钟

(1). 比对,生成bam文件:“将RNA-seq的测序reads使用hisat2比对对参考基因租组”
hisat2 -q -x ./ucsc.hg19 -1 reads_1.fastq -2 reads_2.fastq -S alns.sam -t

hisat2 -q -x ./ucsc.hg19 -1 reads_1.fastq -2 reads_2.fastq -S alns.sam –known-splicesite-infile splicesites.txt -t

-x :用于指定参考基因组所对应的索引文件;

-1, -2: 用于指定测序 Reads 所在的文件;

-S:用于指定存储比对结果的文件名;

-p: 用于指定线程数;

(2) Sort and convert the SAM files to BAM

samtools sort [email protected] 8 -o ERR188044_chrX.bam ERR188044_chrX.sam

[email protected]:用于指定线程数;

-o:用于指定存储转化结果的文件名;

注:*.bam 格式的文件为二进制文件;

在-b 指定的文件夹下生成特定的文件
e2t.ctab
e_data.ctab
i2t.ctab
i_data.ctab
t_data.ctab
e即外显子、i即内含子、t转录本;
e2t即外显子和转录本间的关系,
i2t即内含子和转录本间的关系,
t_data即转录本的数据

(3) assemble and quantify expressed genes and transcripts

stringtie -p 8 -G chrX_data/genes/chrX.gtf -o ERR188044_chrX.gtf -l ERR188044 ERR188044_chrX.bam

-G :用于指导组装过程的参考注释的文件;

-o:用于指定存储组装结果的文件名;

-l: 为转录本的ID指定前缀;

-p: 用于指定线程数;

(4) Merge transcripts from all samples:

stringtie –merge -p 40 -G chrX_data/genes/chrX.gtf -o stringtie_merged.gtf chrX_data/mergelist.txt

-G :用于指导组装过程的参考注释文件;

-o:用于指定存储组装结果的文件名;

-p: 用于指定线程数;

注: mergelist.txt 文件包含所有*.gtf 文件名的列表, 并且每个文件名占据一行。

(5) Examine how the transcripts compare with the reference annotation (optional)

./bin/gffcompare -r chrX_data/genes/chrX.gtf -G -o merged stringtie_merged.gtf

-r :用于指定参考的注释文件;

-o:用于指定存储结果的文件名的前缀;

-G:用于指定是否比较所有转录本(即使是冗余的);

(6) Estimate transcript abundances and create table counts for Ballgown

stringtie -e -B -p 48 -G stringtie_merged.gtf -o ballgown/ERR188044/ERR188044_chrX.gtf ERR188044_chrX.bam

-e:用于指定是否仅为参考转录本估计表达丰度;

-B:用于指定是否输出 Ballgown table 文件;

-p: 用于指定线程数;

-G :用于指定已组装的注释文件;

-o:用于指定输出结果的文件名;

原文地址:https://www.cnblogs.com/wangprince2017/p/9937370.html

时间: 2024-07-30 11:48:57

HISAT2,StringTie,Ballgown处理转录组数据的相关文章

HISAT2+StringTie+Ballgown安装及使用流程

HISAT2+StringTie+Ballgown安装及使用流程 2015年Nature Methods上面发表了一款快速比对工具hisat,作为接替tophat和bowtie的比对工具,它具有更快的比对速度和更高的比对率,最近把这个流程走完一遍,感觉优势还是很明显的. 一.HISAT2: 1.下载安装: hisat2下载地址:ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip his

转录组分析工具大比拼 (完整翻译版)

转录组分析工具大比拼 文献阅读与翻译 - Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis (Nature Communications DOI: 10.1038/s41467-017-00050-4) 摘要 RNA-sequencing (RNA-seq)是转录组研究的重要技术.自从RNA-seq技术问世以来,已经开发了大

转录组的组装Stingtie和Cufflinks

转录组的组装Stingtie和Cufflinks Posted: 十月 18, 2017  Under: Transcriptomics  By Kai  no Comments 首先这两款软件都是用于基于参考基因组的转录组组装,当然也可用于转录本的定量.前者于2016年的 protocol上发表的转录组流程HISAT, StringTie and Ballgown后被广泛使用,后者则是老牌的RNA分析软件了.在算法上来说Stringtie使用的是流神经网络算法,Cufflinks则是吝啬算法:

测序数据质量控制

基于边合成边测序(Sequencing By Synthesis,SBS)技术,Illumina HiSeq2500高通量测序平台对cDNA文库进行测序,能够产出大量的高质量Reads,测序平台产出的这些Reads或碱基称为原始数据(Raw Data),其大部分碱基质量打分能达到或超过Q30.Raw Data通常以FASTQ格式提供,每个测序样品的Raw Data包括两个FASTQ文件,分别包含所有cDNA片段两端测定的Reads. FASTQ格式文件示意图如下: FASTQ格式文件示意图 注:

PNAS-2018-病原菌在植物免疫下的转录组

之前的研究一直关注的是宿主(植物)的转录组在病原菌侵染条件下有什么变化,而很少研究病原菌在植物免疫刺激下的变化.主要还是受方法的限制,因为材料中绝大多数是植物组织的转录本,极难获取足够量的病原菌转录本. 本文介绍了一种新方法,可以去除植物组织,特异富集病原菌的转录本,从而获得植物体内病原菌转录组.本文的通讯作者为马普植物育种研究所的Kenichi Tsuda研究员和密歇根州立大学的美国科学院院士何胜阳教授. ETS抑制PTI 以前的植物免疫只是说植物的抗性可以控制细菌病原菌的增殖,但是没有从细菌

单细胞测序数据的差异表达分析方法总结

无论是传统的多细胞转录组测序(bulk RNA-seq)还是单细胞转录组测序(scRNA-seq),差异表达分析(differential expression analysis)是比较两组不同样本基因表达异同的基本方法,可获得一组样本相对于另一组样本表达显著上调(up-regulated)和下调的基因(down-regulated),从而可进一步研究这些差异表达基因的功能,包括富集的通路(pathway)或生物学过程(biological process). 由于单细胞测序技术的局限性,单细胞

samtools常用命令详解

samtools的说明文档:http://samtools.sourceforge.net/samtools.shtml samtools是一个用于操作sam和bam文件的工具合集.包含有许多命令.以下是常用命令的介绍 1. view view命令的主要功能是:将sam文件转换成bam文件:然后对bam文件进行各种操作,比如数据的排序(不属于本命令的功能)和提取(这些操作 是对bam文件进行的,因而当输入为sam文件的时候,不能进行该操作):最后将排序或提取得到的数据输出为bam或sam(默认的

一个全基因组重测序分析实战

Original 2017-06-08 曾健明 生信技能树 这里选取的是 GATK best practice 是目前认可度最高的全基因组重测序分析流程,尤其适用于 人类研究. PS:其实本文应该属于直播我的基因组系列,有两个原因把它单独拿出来, 首先,直播我的基因组阅读量太低了,可能是大家觉得错过了前面的,后面的看起来没有必要,这里我可以肯定的告诉大家,这一讲是独立的,而且是全流程,你学好了这个,整个直播我的基因组就可以不用看了. 其次,最近有一些朋友写了一些GATK的教程,但是大多不合我意,

samtools和bcftools使用说明

转自:http://www.cnblogs.com/emanlee/p/4316581.html samtools是一个用于操作sam和bam文件的工具合集.包含有许多命令.以下是常用命令的介绍 1. view view命令的主要功能是:将sam文件转换成bam文件:然后对bam文件进行各种操作,比如数据的排序(不属于本命令的功能)和提取(这些操作 是对bam文件进行的,因而当输入为sam文件的时候,不能进行该操作):最后将排序或提取得到的数据输出为bam或sam(默认的)格式. bam文件优点