HISAT2+StringTie+Ballgown安装及使用流程

HISAT2+StringTie+Ballgown安装及使用流程

2015年Nature Methods上面发表了一款快速比对工具hisat,作为接替tophat和bowtie的比对工具,它具有更快的比对速度和更高的比对率,最近把这个流程走完一遍,感觉优势还是很明显的。 
一、HISAT2: 
1、下载安装: 
hisat2下载地址:ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip 
hisat2官方手册:http://ccb.jhu.edu/software/hisat2/manual.shtml 
下载完成后解压缩: 
unzip hisat2-2.0.5-Linux_x86_64.zip 
进入hisat2-2.0.5文件夹:

这里面的绿色文件都是可执行文件,所以只需要把目录添加到环境变量中即可: 
vim进入编辑bashrc文件,在文本中输入红色方框内的内容,保存退出,然后source ~/.bashrc 即可

此时我们就可以直接调用hisat2命令了。 
2、建立索引: 
如同tophat一样,比对之前需要利用bowtie建立index,hisat2同样需要建立索引: 
首先提取gtf文件中的剪切位点和外显子位置: 
extract_splice_sites.py gencode.vM4.annotation.gtf >gencode.vM4.annotation.for.hisat2.ss 
extract_exons.py gencode.vM4.annotation.gtf >gencode.vM4.annotation.for.hisat2.exon 
建立索引: 
hisat2-build -p 30 --ss gencode.vM4.annotation.for.hisat2.ss --exon gencode.vM4.annotation.for.hisat2.exon GRCm38.p3.genome.fa mouseGencodeIndex 
##如果电脑内存<200G,那么可以不用--ss/--exon参数,但是在比对的时候需要加 
--known-splicesite-infile参数。3、比对: 
我的数据是双段的无链特异性数据,此处需要把sam文件转化为bam文件,所以需要提前安装samtools: 
        hisat2 --known-splicesite-infile gencode.vM4.annotation.for.hisat2.ss --dta -t -p 24 -x mouseGencodeIndex -1 samp_1.fq.gz -2 samp_2.fq.gz -S accepted_hits.sam &> alignment_summary.txt 
       samtools view -bS accepted_hits.sam > accepted_hits.bam 
       samtools sort accepted_hits.bam -o accepted_hits_sorted.bam 
       rm accepted_hits.bam 
       rm accepted_hits.sam

二、StringTie: 
比对完生成了sam文件,我们利用samtools将它转化为了排好序的bam文件,下一步就需要量化和确定表达值了,这里用到的StringTie相比之前的cufflinks来说功能强大了好多。 
1、下载安装: 
stringtie下载地址:http://ccb.jhu.edu/software/stringtie/dl/stringtie-1.3.3b.Linux_x86_64.tar.gz 
stringtie官方手册:http://ccb.jhu.edu/software/stringtie/index.shtml?t=manual 
直接下载解压就可以用了,它是可执行文件,也可以按上述方法将路径添加到环境变量中方便调用。 
2、运行: 
stringtie accepted_hits_sorted.bam -o outRes.gtf -p 28 -G gencode.vM4.annotation.gtf -A gene_abund.tab -B -e 
运行后每个样本文件夹下结果如下:

这里我生成了结果gtf文件outRes.gtf和ballgown需要的.ctab文件,还有基因的表达量文件gene_abund.tab,该文件包括基因的表达量FPKM以及TPM等。当然如果你想要转录本的表达量,直接打开t_data.ctab这个文件,这里面有转录本的FPKM值。 
当然如果我们想利用DESeq2或者edgeR等计算差异表达,那我们就需要得到原始counts值矩阵来作为输入,此时我们需要利用StringTie自带的脚本prepDE.py来计算counts值,它可以同时对多个样本做: 
prepDE.py -i stringtieRes/ -g countsRes/gene_count_matrix.csv -t countsRes/transcript_count_matrix.csv 
stringtieRes/文件夹下面是我所有的样本的文件夹。

*这里我们能得到所有样本的count matrix,但是只能拿到每个样本对应的FPKM值,又有什么方法能得到合并在一起的FPKM matrix呢?这就需要借助ballgown了。 
三、Ballgown: 
1、安装: 
首先你需要下载安装R,我的是3.4.0版本。 
source("https://bioconductor.org/biocLite.R") biocLite("ballgown") 
这里可能提示你安装XML包的时候会出现错误提示:Cannot find xml2-config 
这就需要你在自己电脑上安装相应的模块了,我的是centos7,于是安装相应的模块:
yum install libxml2-devel 
顺利安装上ballgown包。 
2、使用: 
读取所有样本到ballgown对象中:de> 
bg = ballgown(dataDir=de>de>de>YSde>, samplePattern=‘YT1‘, meas=‘all‘); 
#其中de>de>YS是我的所有样本的父目录,每个样本文件夹名字都包含YT1。 
#计算转录本和基因的FPKM值 
de>de>transcript_fpkm = texpr(bg, ‘FPKM‘) 
row.names(de>de>de>transcript_fpkmde>) = transcriptNames(bg) 
write.csv(de>de>transcript_fpkm,"de>de>de>transcript_fpkm_matrix.csvde>")
de>de>gene_expression = gexpr(bg) 
de>de>write.csv(de>de>de>gene_expressionde>,"de>de>de>de>gene_fpkmde>_matrix.csvde>") 
任务完成。 
3、差异表达分析: 
ballgown可以做case/control两两比较的差异表达,也可以做多组比较的差异表达(此时不能计算Fold Change值), 
当然也可以做时间序列的差异。 
de>de>de>pData(bg) = data.frame(id=sampleNames(bg), group=rep(c(1,0), each=10)) 
#这里是条件矩阵,每行是一个样本,第二列是条件,如果是case/control那么就是0/1. 
de>de>de>de>stat_results = stattest(bg, feature=‘transcript‘, meas=‘FPKM‘, getFC=TRUE, covariate=‘group‘) 
#注意getFC在多组比较时候不能用,feature参数可以对基因‘gene‘或者转录本‘transcript‘或者外显子‘exon‘做 
差异表达分析。 
de>de>de>de>de>Data(bg) = data.frame(pData(bg), time=rep(1:10, 2)) #dummy time covariate timecourse_results = stattest(bg, feature=‘transcript‘, meas=‘FPKM‘, covariate=‘time‘, timecourse=TRUE)de> 
de> 
但是我个人不太推荐使用ballgown,喜欢使用DESeq2和edgeR来计算。 
de>

原文地址:https://www.cnblogs.com/wangprince2017/p/9937395.html

时间: 2024-08-29 08:15:26

HISAT2+StringTie+Ballgown安装及使用流程的相关文章

HISAT2,StringTie,Ballgown处理转录组数据

HISAT2,StringTie,Ballgown处理转录组数据 本文总阅读量次2017-05-26 HISAT2,StringTie,Ballgown处理转录组数据思路如下: 数据质控 将RNA-seq的测序reads使用hisat2比对 samtools将sam文件转成bam,并且排序,为下游分析做准备 stringtie对每个样本进行转录本组装 stringtie 将所有样本的转录本进行合并 注意:此处的mergelist.txt是自己创建的 计算表达量并且为Ballgown包提供输入文件

==原创==Ubuntu14.04安装OPENCV3.0流程及遇到的问题

Ubuntu14.04安装OPENCV3.0流程及遇到的问题 [email protected] http://www.cnblogs.com/mcjj 作者:马春杰杰 2017年6月14日22:38:23 我的电脑环境: Ubuntu14.04LTS + CUDA8.0 + CUDNN5.0 + Nvidia-367.44驱动 + OPENCV3.0-beta 我是按照这篇文章来的: Ubuntu14.04安装OpenCV3.0 - Linux系统教程 首先是刚开始的时候就遇到了错误,Unsu

PHP开发环境&amp;amp;MySQL下载安装及配置流程

PHP开发环境&MySQL下载安装及配置流程 因工作须要,从0開始学PHP,前几天看完视频教程后開始搞开发环境,到今天才好.这里把安装配置流程梳理一下分享出来. 一.概述 要搭建一个开发环境无非就是这么几步,下载->安装->配置.PHP的环境须要三样东西.php.mysql.apache(按序例如以下图),依照我的理解.它们各自是语言解释器.数据库.server. 二.下载 PHP100.com是个奇妙的站点,我从这上面找到了前两样东西的下载地址,apache的链似乎坏了.官网上也找不

最新phpstudy2016安装教程及流程

最新phpstudy2016安装教程及流程,帮助站长快速搭建网站服务器平台! phpstudy软件简介 该程序包集成最新的Apache+Nginx+LightTPD+PHP+MySQL+phpMyAdmin+Zend Optimizer+Zend Loader,一次性安装,无须配置即可使用,是非常方便.好用的PHP调试环境.该程序绿色小巧简易迷你仅有32M,有专门的控制面板.总之学习PHP只需一个包. 最新版本,完美支持win10服务器,贿支持自定义php版本.对学习PHP的新手来说,WINDO

PHP开发环境&amp;MySQL下载安装及配置流程

PHP开发环境&MySQL下载安装及配置流程 因工作需要,从0开始学PHP,前几天看完视频教程后开始搞开发环境,到今天才好.这里把安装配置流程梳理一下分享出来. 一.概述 要搭建一个开发环境无非就是这么几步,下载->安装->配置.PHP的环境需要三样东西,php.mysql.apache(按序如下图),按照我的理解,它们分别是语言解释器.数据库.服务器. 二.下载 PHP100.com是个神奇的网站,我从这上面找到了前两样东西的下载地址,apache的链似乎坏了,官网上也找不到下载位置

thttpd和cgilua安装与运行流程分析

安装 参考如下博文安装thttpd软件 http://blog.csdn.net/21aspnet/article/details/7045845 http://blog.csdn.net/dragoncheng/article/details/5614559 thttpd配置文件: [email protected]:/usr/local/bin# cat /usr/local/thttpd/conf/ etc/  logs/ man/  sbin/ www/  [email protecte

Struts2下载、安装及开发流程

 一.Struts2下载 登录http://struts.apache.org/download.cgi 下载Struts2最新版 建议下载Full Distribution完整版,该选项包括Struts2的示例应用(apps文件夹).空示例应用.核心库(lib文件夹).源代码和文档(docs文件夹)等,src文件夹包含Struts2框架的全部源代码. 二.Struts2安装 将这几个必须类库复制到Web应用的WEB-INF/lib路径下.如果需要在Web应用中使用Struts2的更多特性,

OpenStack安装后检查流程总结

安装后检查 1. 确保服务正常运行 首先查看服务的运行状态: #service xxx status 为防止对子服务有疏漏,可使用ps + grep 查看: # ps aux |grep xx 2. 确保服务连接上消息队列 查看相关日志.如nova的日志默认存在于/var/log/nova下. 3. 确保各项服务的各个子服务正常 许多服务下都有实现不同功能的子服务,如:nova 下的 nova-scheduler, nova-compute ,quantum下的 openvswitch插件等.除

Linux无人值守自动安装详细配置流程

以下配置流程均在CentOS 6.7实现 实验环境: PXE + httpd + dhcp + tftp-server + kickstart 实现环境: PXE+httpd + dhcp + tftp-server + kickstart 简单介绍相关概念: PXE:是一种安装方式,支持通过网络引导,访问服务器的文件来安装系统,需要网卡支持 http:文件服务器,存放系统ISO文件 dhcp:实现客户机地址分配 tftp:存放PXE相关的文件的服务器 kickstart:是安装程序anacon