RNA-Seq基因组比对工具HISAT2

原文网址:

http://blog.biochen.com/archives/337

HISAT2是TopHat2/Bowti2的继任者,使用改进的BWT算法,实现了更快的速度和更少的资源占用,作者推荐TopHat2/Bowti2和HISAT的用户转换到HISAT2。
官网:
https://ccb.jhu.edu/software/hisat2/index.shtml

HISAT2安装

下载HISAT2-2.0.1,并解压:

unzip hisat2-2.0.1-beta-Linux_x86_64.zip

将HISAT2目录添加到环境变量:

vi ~/.bashrc

在文件末位添加:

export PATH=/lustre/home/lcn/chenwen/bin/hisat2-2.0.1-beta:$PATH

保存退出

source ~/.bashrc

建立索引

建立基因组索引

hisat2-build –p 4 genome.fa genome

建立基因组+转录组+SNP索引:
bowtie2的索引只有基因组序列信息,tophat2比对时,转录组信息通过-G参数指定。HISAT2建立索引时,就应该把转录组信息加进去。
HISAT2提供两个Python脚本将GTF文件转换成hisat2-build能使用的文件:

extract_exons.py Homo_sapiens.GRCh38.83.chr.gtf > genome.exon
extract_splice_sites.py Homo_sapiens.GRCh38.83.chr.gtf > genome.ss

此外,HISAT2还支持将SNP信息加入到索引中,这样比对的时候就可以考虑SNP的情况。这仍然需要将SNP文件转换成hisat2-build能使用的文件:

extract_snps.py snp142Common.txt > genome.snp

最后,将基因组、转录组、SNP建立索引:

hisat2-build -p 4 genome.fa --snp genome.snp --ss genome.ss --exon genome.exon genome_snp_tran

官网提供了人和小鼠的索引文件下载,压缩包有make_grch38_tran.sh文件,详细记录了创建索引的过程。

运行HISAT2

hisat2 -p 16 -x ./grch38_tran/genome_tran -1 SRR534293_1.fastq -2 SRR534293_2.fastq –S SRR534293.sam

-x 指定基因组索引
-1 指定第一个fastq文件
-2 指定第二个fastq文件
-S 指定输出的SAM文件

更多参数请查看HISAT2的操作手册:
https://ccb.jhu.edu/software/hisat2/manual.shtml

官方操作手册简要版

用法:

hisat2 [options]* -x <hisat2-idx> {-1 <m1> -2 <m2> | -U <r> | –sra-acc <SRA accession number>} [-S <hit>]

主要参数:

-x <hisat2-idx>
参考基因组索引文件的前缀。
-1 <m1>
双端测序结果的第一个文件。若有多组数据,使用逗号将文件分隔。Reads的长度可以不一致。
-2 <m2>
双端测序结果的第二个文件。若有多组数据,使用逗号将文件分隔,并且文件顺序要和-1参数对应。Reads的长度可以不一致。
-U <r>
单端数据文件。若有多组数据,使用逗号将文件分隔。可以和-1、-2参数同时使用。Reads的长度可以不一致。
–sra-acc <SRA accession number>
输入SRA登录号,比如SRR353653,SRR353654。多组数据之间使用逗号分隔。HISAT将自动下载并识别数据类型,进行比对。
-S <hit>
指定输出的SAM文件。

输入选项:
-q
输入文件为FASTQ格式。FASTQ格式为默认参数。
-qseq
输入文件为QSEQ格式。
-f
输入文件为FASTA格式。
-r
输入文件中,每一行代表一条序列,没有序列名和测序质量等。选择此项时,–ignore-quals参数也会被选择。
-c
此参数后是直接比对的序列,而不是包含序列的文件名。序列间用逗号隔开。选择此项时,–ignore-quals参数也会被选择。
-s/–skip <int>
跳过输入文件中前条序列进行比对。
-u/–qupto <int>
只使用输入文件中前条序列进行比对,默认是没有限制。
-5/–trim5 <int>
比对前去除每条序列5’端个碱基
-3/–trim3 <int>
比对前去除每条序列3’端个碱基
–phred33
输入的FASTQ文件碱基质量值编码标准为phred33,phred33为默认参数。
–phred64
输入的FASTQ文件碱基质量值编码标准为phred64。
–solexa-quals
将Solexa的碱基质量值编码标准转换为phred。
–int-quals
输入文件中的碱基质量值为用空格分隔的数值,而不是ASCII码,例如40 30 30 40。

原文地址:https://www.cnblogs.com/y-echo/p/9335921.html

时间: 2024-10-18 08:35:04

RNA-Seq基因组比对工具HISAT2的相关文章

RNA测序相对基因表达芯片有什么优势?

RNA测序相对基因表达芯片有什么优势? RNA-Seq和基因表达芯片相比,哪种方法更有优势?关键看适用不适用.那么RNA-Seq适用哪些研究方向?是否您的研究?来跟随本文了解一下RNA测序相对基因表达芯片有什么优势? 无假设的研究设计和更高的发现能力RNA-Seq是一种基于测序的强大方法,让研究人员能够打破传统技术的低效和花费,如实时定量PCR(RT-PCR)和芯片.无论是将RNA-Seq添加到现有的研究方法中,还是从一种方法彻底转换到另一种,RNA-Seq都带来了许多显而易见的优势.这种方法不

转录组分析工具大比拼 (完整翻译版)

转录组分析工具大比拼 文献阅读与翻译 - Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis (Nature Communications DOI: 10.1038/s41467-017-00050-4) 摘要 RNA-sequencing (RNA-seq)是转录组研究的重要技术.自从RNA-seq技术问世以来,已经开发了大

在物种水平上的宏基因组比对分析流程

文章链接:http://biorxiv.org/content/early/2016/10/15/081141 作者:Yee Voan Teo, Nicola Neretti 时间:2016.10.15 摘要: 许多宏基因组分类工具在宏基因组学领域增长速度飞速.然而,在这个领域相近物种的分类仍然是一个挑战.这里,我们用两个宏基因组数据集,人类宏基因组数据和环境宏基因组数据对比MetaPhlAn2, kallisto 和 Kraken的性能.研究表明kallisto比MetaPhlAn2 和Kra

xgene:WGS,突变与癌,RNA-seq,WES

 人类全基因组测序06 SNP(single nucleotide polymorphism):有了10倍以上的覆盖深度以后,来确认SNP信息,就相当可靠了. 一个普通黄种人的基因组,与hg19这个参考基因组序列相比,会有350万个左右的SNP.又有大概2万个是落在外显子上的,而非同义的SNP有大概9千个. 所谓非同义的SNP,就是这些SNP是会引起蛋白质的序列变化的. indel:(insertion & deletion)是指小于50个bp以内的微小的插入.和缺失突变.一个普通黄种人的基因组

中科院生物信息学题目整理

1.什么是生物信息学,如何理解其含义? 答:生物信息学有三个方面的含义: 1)         生物信息学是一个学科领域,包含着基因组信息的获取.处理.存储.分配 .分析和解释的所有方面. 2)         生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质:同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测:其本质是识别基因信号. 3)         生物信息学的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律"

StringTie用法详解

StringTie 参考链接: https://ccb.jhu.edu/software/stringtie/index.shtml?t=manual#input https://www.cnblogs.com/adawong/articles/7977314.html 参数简介 StringTie的基本用法: stringtie <aligned_reads.bam> [options]* 其中,aligned_reads.bam 是输入文件,该输入文件要求必须按其基因组位置排序, HISA

弗拉特利定律:Illumina如何缔造基因革命

蕾妮·瓦林特(Renee Valint)的女儿谢尔碧(Shelby)在2000年出生时,看起来虚弱无力,就如同一只耷拉着的布娃娃.谢尔碧学着走路和说话,但学得非常慢,错过了儿童发展的重要阶段.到4岁时,她还只能坐在轮椅上.到五年级时,她开始要用电子语音设备与人交流.绝望无助的蕾妮把女儿从菲尼克斯带到明尼苏达州罗切斯特的梅奥诊所(Mayo Clinic),进行最后一周的检查,并与美国最好的一些医生讨论病情. "他们都把手一摊,说:'我们不知道她出了什么问题.'"蕾妮说道,"那时

弗拉特利定律:Illumina怎样缔造基因革命

蕾妮·瓦林特(Renee Valint)的女儿谢尔碧(Shelby)在2000年出生时.看起来虚弱无力,就如同一仅仅耷拉着的布娃娃.谢尔碧学着走路和说话,但学得很慢.错过了儿童发展的重要阶段.到4岁时.她还仅仅能坐在轮椅上.到五年级时,她開始要用电子语音设备与人交流.绝望无助的蕾妮把女儿从菲尼克斯带到明尼苏达州罗切斯特的梅奥诊所(Mayo Clinic).进行最后一周的检查.并与美国最好的一些医生讨论病情. "他们都把手一摊,说:'我们不知道她出了什么问题.'"蕾妮说道,"那

C#.NET开源项目、机器学习、Power BI (转载)

.NET技术, 开源项目, 数据挖掘, 机器学习, 微软Power BI, 足球赛事分析, Matlab与C#编程 博客园 管理 本站首页 头条推荐 Power BI .NET开源 机器学习 博客美化 X组件 Matlab 随笔 - 189  文章 - 15  评论 - 4316 [翻译]Awesome R资源大全中文版来了,全球最火的R工具包一网打尽,超过300+工具,还在等什么? 阅读目录 0.前言 1.集成开发环境 2.语法 3.数据操作 4.图形显示 5.HTML部件 6.复用组件研究