转录组入门(4):了解参考基因组及基因注释

任务列表

  • 1.在UCSC下载hg19参考基因组;
  • 2.从gencode数据库下载基因注释文件,并且用IGV去查看感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。
  • 3.截图几个基因的IGV可视化结构
  • 4.下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构
  • 5.了解IGV常识

在UCSC下载hg19参考基因组

hg19、GRCH38、 ensembl75这3种基因组版本应该是大家见得比较多的了,国际通用的人类参考基因组,其实他们储存的是同样的fasta序列,只是分别对应着三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC及ENSEMBL各自发布的基因组信息而已。有一些参考基因组比较小众,存储的序列也不一样,比如BGI做的炎黄基因组,还有DNA双螺旋结构提出者沃森(Watson)的基因组,还有2016年发表在nature上面的号称最完善的韩国人做的基因组。前期我们先不考虑这些小众基因组,主要就下载hg19和hg38,都是UCSC提供的,虽然hg38相比hg19来说,做了很多改进,优点也不少,但因为目前为止很多注释信息都是针对于hg19的坐标系统来的,我们就都下载了,正好自己探究一下。也顺便下载一个小鼠的最新版参考基因组吧,反正比对也就是睡个觉的功夫,顺便分析一下结果,看看比对率是不是很低。

mkdir rna_seq/data/reference && cd rna_seq/data/reference
mkdir -p genome/hg19 && cd genome/hg19
# nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
# nohup 是永久执行,& 是指在后台运行。nohup COMMAND & 这样就能使命令永久的在后台执行
nohup axel http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
tar zvfx chromFa.tar.gz
cat *.fa > hg19.fa
rm chr*.fa

从gencode数据库下载基因注释文件,并且用IGV去查看感兴趣的基因的结构

下载基因注释文件

官网:http://www.gencodegenes.org/releases/26lift37.html

wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz
gzip -d gencode.v26lift37.annotation.gtf.gz

下载安装IGV、BEDtool

官网:http://software.broadinstitute.org/software/igv/download(下载 Binary Distribution 版本)

wget https://github.com/arq5x/bedtools2/releases/download/v2.26.0/bedtools-2.26.0.tar.gz
tar -zxvf bedtools-2.26.0.tar.gz
cd bedtools2
make

截图几个基因的IGV可视化结构

批量截图:TP53,KRAS,EGFR

grep -w ‘gene‘ gencode.v26lift37.annotation.gtf | grep -w ‘TP53‘ | cut -f 1,4,5 >> gene.bed
grep -w ‘gene‘ gencode.v26lift37.annotation.gtf | grep -w ‘KRAS‘ | cut -f 1,4,5 >> gene.bed
grep -w ‘gene‘ gencode.v26lift37.annotation.gtf | grep -w ‘EGFR‘ | cut -f 1,4,5 >> gene.bed
~/biosoft/bedtools2/bin/bedtools igv -i gene.bed > Bach_sanpshot.txt

grep是一个多用途的文本搜索工具,linux中使用非常频繁,并且使用很灵活,可以是变量,也可以是字符串。最基本的用法有以下两种:

  • 1.搜索内容中无空格,可以直接执行grep命令,比如:grep pass a.txt,表示在a.txt文件中搜索pass所在的行
  • 2.如果搜索内容中有空格,则需要使用单引号或者双引号把搜索内容引起来,比如:grep "hello all" a.txt或者grep ‘hello all‘ a.txt,如果不加单双引号,则提示错误,无法识别,因为不加引号,直接grep hello all a.txt,表示在all和a.txt中搜索hello,这肯定是不对的

grep -w option file:精确搜索,可以说准确性搜索,比如:grep -w b* a.txt:此命令执行时,*不会默认为任何字符,只表示字面意思,就是一个*字符

管道命令操作符:”|”,它仅能处理经由前面一个指令传出的正确输出信息,也就是 standard output 的信息,对于 stdandard error 信息没有直接处理能力。然后,传递给下一个命令,作为标准的输入 standard input

cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。如果不指定 File 参数,cut 命令将读取标准输入。必须指定 -b、-c 或 -f 标志之一。使用 -f 选项提取指定字段

下载ENSEMBL,NCBI的gtf

axel ftp://ftp.ensembl.org/pub/grch37/release-89/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.gtf.gz
axel ftp://ftp.ensembl.org/pub/grch37/release-89/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.chr.gtf.gz
axel  ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ANNOTATION_RELEASE.105/GFF/ref_GRCh37.p13_top_level.gff3.gz
axel ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ANNOTATION_RELEASE.105/GFF/ref_GRCh37.p13_scaffolds.gff3.gz
时间: 2024-11-05 22:06:26

转录组入门(4):了解参考基因组及基因注释的相关文章

一个关于对比(参考基因组)的弱智错误

一个关于对比(参考基因组)的弱智错误 2018年10月25日 23:55:04 生信小白白 阅读数:19 在重复文章:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034中的工作时,用的是hisat2软件做比对,比对脚本如下: for id in SRR35899{56,57,58,59,60,61,6

Augustus 进行基因注释

目前的从头预测软件大多是基于HMM(隐马尔科夫链)和贝叶斯理论,通过已有物种的注释信息对软件进行训练,从训练结果中去推断一段基因序列中可能的结构,在这方面做的最好的工具是AUGUSTUS它可以仅使用序列信息进行预测,也可以整合EST, cDNA, RNA-seq数据作为先验模型进行预测. 安装 安装较为复杂,可选用conda进行安装 使用 (1)若存在已经被训练的物种(augustus --species=help查看),则直接使用一下代码进行预测基因,以拟南芥为例: 1 augustus --

转录组入门(5):序列比对

任务列表 比对软件 hisat2的用法 下载index文件 比对.排序.索引 质量控制 载入IGV,截图几个基因 hisat2的用法 本作业是比对到基因组,所以使用gapped or splices mapper,此流程已经更新.TopHat首次被发表已经是7年前,STAR的比对速度是TopHat的50倍,HISAT更是STAR的1.2倍.HISAT2是TopHat2/Bowti2的继任者,使用改进的BWT算法,实现了更快的速度和更少的资源占用,作者推荐TopHat2/Bowti2和HISAT的

R语言实现对基因组SNV进行注释

很多时候,我们需要对取出的SNV进行注释,这个时候可能会在R上进行注释,通常注释文件都含有Chr(染色体).Start(开始位点).End(结束位点).Description(描述),而我们的SNV文件通常是拥有Position(位置),因此我们可以先定位Chr,再用Postion去定位到Start和End之间,找到相对应的Description.为了加快速度,可以使用二分查找法. 1 fregion <- function(df, value){ 2 #df:data.frame, V1 an

C语言入门:03.关键字、标识符、注释

一.学习语法之前的提醒 (1)C语言属于一门高级语言,其实,所有高级语言的基本语法组成部分都是一样的,只是表现形式不太一样 (2)就好像亚洲人和非洲人,大家都有人类的结构:2只 手.2只脚.1个头,只是他们外表不太一样,比如肤色.脸型 (3)因此,你掌握好了一门高级语言,再去学习其他高级语言,那是相当快的 (4)而且,很多其他高级语言,比如后面要学习的Objective-C,都是基于C语言.从C语言衍生出来的,好好学习C语言吧,绝对不吃亏 二.关键字 1.什么是关键字 (1)关键字就是C语言提供

RNA-seq数据综合分析教程 AKAP95

RNA-seq数据综合分析教程 2 4,055 A+ 所属分类:Transcriptomics 收  藏 2 RNA-seq数据分析 mRNA-seq是目前最常用的高通量测序技术,一般的用法就是看看基因表达谱,寻找差异表达的基因.我和高通量测序数据分析结缘,也是因为RNA-seq. 一开始我对mRNA-seq数据分析一无所知,跑了"tophat+cufflinks"的流程也不知道每一步的原因,把"RNA-seq data analysis:A pratice approach

测序数据质量控制

基于边合成边测序(Sequencing By Synthesis,SBS)技术,Illumina HiSeq2500高通量测序平台对cDNA文库进行测序,能够产出大量的高质量Reads,测序平台产出的这些Reads或碱基称为原始数据(Raw Data),其大部分碱基质量打分能达到或超过Q30.Raw Data通常以FASTQ格式提供,每个测序样品的Raw Data包括两个FASTQ文件,分别包含所有cDNA片段两端测定的Reads. FASTQ格式文件示意图如下: FASTQ格式文件示意图 注:

基因组序列注释 (基因结构预测)

基因组组装完后需要对基因组序列进行注释.注释前首先得构建基因模型,有三种策略: 从头注释(de novo prediction):通过已有的概率模型来预测基因结构,在预测剪切位点和UTR区准确性较低 同源预测(homology-based prediction):有一些基因蛋白在相近物种间的保守型高,所以可以使用已有的高质量近缘物种注释信息通过序列联配的方式确定外显子边界和剪切位点 基于转录组预测(transcriptome-based prediction):通过物种的RNA-seq数据辅助注

基于eXpress对转录组和基因组进行量化

; color:rgb(51,51,51); font-family:Arial,Console,Verdana,'Courier New'"> NGS 目录(?)[+] General workflow eXpress是一个通用的丰度估计工具,它可以应用于任意靶序列和高通量测序reads. 靶序列可以是任意基因组区域,例如RNA-seq中的转录本.因此,一般的流程应该是这样的: 1. 选择你要分析的数据 2. 产生靶序列的集合 3.将目的片段比对到靶序列上 4. eXpress需要的参数