探索gff/gtf格式

参考:

GFF格式说明

Generic Feature Format Version 3 (GFF3)

先下载一个 gtf 文件浏览一下

1       havana  gene    11869   14409   .       +       .       gene_id "ENSG00000223972"; gene_version "5"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2";
1       havana  transcript      11869   14409   .       +       .       gene_id "ENSG00000223972"; gene_version "5"; transcript_id "ENST00000456328"; transcript_version "2"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; havana_gene "OTTHUMG00000000961"; havana_gene_version "2"; transcript_name "DDX11L1-002"; transcript_source "havana"; transcript_biotype "processed_transcript"; havana_transcript "OTTHUMT00000362751"; havana_transcript_version "1"; tag "basic"; transcript_support_level "1";

有一个 R 的版本,可以看一看:R的bioconductor包TxDb.Hsapiens.UCSC.hg19.knownGene详解

另外,看看 Bioconductor的数据包library(org.Hs.eg.db)简介,了解一些基本的常识。

时间: 2024-08-05 02:20:48

探索gff/gtf格式的相关文章

读取gff/gtf文件的内容

题目和内容参考jimmy大神的http://www.biotrainee.com/thread-626-1-1.html gff文件来自gencode的genode.v26.annotation.gft.gz 目的:熟悉gff文件内容,练习提取数据操作 1.统计每一条染色体的基因数目: zcat gencode*|awk '$3=="gene"{print $1}'|sort|uniq-c #$3是feature type,$1是reference sequence name. 2.统

基于eXpress对转录组和基因组进行量化

; color:rgb(51,51,51); font-family:Arial,Console,Verdana,'Courier New'"> NGS 目录(?)[+] General workflow eXpress是一个通用的丰度估计工具,它可以应用于任意靶序列和高通量测序reads. 靶序列可以是任意基因组区域,例如RNA-seq中的转录本.因此,一般的流程应该是这样的: 1. 选择你要分析的数据 2. 产生靶序列的集合 3.将目的片段比对到靶序列上 4. eXpress需要的参数

《生物信息学》——李霞;;生信概念

挑战:寻找新的处理海量数据和复杂性的方法. 生信:说了什么: 研究对象:       以核酸.蛋白质等生物大分子数据库 研究手段方法:数学.信息学.计算机科学 研究工具:       计算机硬件.软件.计算机网络 研究目的:       对浩如烟海的原始数据进行获取.加工.存储.分配.分析.管理.注释解释,使之成为具有明确生物意义的生物信息. 并通过生物信息的查询.搜索.比较.分析,从中获取基因编码.基因调控.核酸和pro结构功能及其相互关系等理性知识. 在大量信息和知识的基础上探索生命起源.生

tophat的用法

概述:tophat是以bowtie2为核心的一款比对软件. tophat工作分两步: 1.将reads用bowtie比对到参考基因组上. 2.将unmapped-reads打断成更小的fragments,比对到参考基因组上,如果比对成功,建立剪切点. 用法:tophat [options]* <index_base> <reads1_1[,-,readsN_1]> [reads1_2,-readsN_2] <index_base>:参考基因组的index文件的具体目录,

生物大数据处理的一点心得

在生物领域中,常常处理gff,gtf,bam,sam等格式的文件.在此我总结了几点我处理这些文件的经验. 1.善用split分割每行,这些文件基本都是用tab分割的,所以有split分割非常方便,每行最后的注释信息一般都是;分割. 2.找出你所需要的列,并找出这列所有不同的元素.因为你拿到的文件可能之前就被处理过,具有很强的不确定性.比如你拿到了一个水稻的数据,你下意识的可能会认为染色体那列只有12种可能,但往往就是这种主观错误导致你的程序运行不了,因此在处理之前一定要弄清楚每列的元素. 3.将

Php RSS

RSS 聚合最近非常流行,因此至少对 RSS 及其工作方式有所了解是一名 PHP 开发人员的迫切需要.本文介绍了 RSS 基础知识.RSS 众多用途中的一些用途.如何使用 PHP 从数据库创建 RSS 提要,以及如何使用 XML_RSS 模块读取现有 RSS 提要并将其转换为 HTML. 什么?您没听说过 RSS? RSS 聚合是最常见的 TLA(三字母缩写词)之一.RSS 作为缩写词具有多种含义,但是当前的标准含义是:真正简单的聚合.这是对这一极为常见.极为有用的标准的最新解释. 回想 Int

Annovar注释说明【转载自http://blog.csdn.net/u013816205/article/details/51262289】

ANNOVAR是一个perl编写的命令行工具,能在安装了perl解释器的多种操作系统上 执行.允许多种输入文件格式,包括最常被使用的VCF格式.输出文件也有多种格式,包括注释过的VCF文件.用tab或者逗号分隔的text文件. ANNOVAR能快速注释遗传变异并预测其功能.类似的variants注释软件还有 VEP, snpEff, VAAST, AnnTools等等. ANNOVAR支持三种不同形式的注释: gene-based, region-based 和filter-based. 这三种

annovar对人类基因组和非人类基因组variants注释流程

部分翻译:Hui Y, Kai W. Genomic variant annotation and prioritization with ANNOVAR and wANNOVAR[J]. Nature Protocols, 2015, 10(10). 此文只是用于作者和所有初接触annovar软件者分享交流.更深入学习请仔细阅读全文.转载请注明. ANNOVAR是一个perl编写的命令行工具,能在安装了perl解释器得多种操作系统上执行.允许多种输入文件格式,包括最常被使用的VCF格式.输出文

转录组的组装Stingtie和Cufflinks

转录组的组装Stingtie和Cufflinks Posted: 十月 18, 2017  Under: Transcriptomics  By Kai  no Comments 首先这两款软件都是用于基于参考基因组的转录组组装,当然也可用于转录本的定量.前者于2016年的 protocol上发表的转录组流程HISAT, StringTie and Ballgown后被广泛使用,后者则是老牌的RNA分析软件了.在算法上来说Stringtie使用的是流神经网络算法,Cufflinks则是吝啬算法: