GFF3格式文件

GFF3是GFF注释文件的新标准。文件中每一行为基因组的一个属性,分为9列,以TAB分开。

依次是:

1. reference sequence:参照序列

指出注释的对象。如一个染色体,克隆或片段。可以有多个参照序列。

该id的取名不能以’>’开头,不能包含空格。

2. source :来源

注释的来源。如果未知,则用点(.)代替。

3. type      :类型

属性的类型。建议使用符合SO惯例的名称(sequence ontology,参看[[Sequence Ontology Project]]) ,如gene,repeat_region,exon,CDS等。

4. start position       :起点

属性对应片段的起点。从1开始计数。

5. end position          :终点

属性对应片段的终点。一般比起点的数值要大。

6. score    :得分

对于一些可以量化的属性,可以在此设置一个数值以表示程度的不同。如果为空,用点(.)代替。

7. strand  :链

“+”表示正链,“-”表示负链,“.”表示不需要指定正负链。

8. phase   :步进

对于编码蛋白质的CDS来说,本列指定下一个密码子开始的位置。可以是0,1或2,表示到达下一个密码子需要跳过的碱基个数。

对于其它属性,则用点(.)代替。

9. attributes    :属性

一个包含众多属性的列表。格式为“标签=值”(tag=value)。不同属性之间以分号相隔。可以存在空格,不过若有“,=;”则用URL转义(URL escaping rule),同时TAB也需要转换为“ ”表示。所有以大写字幕开头的标签被保留,用于大众认可的用途,而以小写字母开头的标签则根据自己安排随意应用。

下列的标签已定义:

ID

指定一个唯一的标识。对属性分类是非常好用(例如查找一个转录单位中所以的外显子)。

Name

指定属性的名称。展示给用户的就是该属性。。Name的值在可视化的时候得到展示。因此,Name可以根据自己展示的需要随意取值。

Alias

名称的代称或其它。当存在其它名称时使用该属性。

Parent

指明feature所从属的上一级ID。用于将exons聚集成transcript,将transripts聚集成gene。

Target

指明比对的目标区域,一般用于表明序列的比对结果。格式为”target_id start end [strand]“,其中strand是可选的(“+”或”-”), target_id中如果包含空格,则要转换成’ ′。

Gap

比对结果的gap信息,和Target一起,用于表明序列的比对结果。

Note

描述性的一些说明。

Is_circular

表明featrue是否为环化的。用于环状基因组序列。

同一个tag如果有多个值,则多个值之间使用逗号隔开,比如:

Parent=AF2312,AB2812,abc-3

Alias=M19211,gna-12,GAMMA-GLOBULIN

能够使用多个值的tag有:Parent, Alias, Note, Dbxref and Ontology_term。

参考:http://blog.sina.com.cn/s/blog_670445240102uxh2.html

时间: 2024-09-27 04:35:28

GFF3格式文件的相关文章

正确的打开DWG格式文件用这个办法

CAD文件如今在许多的领域当中都会使用到,DWG格式文件作为最常使用的CAD文件图纸,自然经常会被我们使用到,如果我们想要对DWG格式文件进行查看和编辑,那么我们应该怎么进行操作呢?想要打开DWG格式文件,就需要使用专业的CAD文件编辑器打开.那么打开DWG格式文件正确的方法是什么? 一.什么软件可以打开DWG格式文件 打开DWG格式文件正确的方法就是使用迅捷CAD编辑器(官网:http://cad.xjpdf.com)这款专业的CAD文件编辑软件进行打开.这款软件支持多种CAD文件格式,其中就

如何用.net c# 读取epub格式文件

如何用.net(c#)读取epub格式文件 epub格式是印刷出版界常见的格式,本格式遵循XML原则把网页进行压缩打包. 如何用c#读取epub格式文件是个头疼的问题,本人搜遍各大网站,发现介绍都语焉不详. 因项目中要用的此功能,特做案例整理如下,仅供参考. // 动态库下载地址 https://epubreader.codeplex.com/,添加引用eBdb.EpubReader.dll // 头部增加引用 using eBdb.EpubReader; string fullfile = @

linux环境下deb格式文件转换成rpm格式

以 alien_8.87.tar.gz 为例: 下载.安装 alien_8.87.tar.gz [[email protected] ~]# wget http://ftp.de.debian.org/debian/pool/main/a/alien/alien_8.87.tar.gz [[email protected] ~]# tar zxvf alien_8.87.tar.gz [[email protected] ~]# cd alien [[email protected] alien

使用PHPExcel导入导出excel格式文件

使用PHPExcel导入导出excel格式文件 作者:zccst 由于导出使用较多,下面是导出实现过程. 第一步,将PHPExcel的源代码复制到项目的lib下 文件包括:PHPExcel.php 和 文件夹PHPExcel 源代码见附件 注1:源代码是zip格式,能在windows和linux通用. 注2:PHPExcel.zip是干净代码,可以直接引用.PHPExcel2.zip有svn记录,不适合直接引用. 第二步:在需要导出的handler页面中引用 1,在头部引入三个文件 Php代码 

读取xml格式文件

$v = [xml]get-content d:\vmconfig.xml $v.Domain.Computer.Name vmconfig.xml内容: <?xml version="1.0" encoding="UTF-8"?><Domain><Computer><Name>stcmm-vm-s01</Name><IpAddress>192.168.0.2</IpAddress>

嵌入资源第三讲:多格式文件内嵌入WPF资源文件

作为一个扩展,你需要了解DotNetZip用法,请参见:C# .NET 使用第三方类库DotNetZip解压/压缩Zip文件 你也需要了解单文件内嵌入资源文件基本方法,参见:WPF调用嵌入的非.net的EXE资源文件 作者:一剑 如果你有一大堆文件或者想通过打包的方式嵌入任意格式的文件到资源文件中,那么你可以打包成一个ZIP文件,再嵌入到资源文件中是一个不错的选择: using System.Reflection;//++ using System.IO; using Ionic.Zip; na

通过读取文件头部判断是否为CSV格式文件

通过读取文件头部判断是否为CSV格式文件 通过读取CSV文件头,判断文件是是否属于CSV文件类型,一般而言仅仅只是通过文件后缀来判断该文件所属的类型,这样是不合理的,只要更改一下文件后缀就无法识别这个文件到底是不是正确的文件格式,把可执行的文件后缀改为.CSV如果是通过判断文件后缀来识别文件类型,这样肯定是行不通的,因为exe的文件格式肯定不是CSV的格式,如果提前判断出这个文件头的这样就能定位这个文件是不是我们所需要的文件类型,避免对错误的文件进行解析.同样也可以在某种程度上保护服务器的安全.

Android音频: 如何使用AudioTrack播放一个WAV格式文件?

翻译 By Long Luo 原文链接:Android Audio: Play a WAV file on an AudioTrack 译者注: 1. 由于这是技术文章,所以有些词句使用原文,表达更准确. 2. 由于水平有效,有些地方可能翻译的不够准确,如有不当之处,敬请批评指正. 3. 针对某些语句,适当补充了上下文及更适合中文阅读,尽量做到信达雅. 如果你已经成功地了解了关于AudioTrack的一些话题,那么你可能享受它带来的好处,例如低延迟(在STATIC(静态)模式),能够生成流式音频

【NLP】Tika 文本预处理:抽取各种格式文件内容

Tika常见格式文件抽取内容并做预处理 作者 白宁超 2016年3月30日18:57:08 摘要:本文主要针对自然语言处理(NLP)过程中,重要基础部分抽取文本内容的预处理.首先我们要意识到预处理的重要性.在大数据的背景下,越来越多的非结构化半结构化文本.如何从海量文本中抽取我们需要的有价值的知识显得尤为重要.另外文本格式常常不一,诸如:pdf,word,excl,xml,ppt,txt等常见文件类型你或许经过一番周折还是有办法处理的.倘若遇到database,html,邮件,RTF,图像,语音