转载:ensemble计划和数据库

原文来源:x2yline在生信进化树上的评论,http://www.biotrainee.com/thread-626-1-1.html

Ensemble( ensembl.org网站是常用真核生物参考基因组来源之一 )能够对人类基因自动进行注释,包括人类,小鼠,斑马鱼,猪和大鼠等,也包括来自HAVANA的人工注释信息。
Ensembl是一项生物信息学研究计划,旨在开发种能够对真核生物基因组进行自动注释(automatic annotation)并加以维护的软件系统。该计划由英国Sanger研究所Wellcome基金会及欧洲分子生物学实验室所属分部欧洲生物信息学研究所共同协作运营。

Ensembl与NCBI的NCBI Map Viewer和UCSC是最为常用基因组检索数据库。

Ensembl 与NCBI Map Viewer和UCSC最大区别表现在以下5点:
a.Ensembl的基因数据集是依据mRNA和蛋内序列的数据信息白动注释的。数据来源为新的基因组数据,UniProt/SwissProt和UniProt/TrEMBL的蛋白序列,NCBI的RefSeq里的DNA和蛋白序列和EMBL的cDNA序列。
b.Ensembl是一个开源(Perl API )的全自动的基因注释软件系统,很多网站都采用Ensembl这套软件系统。
c.Ensembl拥存其特有的BioMart功能。BioMart可以依据设定的要求对基 因组进行条件性检索,检索的结果吋以以图表的形式给出。
d.与其它数据库相整合,比如DAS。
e.基因组间的比较分析。

基因注释机构
目前从事基因注释的机构组织有很多,这里列出的只是较为常用的几个。
1. Ensembl:目的是做出最好的基因注释集。
2.Havana (VEGA):是桑格中心的一个基因注释组织,它的目标和Eiisembl—致,因此,结合得也最紧密。
3. HGNC -给出人类基因唯一的名字和符号。
4. UniProt 主要集中于蛋白质的信息注释。

Ensembl的通用基因注释有两种,一是Ensembl GeneBuild,它是自动化注释,速度快,实时更新,在不同物种上均适用;另一种是Wellcome基金会的 Havana (VEGA)小组的注释,它是手工注释,速度慢,但是准确,它依据的都是已经验证过的mRNA和蛋白序列来注释,比较费时。因此Ensembl基因组数据库 中,会有两种注释。

Havana (VEGA)小组的注释常有以下几种类型:
详细信息:http://vega.sanger.ac.uk/info/about/gene_and_transcript_types.html
Protein coding: 包括开放阅读框 (ORF).
Processed transcript:没有开放阅读框(ORF)
Pseudogene:假基因,是指脱氧核糖核酸(DNA)的碱基序列中,一段与其他生物体内已知的基因序列非常相似的片段。但是这个片段由于移码突变或者无义突变破坏了ORF,无法发挥原有的基因功能,也就是无法制造出蛋白质
IG gene:免疫球蛋白家族基因
TR Gene:T细胞受体基因
TEC (To be Experimentally Confirmed)

人类和小鼠基因组的GTF文件与GENCODE计划发布的gene set文件相同。
The GENCODE project 的目标为对人类和小鼠基因组提供高质量的注释信息和实验确证。
The GENCODE gene sets被其他项目作为参考而广泛使用(如 1000 Genomes).
详细内容:https://www.gencodegenes.org/about.html

带有abinitio扩展名的文件为用Genescan和abinitio基因预测工具生成的
预测基因的注释文件

时间: 2024-10-28 21:24:57

转载:ensemble计划和数据库的相关文章

[转载] SQL获取所有数据库名、表名、储存过程以及参数列表

查询一个数据库中所有表字段属性的sql语句 1.获取所有用户名: SELECT name FROM Sysusers where status='2' and islogin='1' islogin='1'表示帐户 islogin='0'表示角色 status='2'表示用户帐户 status='0'表示糸统帐户 2.获取所有数据库名: SELECT Name FROM Master..SysDatabases ORDER BY Name 3.获取所有表名 SELECT Name FROM Da

(转载) IBM DB2数据库odbc配置步骤详解

[IT168 技术] 首先安装IBM DB2 odbc driver 1):可以单独下载DB2 Run-Time Client,大约(86.6m),安装后则odbc驱动程序安装成功.下载地址:ftp://ftp.software.ibm.com/ps /products/db2/fixes2/english-us/db2winIA32v8/fixpak/FP17a_WR21440/FP17a_WR21440_RTCL.exe 2):也可以直接安装ibm db2数据库后,该驱动程序自动安装.数据库

[转载]php连接postgreSQL数据库及其操作(php5,postgreSQL9)

数据库连接:dbconn.php<?php$conn = pg_connect("host=localhost port=5432 dbname=myd user=postgres password=postgres"); if($conn){    print "has connected" . "<br>";}else{    print "connect failure" . "<br&

转载:oracle数据库关闭和启动命令

前言 先以sysdba登录到sqlplus然后运行以下命令. windows平台下,oracle 中组成实例的后台进程是由 oracle 服务派生出来的线程实现的,所以任务管理器看不见 DBWn 之类的后台进程 (linux 平台下 用 ps aux 命令是可以看见的).shutdown 停掉实例过程,是关闭后台进程(这里对应线程)和释放 SGA 内存.因为关闭的是线程,所以在任务管理器中看不出变化.oracle 进程是用来派生后台线程的服务进程,尽管他还在,实际上 oracle 实例已经停止了

Atitit sql执行计划

1.1. 首先要搞明白什么叫执行计划? 执行计划是数据库根据SQL语句和相关表的统计信息作出的一个查询方案,这个方案是由查询优化器自动分析产生的 Oracle中的执行计划显示在执行一条SQL语句时必须执行的详细步骤,通常以表格形式呈现,但其实是树形结构.查看Oracle中的执行计划一般有以下几种方法(包括但不限于). 不要把SQL语句写得太复杂 我经常看到,从数据库中捕捉到的一条SQL语句打印出来有2张A4纸这么长.一般来说这么复杂的语句通常都是有问题的.我拿着这2页长的SQL语句去请教原作者,

SQL Server 执行计划缓存

原文:SQL Server 执行计划缓存 标签:SQL SERVER/MSSQL SERVER/数据库/DBA/内存池/缓冲区 概述 了解执行计划对数据库性能分析很重要,其中涉及到了语句性能分析与存储,这也是写这篇文章的目的,在了解执行计划之前先要了解一些基础知识,所以文章前面会讲一些概念,学起来会比较枯燥,但是这些基础知识非常重要. 目录 概述 基础概念 怎样缓存执行计划 SQL Server自动删除执行计划 重新编译执行计划 测试 执行计划相关系统视图 手动清空缓存执行计划 测试索引更改对执

单机数据库优化的一些实践

本文由码农网 – 吴极心原创,转载请看清文末的转载要求,欢迎参与我们的付费投稿计划! 数据库优化有很多可以讲,按照支撑的数据量来分可以分为两个阶段:单机数据库和分库分表,前者一般可以支撑500W或者10G以内的数据,超过这个值则需要考虑分库分表.另外,一般大企业面试往往会从单机数据库问起,一步一步问到分库分表,中间会穿插很多数据库优化的问题.本文试图描述单机数据库优化的一些实践,数据库基于mysql,如有不合理的地方,欢迎指正. 1.表结构优化 在开始做一个应用的时候,数据库的表结构设计往往会影

2017年数据库技术盘点

欢迎大家前往云+社区,获取更多腾讯海量技术实践干货哦~. 作者 | 那海蓝蓝,腾讯金融云数据库技术专家 作者 | 小编0.7,腾讯TDSQL分布式数据库专家 作者 | 大米,腾讯TDSQL分布式数据库专家 责编 | 仲培艺 由腾讯技术工程官方号发布在云+社区 在数据库领域,回顾2017这一年,精彩纷呈,热点不断,而且不乏标志性的事件发生. 如Oracle提出的自治数据库这样的概念,把数据库技术带入一个新世界.其实AI技术应用于数据库由来已久,如AI技术调优数据库的性能.AI技术优化SQL.AI技

Mssql企业实战之数据库恢复

数据库完整还原的目的是还原整个数据库. 整个数据库在还原期间处于脱机状态.在数据库的任何部分变为联机之前,必须将所有数据恢复到同一点,即数据库的所有部分都处于同一时间点并且不存在未提交的事务. 在完整恢复模式下,数据库可以还原到特定时间点.时间点可以是最新的可用备份.特定的日期和时间或者标记的事务. 还原完整数据库步骤 通常,将数据库恢复到故障点分为以下几个步骤: 1. 备份活动事务日志(称为尾部日志).此操作将创建结尾日志备份.如果活动日志不可用,则该日志部分的所有事务将全部丢失. 注:在完整