权威发布:长链非编码RNA命名规则

转自:http://blog.sina.com.cn/s/blog_8088f3700101pab7.html

权威发布:长链非编码RNA命名规则

对于人类基因命名标准的制定而言,雨果基因命名委员会(HGNC)是唯一官方授权的机构。HGNC的数据库中有38000个基因名称,其中大部分是编码蛋
白基因;但HGNC也命名了8500多个人类非编码基因及假非编码基因,通过与各层次专家们的合作,他们命名了大多数的小非编码RNA。

小非编码RNA一般可根据它们的同源性及相同功能来分类。相比而言,长链非编码RNA则有其完全不同的一系列特点,它们的长度超过200个碱基,不具有保守序列的同源性,还有多变的功能属性。就像编码蛋白基因一样,长链非编码RNA也是尽量基于它们产物的已知功能来命名。

为了帮助科研人员能有效地命名lncRNA,让他们的命名更规范,名字更能反映功能,HGNC制作了这么一个命名指导标准,供科研人员参考。

在一个长链非编码RNA要发表之前,研究人员应先得到HGNC的认可。

依据相关预测,人类基因组中有大量的长链非编码RNA(至少几千条),但人类了解其功能的很少。所以,一般用基因组上下文来对未知功能的lncRNA命
名。HGNC希望与研究者们一起把长链非编码RNA命名的工作做好。HGNC的目标是让lncRNA的命名具有唯一性、准确性(让名字最大程度的反映功
能)。

lncRNA 命名指导标准
一条lncRNA要命名得合理准确,有一些原则需要去遵循,有许多的因素需要去注意。详细的命名原则及考虑因素如下:
每一条lncRNA的名字应具有唯一性

“名字唯一性”这条原则很重要,不能违反。它能让我们在研究分析某个基因时不会产生问题(不会发生这种事情:一条基因几个名字,存在重名的基
因等)。另一方面,上述问题也不利于HGNC对命名规则的管理及维护。如果一个作者发布一个lncRNA名字,而它已经在别的地方使用过,HGNC将会指
定一个新的名字供选择。例如,一个新的lncRNA,它的功能是维持上皮细胞在非分化状态,本来打算命名为ANCR,但是这个名字已经被使用于“快乐木偶
综合症染色体区,Angelman
syndrome chromosome region”,所以与作者达成一致,用DANCR来命名这个lncRNA“
differentiation antagonizing non-protein coding RNA”.

lncRNA的名字应是描述基因的缩写
每条lncRNA的标识都应是一个描述该基因的“缩写”或者“首字母简写”。
例如BANCR就是由‘BRAF-activated non-protein coding
RNA’短语的首字母排列而成。这样让人们容易理解名字的含义。

lncRNA的名字应仅由拉丁字母和阿拉伯数字组成
每条lncRNA的标识中不应出现标点符号,但可以用字母或者数字来代替标点符号。
连字符仅在特殊场合使用。例如:反义编码蛋白基因可在标识中加连字符(BACE1-AS就是BACE1 antisense
RNA的名字)。

lncRNA的名字中的字母应为大写
为了与其它种类物种的基因区别开来(如啮齿动物基因的标识只要求首字母大写,其余小写),人类基因标识中的字母都应为大写。
例如“热气”(HOTAIR)基因,在人类中叫HOTAIR,而在老鼠中写成Hotair。

lncRNA的名字中不应涉及具体的物种类型
例如:如果基因名字中有H/h(代表人类),由于牵涉到同源基因的问题,就会造成一些疑惑和误导。

lncRNA的标识应避免采用一些常用的词汇
基因的名字中出现的常用词汇会带来一些混乱,给分析研究带来很多问题,因此,在命名中应避免出现常见词汇。
例如:“AIRN”基因最初公布时叫‘AIR’,从公共数据库中搜索可得到22万条不相关的信息,而搜索“AIRN”则只有10条信息。可见“AIRN”的搜索效率有效得多。同样的例子很多。

lncRNA的标识应尽可能的反映其功能
例如:‘XIST‘基因是‘X (inactive)-specific
transcript‘的缩写,该基因的作用是参与沉默一对X染色体的转录。
命名的时候尽量反映基因通常的功能,而不体现其突变表型。基因的命名应简洁明了,不应包含太多信息。

  • 基因的标识中不应具有攻击或轻蔑的色彩。
  • 基因的标识中不应具有个人及地方色彩。
  • 基因的标识中不应含有神化,虚构或历史人物的名字。
  • 基因的标识中不应含有“臆想”和没什么意义的信息。

功能性转录假基因应包含它们假基因的名字
目前,一些数量较少的转录假基因被发现具有功能性,例如PTENP1基因就与“PTEN-targeting”miRNA结合一起参与调节PTEN的表达水平。

具有功能的转录假基因在命名时应保留它们的假基因名称,并且不应改变其基于功能的名称。为了方便搜索,这个功能应加在标识的最后。PTENP1的命名就是这方面的例子。PTENP1
是‘phosphatase and tensin homolog pseudogene 1 (functional)’.

如何命名未知功能的基因应遵循如下要求
未知功能的lncRNA应依据基因组上下文来命名,图一中给出如何系统化的命名的规则。

图一

如果有一个很接近的蛋白编码基因,lncRNA的名字应该以这个编码基因名字开始,然后制定以后后缀,这个后缀可以下方式分类:反义
(antisense,AS),BACE1-AS;内含子(intronic,IT),例如,SPRY4-IT1;重叠
(overlapping,OT),例如,OSX2-OT;长链基因间lncRNA(Long
intergenic
lncRNAs,lincRNAs),以LINC为前缀,数字为后缀,例如LINC00485.本质上以上命名原则是以GNECODE的注释目录为基准,
反义RNA,正义内含子,正义重叠和长链基因间非编码RNA(lincRNA).一些新的分类方法也应该考虑,特别对这些lnRNA,它们与编码基因是头
碰头(head
to head),因此推断它们拥有双向启动子,HGNC推荐命名这些lncRNA为反义上游(Antisense
upstream,AU),例如,GENE2-AU1。大家也应该注意到HGNC并不赞成以剪接变异体来命名,所以两个剪接变异体命名是以其中一个
lncRNA基因来命名,例如,GENE2-AS1;如果一个lncRNA基因编码的转录本跨多于一个蛋白编码基因,用lncRNA的5’末端的第一个蛋
白编码基因来命名,例如GENE-AS2

上述命名的基本架构适用于大多数lncRNA,但对于基因密集区域的lncRNA可能就不适用了,这种情况下,你应该与HGNC沟通来解决。

HGNC致力于让人类基因组中lncRNA的命名有效、规范。想了解更多相关内容请访问
www.genenames.org/rna/LNCRNA,也可以给HGNC发邮件[email protected]

时间: 2024-10-28 14:52:20

权威发布:长链非编码RNA命名规则的相关文章

长链非编码RNA(lncRNA)

长链非编码RNA(lncRNA) 转自:http://blog.sina.com.cn/s/blog_909da11301010bkz.html     长链非编码RNA(lncRNA)是一类转录本长度超过200nt的RNA分子,它们并不编码蛋白,而是以RNA的形式在多种层面上(表观遗传调控.转录调控以及转录后调控等)调控基因的表达水平. lncRNA起初被认为是基因组转录的“噪音”,是RNA聚合酶II转录的副产物,不具有生物学功能.然而,近年来的研究表明,lncRNA参与了X染色体沉默,基因组

一文读懂长非编码RNA(lncRNA)的分类、功能及测序鉴定方法

RNA的重要调控功能发现历程(Rinn et al. Annu Rev Biochem, 2013) 长非编码RNA,英文名为long noncoding RNAs,缩写为lncRNA,是指长度大于200 核苷酸的非编码RNA.LncRNA因具有非常重要的调控功能,且几乎参与到了各种生物学过程和通路,与各种疾病的发生发展紧密关联,从而成为过去几年和将来的研究热点和重点.对于人类基因组来说,产生的lncRNA数量比编码RNA的数量要多得多,目前除了少数lncRNA的功能比较明确外,大部分lncRN

长链剖分随想

之前写了那么长一篇Blog-现在不如写篇小短文-说一下另一种树链剖分方法--长链剖分的事情.它可以比重链剖分更快地完成一些东西. 树链剖分的原始版本重链剖分非常经典,这里就不从头介绍了. 原本的剖分方法是按照子树大小剖分,与子树点数最多的儿子连成链,所以叫做重链剖分-然后显然就有一个点到根的路径上至多$O(\log n)$条轻边这个性质(因为沿着轻边走,每次子树大小一定小于父亲的一半).有了这个性质就可以做各种路径相关的查询,暴力每次跳到重链开头就好- 而在一些问题里,有这么一种奇妙的剖分方式可

2015年百度发布外链标准指出该如何做网站的外链

最近一段时间,随着2013年百度外链发布标准的发布,致使很多的做SEO的朋友们开始陷入了绝境,以前的一套长期总结下来的方法在突然之间失去了任何的价值和存在意义,对于做SEO的朋友们来说,无疑是一个重大的打击,河南传易科技-小金就是这个里面文档发出的第一受害者,普遍的网站被K造成了很大的压力,公司的压力,客户的压力,有质量的外链从过万到现在的微乎其微,打击不可谓小! 自从百度发布了公告之后,小金就好像入了魔症一样,开始每天的想方法,找策略,希望能够尽快的找到一些有效的解决方法来重新建立昔日的辉煌,

比特币如何达成共识 - 最长链的选择

比特币没有中心机构,几乎所有的完整节点都有一份公共总帐本,那么大家如何达成共识:确认哪一份才是公认权威的总账本呢? 为什么要遵守协议 这其实是一个经济问题,在经济活动中的每个人都是自私自利的,追求的是利益的最大化,一个节点工作量只有在其他的节点认同其是有效的(打包的新区块,其他的节点只有验证通过才会加入到区块链中,并在网络上传播),才能够过得收益,而只有遵守规则才会得到其他的节点认同.因此,基于逐利,节点就会自发的遵守协议.共识就是数以万计的独立节点遵守了简单的规则(通过异步交互)自发形成的.

[算法学习] 长链剖分

简介 长链剖分是跟dsu on tree类似的小\(trick\),可以资瓷维护子树中只与深度有关的信息. 并能达到线性的时间复杂度. 算法流程 对于每个点,记录重儿子\(heavy[u]\)表示深度最大的儿子,其余作为轻儿子. 这样我们可以得到若干条互不相交的长链. 在维护信息的过程中,我们先\(O(1)\)继承重儿子的信息,再暴力合并其余轻儿子的信息. 因为每一个点仅属于一条长链,且一条长链只会在链顶位置作为轻儿子暴力合并一次,所以复杂度是线性的. 但是我们发现,这个数组仿佛开不下(大雾),

最长链

最长链 题目描述 现给出一棵N个结点二叉树,问这棵二叉树中最长链的长度为多少,保证了1号结点为二叉树的根. 输入描述 输入的第1行为包含了一个正整数N,为这棵二叉树的结点数,结点标号由1至N. 接下来N行,这N行中的第i行包含两个正整数l[i], r[i],表示了结点i的左儿子与右儿子编号.如果l[i]为0,表示结点i没有左儿子,同样地,如果r[i]为0则表示没有右儿子. 输出描述 输出包括1个正整数,为这棵二叉树的最长链长度. 样例输入 5 2 3 4 5 0 6 0 0 0 0 样例输出 4

SPOJ LIS2 Another Longest Increasing Subsequence Problem 三维偏序最长链 CDQ分治

Another Longest Increasing Subsequence Problem Time Limit: 20 Sec Memory Limit: 256 MB 题目连接 http://acm.hust.edu.cn/vjudge/problem/visitOriginUrl.action?id=19929 Description Given a sequence of N pairs of integers, find the length of the longest incre

codevs 1814 最长链

二次联通门 : codevs 1814 最长链 /* codevs 1814 最长链 树形DP 当前点(LQZ)的最大价值由他的 左儿子(HKD) 和 右儿子(SYL)的最大价值转移而来 其余细节乱搞一下就可 我还是水的很开心啦.. */ #include <cstdio> #define Max 100080 inline int max (int a, int b) { return a > b ? a : b; } void read (int &now) { now =