基因组的外显子探究

这是我们论坛上的一个题目:生信编程直播第一题:人类基因组的外显子区域到底有多...

外显子组的序列仅占全基因组序列的1%左右,但大多数与疾病相关的变异位于外显子区。通过外显子组测序可鉴定约8万个变异,全基因组测序可鉴定300万个变异,因此与全基因组测序相比,外显子组测序不仅费用较低,数据阐释也更为简单。外显子组测序技术以其经济有效的优势广泛应用于孟德尔遗传病、罕见综合征及复杂疾病的研究,并于2010年被Science杂志评为十大突破之一。

任务:外显子到底占基因组什么样的百分比,是哪些位点。

去NCBI里面拿到 consensus coding sequence (CCDS)记录(可以查询hg19上的所有基因的位置,chromosome    nc_accession    gene    gene_id    ccds_id    ccds_status    cds_strand    cds_from    cds_to    cds_locations    match_type)

外显子的侧翼长度:在每个断裂基因的两侧都有一段在转录调控中起重要作用的非编码序列,称为侧翼序列。侧翼基因:在第一个和最后一个外显子的外侧,都有一段不被转录的非编码区。称为侧翼序列,包括启动子(promoter),增强子(enhancer),终止子(terminator)等。侧翼序列调节基因表达。侧翼序列就是侧翼基因。侧翼区特异性可以作为基因探针,侧翼基因在第一个和最后一个外显子的外侧,都有一段不被转录的非编码区·称为侧翼序列。相当于有一个参照。

注意,基因与基因之间是可能有交叠的区域的。

1. 什么是外显子?什么是cds?

CDS: "A contiguous sequence which begins with, and includes, a start codon and ends with, and includes, a stop codon."

Exon: "A region of the transcript sequence within a gene which is not removed from the primary RNA transcript by RNA splicing."

外显子是形成mRNA后剪接剩下的部分,包括UTR区与CDS,而CDS则是真正编码蛋白的Coding Sequence;

2.此次作业虽然是统计人类基因组的外显子区域,但是还是统计CDS部分,不统计外显子

3.去重不去除在染色体上overlap的部分,只去除完全一样的部分;

1.首先,根据老师的做法是,从NCBI上下载CCDS的最新版本文件,ftp://ftp.ncbi.nlm.nih.gov/pub/C ... an/CCDS.current.txt

import csv

ncbi_file="CCDS.20160908.txt"
with open(ncbi_file,‘r‘)as f1:
    file=csv.reader(f1,delimiter="\t")
    next(file)
    sum=0
    exon_dict={} # dict is faster than list
    for record in file:
        if record[9] != "-":
            chr=record[0]
            exon_list=record[9].lstrip("[").rstrip("]").split(", ")
            # print(exon_list)
            for range in exon_list:
                exon=chr+":"+range
                # print(exon)
                if exon not in exon_dict:
                    exon_dict[exon]=""
                    exon_start=int(range.split("-")[0])
                    exon_end=int(range.split("-")[1])
                    # print(exon_start)
                    sum+=exon_end-exon_start
print(sum)

这里很好,使用了python的csv模块,而不必实现底层的某些细节

2.从UCSC下载所有CDS的region来验证,下载方法是使用ucsc的table browser,链接在这里

3.从Ensembl下载所有的CDS进行验证,使用的是Ensembl的Biomart,链接在这里

时间: 2024-10-12 22:56:52

基因组的外显子探究的相关文章

人的基因组

大小3.0G 30个bp(碱基对) :  60亿nt (碱基) 从1990-2003年,历时13年,耗费30亿美元,1bp/1$: 我国承担:人类3号染色体短臂上.由于这一区域约占人类基因组的1%,因此简称为"1%项目".我国科学家对被国际同行称为"北京区域"的这一部分进行了详细分析,共测定3.84亿个碱基,相当于将所负责区域重复测定12次以上,对人类基因组的实际贡献率为1%左右.虽然只占了1%,但这份任务对我国后续的其他基因组测序有很大的帮助,比如后来的水稻基因组

【转】GATK使用方法详解(包含bwa使用)

一.使用GATK前须知事项: (1)对GATK的测试主要使用的是人类全基因组和外显子组的测序数据,而且全部是基于illumina数据格式,目前还没有提供其他格式文件(如Ion Torrent)或者实验设计(RNA-Seq)的分析方法. (2)GATK是一个应用于前沿科学研究的软件,不断在更新和修正,因此,在使用GATK进行变异检测时,最好是下载最新的版本,目前的版本是2.8.1(2014-02-25).下载网站:http://www.broadinstitute.org/gatk/downloa

计算基因组外显子长度

下载基因组外显子信心 网站 ftp://ftp.ncbi.nlm.nih.gov/pub/CCDS/current_human/ wget ftp://ftp.ncbi.nlm.nih.gov/pub/CCDS/current_human/CCDS.current.txt 运行下列代码 得到外显子大约36M import re import os from collections import OrderedDict from operator import itemgetter os.chdi

转录组入门(4):了解参考基因组及基因注释

任务列表 1.在UCSC下载hg19参考基因组: 2.从gencode数据库下载基因注释文件,并且用IGV去查看感兴趣的基因的结构,比如TP53,KRAS,EGFR等等. 3.截图几个基因的IGV可视化结构 4.下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构 5.了解IGV常识 在UCSC下载hg19参考基因组 hg19.GRCH38. ensembl75这3种基因组版本应该是大家见得比较多的了,国际通用的人类参考基因组,其实他们储存的是同样的fasta序列,只是分别对应着

一个全基因组重测序分析实战

Original 2017-06-08 曾健明 生信技能树 这里选取的是 GATK best practice 是目前认可度最高的全基因组重测序分析流程,尤其适用于 人类研究. PS:其实本文应该属于直播我的基因组系列,有两个原因把它单独拿出来, 首先,直播我的基因组阅读量太低了,可能是大家觉得错过了前面的,后面的看起来没有必要,这里我可以肯定的告诉大家,这一讲是独立的,而且是全流程,你学好了这个,整个直播我的基因组就可以不用看了. 其次,最近有一些朋友写了一些GATK的教程,但是大多不合我意,

基因组注释

基因组注释主要包括四个研究方向:重复序列的识别:非编码RNA的预测:基因结构预测和基因功能注释.我们将分别对这四个领域进行阐述. 1 重复序列的识别. 1.1  重复序列的研究背景和意义:重复序列可分为串联重复序列(Tendam repeat)和散在重复序列(Interpersed repeat)两大类.其中串联重复序列包括有微卫星序列,小卫星序列等等:散在重复序列又称转座子元件,包括以DNA-DNA方式转座的DNA转座子和反转录转座子(retrotransposon).常见的反转录转座子类别有

全基因组重测序基础及高级分析知识汇总

全基因组重测序基础及高级分析知识汇总 oddxix 已关注 2018.09.20 17:04 字数 11355 阅读 212评论 0喜欢 6 转自:http://www.360doc.com/content/18/0208/11/19913717_728563847.shtml 全基因组重测序是通过对已有参考序列(Reference Sequence)的物种的不同个体进行基因组测序,并以此为基础进行个体或群体水平的遗传差异性分析.通过全基因组重测序,研究者可以找到大量的单核苷酸多态性位点(SNP

人基因组(一)

人类基因组包含22条染色体和1条X或者Y染色体,这些染色体长度为45~279Mb,加起来共为3286Mb. 基于染色体的结构,全部基因可被分为常染色质(euchromatin)区域(通常包含活性基因)和异质染色质(heterochromatin)区域,后者携带低密度的活性基因.常染色质组成了基因组的主要成分,约为2.9×109bp,已测序的基因组序列覆盖了约90%的常染色质. 实际上只有一小部分人类基因序列(约1%,相当于外显子部分)是用来编码蛋白质的,而内含子则组成了蛋白质基因的其他部分,这样

柳叶刀重磅出击!全外显子测序在胎儿结构异常的评估Whole-exome sequencing in the evaluation of fetal structural anomalies: a prospective cohort study

柳叶刀发表的文献解读:Whole-exome sequencing in the evaluation of fetal structural anomalies: a prospective cohort study 背景介绍 随着超声波在产科护理中的应用,胎儿结构异常的鉴别已成为例行公事.当发现异常时,进一步评估核型.全染色体非整倍体与染色体微阵列(CMA)上较小的微缺失和复制(CNV),则是非常的重要.目前研究发现,大约32%结构异常胎儿具有临床相关的异常核型,6%的结构异常胎儿能找到致病