人的基因组

大小3.0G

30个bp(碱基对) ;  60亿nt (碱基)

从1990-2003年,历时13年,耗费30亿美元,1bp/1$;

我国承担:人类3号染色体短臂上.由于这一区域约占人类基因组的1%,因此简称为“1%项目”.我国科学家对被国际同行称为“北京区域”的这一部分进行了详细分析,共测定3.84亿个碱基,相当于将所负责区域重复测定12次以上,对人类基因组的实际贡献率为1%左右.
虽然只占了1%,但这份任务对我国后续的其他基因组测序有很大的帮助,比如后来的水稻基因组测序.

外显子约占1%,3G=3000M *0.01为30M,

SNP约3000个,

时间: 2024-10-29 21:30:11

人的基因组的相关文章

基因测序

英美科学家18日公布了人类第一号染色体的基因测序图,这个染色体是人类"生命之书"中最长也是最后被破解的一章. 据英国<自然>杂志网络版报道,第一号染色体中共有2.23亿个碱基对,占人类基因组中碱基对总量的8%左右.碱基对是组成生物遗传物质的基本单位. 科学家这次测序确定了人类第一号染色体中的3141个基因,这些基因中存在的缺陷与350种疾病有关,其中包括癌症.帕金森病.早老性痴呆等. 人类有22对非性染色体,最大的是第一号染色体,最小的是第22号染色体.另外还有性染色体决定

常见问题,解惑,总结

p-reads是啥?校正之后的reads 杂合度对基因组组装的影响?Aa就是杂合,一般植物测序的材料都会处理为纯合,因此我们可以认为同源染色体是完全相同的序列,默认我们还认为姐妹染色单体之间的序列是一致的.这样我们测序得到的就是一个整套的单倍体.动物和人的基因组组装就会显得十分复杂,因为无法弄到纯合,不好组装.   重复序列对基因组组装有什么影响?基因组组装需要克服的最大困难就是重复序列的问题,重复序列引进了前所未有的复杂度,在二代测序下,重复序列被切成极短的reads,在比对时会出现各种复杂的

生物信息学练习1-综合使用软件

本次的任务是对三组儿童的肠道宏基因组测序序列进行数据挖掘.我负责的是2-3 years old,control,十个双端测序数据. *****************************************我是分割线***********今天没有心情卖萌************************************************************** p { margin-bottom: 0.25cm; line-height: 120% } a:link {

生信概念之

1.contig:A contig (from contiguous) is a set of overlapping DNA segments that together represent a consensus region of DNA 从reads拼接出来的更长的序列. 2.k-mer:k-mers refer to all the possible subsequences (of length k) from a read obtained through DNA Sequenci

云计算大数据延伸至生命信息领域:生物云计算

随着互联网的普及和技术的发展,大数据和云计算已经渗透在人们的生活的各个方面,在金融,零售,能源,交通等领域已经得到广泛应用.而对于生物信息来说,生物的DNA,基因序列,生物芯片等无时无刻不产生新的数据;比如说,DNA测序每年能够产生大约150亿兆(PB级)的数据,如果将这些数据存储在DVD中,那么刻录出来的DVD能够达2.5英里高.生命科学的数据来源和形式多样,包括基因测序.分子通道.不同的人群等.每个临床试验需要千上万病患的数年统计资料,而DNA测序的每个样本产生的数据则以兆兆位计算;如果能高

xgene:WGS,突变与癌,RNA-seq,WES

 人类全基因组测序06 SNP(single nucleotide polymorphism):有了10倍以上的覆盖深度以后,来确认SNP信息,就相当可靠了. 一个普通黄种人的基因组,与hg19这个参考基因组序列相比,会有350万个左右的SNP.又有大概2万个是落在外显子上的,而非同义的SNP有大概9千个. 所谓非同义的SNP,就是这些SNP是会引起蛋白质的序列变化的. indel:(insertion & deletion)是指小于50个bp以内的微小的插入.和缺失突变.一个普通黄种人的基因组

中科院生物信息学题目整理

1.什么是生物信息学,如何理解其含义? 答:生物信息学有三个方面的含义: 1)         生物信息学是一个学科领域,包含着基因组信息的获取.处理.存储.分配 .分析和解释的所有方面. 2)         生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质:同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测:其本质是识别基因信号. 3)         生物信息学的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律"

NGS的duplicate的问题

duplicate的三个问题: 一.什么是duplicate? 二.duplicate来源? 三.既然PCR将1个reads复制得到成百上千copies,那为什么二代数据duplicate rate 一般才10+%? 什么是 duplicate? 摘自罗俊峰博士,阅尔基因研发总监陈云地博士,阅尔基因CTO  http://www.biotrainee.com/thread-1382-1-1.html 一.什么是Duplicated Reads1谈到NGS数据的duplicated reads(暂

测序总结,高通量测序名词

主要来自 :http://mp.weixin.qq.com/s/iTnsYajtHsbieGILGpUYgQ 测序的黄金标准:一代测序了,故称之为黄金测序. 高通量测序最近这几年很火越来越火,但是世界上更多的还是一帮天天做分子克隆.养细胞.养细菌.杂蛋白的生物学家,究其原因Sanger测序还是测序届的金标准,由于精确度高于2.3代测序且保持大白菜价格使之地位稳固. 应用范围:De Novo测序.重测序: 如突变检测.SNPs.插入.缺失克隆产物验证.比较基因组.分型: 如微生物和真菌鉴定.HLA