eQTL | Expression quantitative trait loci | 表达数量性状基因座 | QTL | 数量性状位点

到底什么是eQTL?

eQTL和QTL之间有什么联系?为什么说QTL比eQTL难很多?

QTL和GWAS有什么关系?

GTEx数据库里的eQTL数据如何利用?

说eQTL之前必须先解释QTL,QTL,一说到中文名就清楚了,数量性状位点,就是一个性状,比如身高,会由成百上千个基因来决定,目的简单明确,那么我们如何找到这些位点呢?

Quantitative Trait Locus (QTL) Analysis - 来自nature的介绍

实现层面,其实研究的不是基因,而是染色体上的区段,更明确的说就是分子标记,SNP最流行,大学里还学过很多烦人的分子标记。

关联是关键,association,基本假设就是遗传片段会跟表型一起分离。

通常极少数的loci具有很高的effect size。

选择足够纯的亲代(需要有基因型和表型的差异),然后不断杂交,后代的基因型和表型会不断的分离重组。

然后对基因组的每个位点做统计检验,得出likelihood ratio,从而得出初略的位点信息。

再最后用分子生物学的方法来narrow down有效区域。

想彻底理解背后的统计学思路还得好好啃几篇paper。

空说空看是不可能学扎实的,所以废话不多说,开始用R实操吧,在分析中你会理解越来越多的概念。

R/qtl: A QTL mapping environment

先装个包,然后library("qtl")

载入数据:data(hyper)

先看看genotype的数据:

行代表样品,也就是一个小鼠,列代表了marker,右边列出来的是marker在1号染色体上的位置cm。

0、1、2分别代表什么;0代表两个都是reference allele;1代表一个是reference allel、一个是alternative allele;2代表两个都是alternative allele。

这个要注意,由于真核大多都是非单倍体,所以通常都有2个或多个等位基因;但是参考基因组里只有一套等位基因,那个就是reference allel;如果要考虑多个等位基因,或者考虑haplotype则要做phasing。

再看看phenotype的数据:

可以看看油管的视频:Using R/qtl to analyze QTL data

可视化数据:

第一个图黑色代表缺失值,

最终我们会得到什么结果呢?



听过飞哥对eQTL的解释,就是相当于把每个基因的表达数据当做是一个phenotype,然后做关联分析,看哪些snp对基因的表达产生影响。

If a given genotype affects (decreases or increases) gene expression at the same locus of the genotype, it‘s called cis eQTL, if it affects expression at a different locus, trans eQTL.

An eQTL is a locus that explains a fraction of the genetic variance of a gene expression phenotype.

下图是一个典型的eQTL位点,它是在TSS两侧1M区间内,叫做cis-eQTL,下图可以看出三种基因型下表达有显著差异,表明该位点对基因表达有显著影响。

通常我们的说法是这个gene有哪些eQTL位点,通常只需要100个个体就可以了。trans eQTLs要难找得多,因为算法上需要扫描整个基因组区域。

做遗传都知道,做什么都要先把population考虑进去。17 per cent of genes were differentially expressed between populations。GxE互作也是老生常谈。

population minor allele frequency

为什么eQTL必须分组织来分析,因为gene expression signatures are cell-type specific。

cis eQTLs are cell-type specific,所以以上的话需要修正为“这个gene在这个组织里有哪些eQTL位点”。

这就表明某些snp只会影响某些特定的组织,以及致病。

These observations certify the importance of integrating data from a relevant tissue when trying to interpret GWAS results using gene expression as an intermediate phenotype.

An important caveat is that in several cases the same regulatory region and variant will be linked to one gene in one tissue and another gene in another tissue

Expression quantitative trait loci: present and future

看下GTEx数据怎么利用,GTEx Portal: Introduction to the Gene eQTL Visualizer

Genotype-Tissue Expression - GTEx Portal官网 里面都是cis-eQTL

输入一个基因后,会有一个主表出现,相当于heatmap,行是组织,列是eQTL,里面点的颜色代表NES,The size and color of the bubble represent the p-value and NES (normalized effect size) of the eQTL。

拖动上面的框到中间就会看到TSS和TES,底下的被蓝色框起来的灰色框代表了exon区域。

附图就是每个eQTL之间的LD score,黑色代表这些eQTL间并不是独立的,更趋向于连锁在一起。

点击某个eQTL就能看到具体的表达差异了。



一篇通俗的文章:eQTL

Expression quantitative trait loci (eQTLs) are genomic loci that explain all or a fraction of variation in expression levels of mRNAs.

基因组位点,解释了基因表达的变化。

A quantitative trait locus (QTL) is a section of DNA (the locus) which correlates with variation in a phenotype (the quantitative trait).

身高,连续性状的控制位点。

QTL是数量性状位点,比如身高是一个数量性状,其对应的控制基因的位点就是一个数量性状位点,而eQTL就是控制数量性状表达位点,即能控制数量性状基因(如身高基因)表达水平高低的那些基因的位点。

都是位点,一个是常规数量性状,如身高;另一个就是基因表达性状,如Sox10基因的表达;都是在找一些与其具有强烈相关性的(snp)位点。

QTL定位的核心就是连锁。

原文地址:https://www.cnblogs.com/leezx/p/10795353.html

时间: 2024-10-08 15:56:17

eQTL | Expression quantitative trait loci | 表达数量性状基因座 | QTL | 数量性状位点的相关文章

eQTL

首先QTL是数量性状位点,比如身高是一个数量性状,其对应的控制基因的位点就是一个数量性状位点,而eQTL就是控制数量性状表达位点,即能控制数量性状基因(如身高基因)表达水平高低的那些基因的位点. 数量性状基因座:控制数量性状的基因在基因组中的位置称数量性状基因座.常利用DNA分子标记技术对这些区域进行定位,与连续变化的数量性状表型有密切关系 表达数量性状基因座(expression Quantitative Trait Loci,eQTL)是对上述概念的进一步深化,它指的是染色体上一些能特定调控

variant变异 | Epigenome表观基因组 | Disease-susceptible gene 疾病易感基因

Genotype-Tissue Expression Project (GTEx) Roadmap Epigenomics Project 这个研究的思路是什么?鉴定出有功能调控作用的变异. 对于复杂性状,通常会由很多遗传因素来控制,从而影响到表型.GWAS鉴定出了很多SNP,但是却只能解释部分heritability. 怎么鉴定带有一定effect size的causal的变异来解释缺失的heritability是现在的研究热点.大白话就是现在的GWAS只关注 pvalue < 5x10^-8

全基因组重测序基础及高级分析知识汇总

全基因组重测序基础及高级分析知识汇总 oddxix 已关注 2018.09.20 17:04 字数 11355 阅读 212评论 0喜欢 6 转自:http://www.360doc.com/content/18/0208/11/19913717_728563847.shtml 全基因组重测序是通过对已有参考序列(Reference Sequence)的物种的不同个体进行基因组测序,并以此为基础进行个体或群体水平的遗传差异性分析.通过全基因组重测序,研究者可以找到大量的单核苷酸多态性位点(SNP

泛函编程(23)-泛函数据类型-Monad

简单来说:Monad就是泛函编程中最概括通用的数据模型(高阶数据类型).它不但涵盖了所有基础类型(primitive types)的泛函行为及操作,而且任何高阶类或者自定义类一旦具备Monad特性就可以与任何类型的Monad实例一样在泛函编程中共同提供一套通用的泛函编程方式.所以有人把泛函编程视作Monadic Programming也不为过之.那么,具体什么是Monad呢? 在前面我们讨论过Monoid,我们说过它是一个特殊的范畴(Category),所有数据类型的Monoid实例都共同拥有一

置顶十三问

1     简介... 3 2     为何叫做 shell ?... 3 3     shell prompt(PS1) 与 Carriage Return(CR) 的关系?... 4 4     别人 echo.你也 echo ,是问 echo 知多少?... 5 5     " "(双引号) 与 ' '(单引号)差在哪?... 7 6     var=value?export 前后差在哪?... 11 7     exec 跟 source 差在哪?... 16 8     (

大数据Scala编程.问题集(02)

by 高焕堂 洞庭国际智能硬件检测基地 & 中云大数据中心(IDC) 首席架构师 微博:@高焕堂_台北 Q-02: Scala语言的trait具有什么设计涵意? Answer: 大家都知道接口(Interface)的概念,也知道一个类(Class)或一个模块(Module)能实现多个接口.就像一个房间可以有多个门,或一座四合院可以有多个门口一样.如下图: 将四合院的概念对应到软件上,一个软件的类可以实践多个接口,如下图: 现在,先拿一个类和一个接口的设计架构来看看,如下图: 在一般软件设计上,接

2600 Phrases for Effective Performance Reviews

Adaptability and Change Management Skills 适应与变革管理技能能够接受频繁的任务转换.员工适应经常在不停的切换于不同的任务中,就是正常的,就是能够正常切换自己分配的任务.良好的,就是不光能够合理的切换,而且能加入自己的经验进行更高效率的切换.优秀的,不但能够更有效率的切换,还会对切换的需求进行分析,了解切换的原始目的,从而能够对切换的指令进行有效的回馈. Attendance and Punctuality (Reliability) 出勤率和准时性(可靠

RE vs PEG

1. RE (Regular Expression,正则表达式) 正则表达式使用单个字符串来描述.匹配一系列匹配某个句法规则的字符串.在很多文本编辑器里,正则表达式通常被用来检索.替换那些匹配某个模式的文本. 2. PEG (Parsing Expression Grammars,解析表达语法) 留白,有机会再玩

C# 正则表达式及常用正则表达式

元字符 描述 .点 匹配任何单个字符.例如正则表达式r.t匹配这些字符串:rat.rut.r t,但是不匹配root. $ 匹配行结束符.例如正则表达式weasel$ 能够匹配字符串"He's a weasel"的末尾 ,但是不能匹配字符串"They are a bunch of weasels." ^ 匹配一行的开始.例如正则表达式^When in能够匹配字符串"When in the course of human events"的开始,但是