xgene:之ROC曲线、ctDNA、small-RNA seq、甲基化seq、单细胞DNA, mRNA

灵敏度高 == 假阴性率低,即漏检率低,即有病人却没有发现出来的概率低。

用于判断:有一部分人患有一种疾病,某种检验方法可以在人群中检出多少个病人来。

特异性高 == 假阳性率低,即错把健康判定为病人的概率低。

用于:被某种试验判定为患病的人中,又有多少是真的患了这种病的。

好的检测方法:有高的灵敏度(低的假阴性率)、同时又有高的特异性(低的假阳性率)。

ROC 曲线:

横轴:100 — 特异性。。即100减去特异性,特异性高,100减去特异性就低,故越小越好。

纵轴:灵敏度值。

ROC分析图的解读原则:

    1. 曲线越是靠近整个图的左上方,方法越优
    2. 越是接近对角线,方法越差
    3. 评价的客观标准曲线下方的面积占整个图的面积比例。即AUC(曲线下面积,Area Under Curve,AUC)。面积比例越接近1,方法越好;面积比例越接近0.5,方法越差。

ctDNA

循环肿瘤DNA,英文叫:circulating tumor DNA,简称ctDNA。对ctDNA进行测序,是目前很火的Liquid Biopsy(液体活检)中的一种。

意义

首先,我们来说一下ctDNA测序的临床意义。

  • 第一,就是它可以减少病人的开刀痛苦,只要抽血,不必开刀,就可以做检测。
  • 第二,是它可以增加可检测的病人范围,对于不适合做开刀手术的病人。例如,已经发生肿瘤全身转移的病人。也可以用测ctDNA的方法来测肿瘤的基因突变。
  • 第三,是因为它只要抽血(而不必开刀)。所以它可以应用于肿瘤病人的病情随访,并可以多次取样。

原理

正常细胞和肿瘤细胞都会破裂,细胞破裂之后,细胞中的DNA就会被释放到体液当中去。其中进入血液的这部分DNA,就称为血液游离DNA。那么,它也被称作血浆游离DNA,或者cell free DNA,简称cfDNA。 这些DNA片段的长度主要集中在100BP~240BP之间,大部分在170bp左右

把血液当中游离的DNA抽提出来,建成DNA测序的文库。用探针杂交、或者PCR扩增等方法,把其中与肿瘤相关的DNA富集出来,进行高通量测序。再进行数据分析,看哪些基因有突变。接着根据基因突变的信息,来决定治疗方法

难点

第一,在血浆游离DNA中,ctDNA只占很小的一部分,大约只有万分之几到千分之几。其余都是正常细胞的DNA。但是要检测到千分之几、万分之几的突变,总是一件困难的事情

第二,血液当中的游离DNA量很少,大约每一毫升的血浆当中,只会有十几纳克(ng)的游离DNA。1个ng的基因组DNA,相当于来源于300个细胞的DNA量。

目前国内做ctDNA测序的科研实践当中,一次抽10个毫升的血,可分离约5到6毫升的血浆。从中可以抽提到约 50ng~60ng 的游离DNA。60个ng的DNA,约来自18000个细胞的基因组DNA。

实验设计

在整个 ctDNA 测序的实践过程当中,所有的实验步骤,都是围绕上述2个难点,来进行设计的。

首先,我们来说采血。

第二步,是抽提血浆游离DNA。有一个专门用来抽提血浆游离DNA的专用试剂盒。

第三步,是用抽提好的DNA来构建文库。

第四步,是用捕获试剂盒来对文库进行杂交捕获。设计一个针对肿瘤相关基因的捕获 Panel。

第五步,捕获好的文库,用高保真聚合酶进行扩增。文库的PCR扩增,对 PCR 扩增产物进行纯化。

第六步,高通量DNA测序,ctDNA 的测序深度是非常深的。一般情况下,会测到上万倍、甚至几万倍的测序深度。

第七步,是把测序得到的序列,进行生物信息学分析。在ctDNA的数据分析当中,有一些与传统的捕获测序分析过程不一样的参数设定。

第一,就是去除 duplicaton 的过滤条件是不一样的。因为 ctDNA 的测序深度达到上万倍,所以会有大量的 duplication。高达50%~70%。

第二,是判定点突变(SNV),要这个突变的碱基的测序的质量值高于30,才确定这个突变是一个真的突变(SNV),也就提高了检测分析结果的特异性。

所谓duplication,就是因为上机测序前的 PCR 扩增,导致一个原始的模板复制出许多个拷贝来。这些复制出来的拷贝,被测序过程多次测到,这就叫 duplication。

small RNA-seq

包括了micro RNA / tRNA / piRNA等一系列的、片段比较短的RNA。其中micro RNA因为其基因数量众多,同时表达量变化丰富,是近10年来的一个研究重点。

small RNA生物信息分析的

  1. 首先,是把测序的序列进行过滤。也就是把引物二聚体、和含有多个N的这些序列去掉。
  2. 然后,就是统计各种长度的small RNA各有多少条
  3. 接下来,就是把small RNA,比对到参考基因组上。
  4. 把这些序列和已知的small RNA数据库进行比对。有名的small RNA数据库是miRBase,目前这个数据库已经收录了2000多条人源的micro RNA基因。

在对人源样本的测序过程当中,大家最关心的主要是micro RNA和piRNA,这2种small RNA。还会测到rRNA的碎片和tRNA的序列。因为其十分保守的,一般不是关注的重点。

对表达量的分析

对已知small RNA的分析,主要是对表达量的分析。

用火山图,则可以整体地观察两个样本之间的表达差异。

聚类分析,则可以帮助我们直观地观察,一批样本当中,哪些样本有共同的表达特征。又有哪些small RNA基因有相似、相近的表达量。通过聚类分析,我们可以观察到样本内在的共同特征。

靶基因 GO 和 Pathway 分析

通过GO分析,表达差异被富集到分类的GO的子项目当中,柱子越高,则表示差异越明显。可知“生物过程”、“分子功能”、和“细胞组件”的哪些环节出现了明显的差异。

KEGG富集的程度,通过富集因子、Qvalue、和富集到此通路上的基因个数,来进行衡量。点的面积越大,则富集的基因数越多,富集因子越大,则表示富集的程度越大。

寻找新的 micro RNA 基因

一般是测序测到新的、有发夹结构的microRNA前体的序列,同时测到对应的成熟的micro RNA序列,并且在基因组上找到了对应的基因序列,这样,大体上就判断(可能是)找到了一个新的micro RNA基因了。

甲基化seq,视频12

DNA的甲基化是在DNA的序列不变的条件下,在其中某些碱基上加上甲基的这样一个过程。

甲基化的结果是,使甲基化位点的下游的基因表达量变少。

核心化学反应,是用亚硫酸氢盐来处理DNA。DNA当中,没有甲基化或羟甲基化的C碱基,就会被转化成U碱基。

再通过PCR,PCR新合成出来的链,U碱基的位置,就会被替换成了“T”。在接下来的测序过程中,测到的也是T碱基。而甲基化的C,在接下来的测序过程中,被测到的,还是“C”碱基。故可区分。

亦可以加一步,区分“羟”甲基化和甲基化。

数据分析(没看懂)

  • 因为亚硫酸氢盐处理过后,绝大部分的C都被转化成了T。这样,测出来的序列在和基因组进行对比的时侯,直接对比是对比不上的。
  • 为了要进行比对,就要把基因组的碱基做两种转变。
  • 第一种转变是把基因组上所有的C都改到T,再来和测序测到的序列来对比。这样,就可以把原来的链给对比上。
  • 第二种转变,是把基因组上所有的G都变成A,这样才能和经过PCR得到的原样本链睥互补链对比得上。这样做的原因,是原样本链的互被链,它上面绝大部分的G,都被变成了A。所以,只有把(参考)基因组上的G,也都改成A,这样才能对比得上。
  • 比对上之后,再来看哪些碱基是没有被转化的。这样,就可以确认这些碱基的甲基化修饰情况了。
  • 再接下来,针对基因进行GO和Pathway的分析。

单细胞DNA, mRNA  10,11

单细胞测序三个难题

要实现从一个细胞样本测出全基因组的DNA序列,至少要克服以下3个难题:

    1. 第1个,就是如何实现均匀扩增,
    2. 第2个难题,就是 全基因组覆盖问题。
    3. 第3个难题,是这种方法要有较高的扩增效率。

两种方法:

为了解决上述的难题,科学家想了许多的办法。到目前为止,大家比较认可的方法有两种:

    1. MALBAC方法。Multiple Annealing and Looping-Based Amplification Cycles。
    2. MDA方法。Multiple Displacement Amplification。

广泛的应用前景:

目前最主要2个应用:1个是在胚胎植入前进行基因拷贝数变异检测。第2个,是进行肿瘤的染色体变异研究。

单细胞mRNA-seq

目前市场主要有2种建库方法,

  1. Clontech公司推出的SMART法,
  2. EpiCentre公司推出的TargetAmp方法。

第一个难题:PCR偏差

所谓PCR偏差,就是在PCR扩增过程当中,某些片段被大量扩增,而大部分片段被扩增的量很少,甚至根本就没有被扩增。结果就导致高通量测序,只能测到这所有样本当中很少一部分的片段序列。

PCR偏差会随着PCR循环的次数的增多而指数放大。那么,在这种情况下,一方面要把核酸扩增几百万倍,甚至更多的倍数;另一方面,又想得到均一覆盖的文库,这就是单细胞mRNA建库当中,所要解决的第一个大难题。

第二个难题:去除核糖体RNA

因为rRNA在总RNA当中占了95%,甚至更高的比例,而mRNA在总RNA当中只占2~3%的比例。如果不加区分地进行逆转录,再扩增、建库很可能测序得到的绝大部分序列都是rRNA的序列。

如何能够选择性地把mRNA转化成测序文库,并且避免把rRNA带到测序文库中来,这就是单细胞mRNA测序当中,要解决的第二个大难题。

应用:

单细胞mRNA测序方法,在循环肿瘤细胞研究、胚胎发育研究、和神经活动研究方面,有着广泛的应用。

时间: 2024-08-24 01:56:14

xgene:之ROC曲线、ctDNA、small-RNA seq、甲基化seq、单细胞DNA, mRNA的相关文章

R语言中绘制ROC曲线和PR曲线

接收器操作特性(ROC)曲线可能是评估评分分类器的预测性能的最常用的度量. 预测正类(+1)和负类(-1)的分类器的混淆矩阵具有以下结构: 预测/参考类 +1 -1 +1 TP FP -1 FN TN 这里,TP表示真阳性的数量(模型正确预测正类),FP表示误报的数量(模型错误地预测正类),FN表示假阴性的数量(模型错误地预测阴性类),TN表示真阴性的数量(模型正确预测阴性类). ROC曲线 在ROC曲线中,相对于假阳性率(FPR,x轴)绘制真阳性率(TPR,y轴).这些数量定义如下: TPRF

精确率与召回率,RoC曲线与PR曲线

在机器学习的算法评估中,尤其是分类算法评估中,我们经常听到精确率(precision)与召回率(recall),RoC曲线与PR曲线这些概念,那这些概念到底有什么用处呢? 首先,我们需要搞清楚几个拗口的概念: 1. TP, FP, TN, FN True Positives,TP:预测为正样本,实际也为正样本的特征数 False Positives,FP:预测为正样本,实际为负样本的特征数 True Negatives,TN:预测为负样本,实际也为负样本的特征数 False Negatives,

ROC曲线、AUC、Precision、Recall、F-measure理解及Python实现

本文首先从整体上介绍ROC曲线.AUC.Precision.Recall以及F-measure,然后介绍上述这些评价指标的有趣特性,最后给出ROC曲线的一个Python实现示例. 一.ROC曲线.AUC.Precision.Recall以及F-measure 二分类问题的预测结果可能正确,也可能不正确.结果正确存在两种可能:原本对的预测为对,原本错的预测为错:结果错误也存在两种可能:原本对的预测为错,原本错的预测为对,如Fig 1左侧所示.其中Positives代表预测是对的,Negatives

ROC曲线和PR曲线绘制【转】

TPR=TP/P :真正率:判断对的正样本占所有正样本的比例.  Precision=TP/(TP+FP) :判断对的正样本占判断出来的所有正样本的比例 FPR=FP/N :负正率:判断错的负样本占所有负样本的比例. Recall = TP/(TP+FN) = TP/P,就是TPR. ROC曲线:横轴是FPR,纵轴是TPR. 绘制出的曲线应该在y=x直线之上,曲线积分的结果就是AUC的值.AUC越大则系统分类性能越好. PR曲线:横轴是Precision,纵轴是recall. precision

ROC曲线

ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标.(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高.在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值. ROC曲线的例子 考虑一个二分问题,即将实例分成正

从TP、FP、TN、FN到ROC曲线、miss rate、行人检测评估

想要在行人检测的evaluation阶段要计算miss rate,就要从True Positive Rate讲起:miss rate = 1 - true positive rate true positive rate毕竟是一个rate,是一个比值.是谁和谁比呢?P 要从TP.FP.TN.FN讲起. 考虑一个二分类问题:一个item,它实际值有0.1两种取值,即负例.正例:而二分类算法预测出来的结果,也只有0.1两种取值,即负例.正例.我们不考虑二分类算法细节,当作黑箱子就好:我们关心的是,预

【数据挖掘】朴素贝叶斯算法计算ROC曲线的面积

题记:          近来关于数据挖掘学习过程中,学习到朴素贝叶斯运算ROC曲线.也是本节实验课题,roc曲线的计算原理以及如果统计TP.FP.TN.FN.TPR.FPR.ROC面积等等.往往运用ROC面积评估模型准确率,一般认为越接近0.5,模型准确率越低,最好状态接近1,完全正确的模型面积为1.下面进行展开介绍: ROC曲线的面积计算原理 一.朴素贝叶斯法的工作过程框架图 二.利用weka工具,找到训练的预处理数据 1.利用朴素贝叶斯算法对weather.nominal.arff文件进行

【ROC曲线】关于ROC曲线、PR曲线对于不平衡样本的不敏感性分析说引发的思考

ROC曲线 在网上有很多地方都有说ROC曲线对于正负样本比例不敏感,即正负样本比例的变化不会改变ROC曲线.但是对于PR曲线就不一样了.PR曲线会随着正负样本比例的变化而变化.但是没有一个有十分具体和严谨地对此做出过分析和论证(至少我没有找到). 此处记为结论1: 结论1:PR曲线会随着正负样本比例的变化而变化:但是ROC曲线不会. 此处我就这一问题进行了详细的分析论证,并在这个过程中引发了很多思考. 首先,如何分析这个问题呢? 看下ROC曲线是由TPR和FPR组成的 下面我们这样来分析这个问题

ROC曲线与AUC值

本文根据以下文章整理而成,链接: (1)http://blog.csdn.net/ice110956/article/details/20288239 (2)http://blog.csdn.net/chjjunking/article/details/5933105 1.概述 AUC(Area Under roc Curve)是一种用来度量分类模型好坏的一个标准.这样的标准其实有很多,例如:大约10年前在machine learning文献中一统天下的标准:分类精度:在信息检索(IR)领域中常