生信概念之

1.contig:A contig (from contiguous) is a set of overlapping DNA segments that together represent a consensus region of DNA

从reads拼接出来的更长的序列。

2.k-mer:k-mers refer to all the possible subsequences (of length k) from a read obtained through DNA Sequencing

k-mer是指将reads分成包含k个碱基的字符串,一般长短为m的reads可以分成m-k+1个k-mers,这个概念主要在从头组装中用到。

3.转录组中的基因表达定量:

用归一化(normalization)概念将RNA_seq的结果相对定量。

常用的两个定量名词:raw count data 和 RPKM/FPKM

RPKM/FPKM是cufflinks的归一化方法。

Raw count data是DESeq/edgeR 要求输入的内容,其程序内部有自己的一套归一化方法。
RPKM/FPKM是归一化的计量。DESeq/edgeR 要求输入的是raw counts,因为这些程序有自己的一套归一化方法。
DESeq/edgeR 是更适合于 外显子/基因 表达的分析,Cufflinks 适合于 differential isoform analysis 。如果你只关心差异化的基因,则选择 htseq-count --> EdgeR/DESeq
如果你关心的是isoform level analysis,则可以选择Cufflinks/Cuffdiff 。

4.测序深度(问题,深度通过配对结果计算?)
以人的基因组为例,总共3G bp, 如果总测序量是90G(90bp*1G reads),则基因组上每个位点平均被覆盖30次,叫做30X覆盖;注意这不意味着每个位点都有30次覆盖,实际上是一个分布;测序深度越大,得到的数据越多,理论上其分析出来的数据准确度也越高。
转录组的话,由于每个基因表达量差别很大,所以讨论100倍覆盖其实没有意义.
是的,转录组不讲测序深度,因为转录组的表达量不一样,谈不上平均测序深度。主要看饱和曲线,饱和曲线区域饱和,就表明大部分的转录组被测到,再加大测序量,被测到的转录组数量也不会明显增加。 重测序和基因组这种DNA测序,才提到测序深度的问题。

测序覆盖度:目标序列真正测到的比例。比如你要测的序列是100bp,但测序结果只显示了90bp,覆盖度为90/100=90%。没有测到的序列称为gap。

一个人的基因组测序,覆盖度为98.5%,那么说明该基因组还有1.5%的区域通过我们的组装和分析无法得到。

"fold-coverage" of a shotgun sequencing experiment::number of reads * read length / target size

"breadth-of-coverage" of an assembly: assembly size / target size

average "depth-of-coverage" of an assembly: number of reads * read length / assembly size

5.关于gene-level 和 transcript -level expression analysis
gene-level expression analysis的结果是每个基因的表达量。

transcipt-level expression analysis 的结果是来自于同一个基因的不同剪切体的表达量。this can only be calculated when using a tool that assigns reads across isoforms for a given gene.

6.关于过滤(raw data vs clean data):
理论上转录组测序不应该做人为过滤,特别是在做表达量分析大时候会引入偏差,Illumina公司的标准里根本就没有raw data 和clean data这种概念,Illumina公认标准的PF data.

参考文章:

http://blog.chinaunix.net/uid-28759878-id-4046427.html

http://blog.sina.com.cn/s/blog_670445240101kaba.html

时间: 2024-10-31 08:57:07

生信概念之的相关文章

《生物信息学》——李霞;;生信概念

挑战:寻找新的处理海量数据和复杂性的方法. 生信:说了什么: 研究对象:       以核酸.蛋白质等生物大分子数据库 研究手段方法:数学.信息学.计算机科学 研究工具:       计算机硬件.软件.计算机网络 研究目的:       对浩如烟海的原始数据进行获取.加工.存储.分配.分析.管理.注释解释,使之成为具有明确生物意义的生物信息. 并通过生物信息的查询.搜索.比较.分析,从中获取基因编码.基因调控.核酸和pro结构功能及其相互关系等理性知识. 在大量信息和知识的基础上探索生命起源.生

003生信人必练

gtf 文件 序列的编号 注释信息的来源 注释信息的类型 开始与结束的位置  得分  序列的方向  起始编码的位置,仅对CDS有效  注释信息描述     11 ensembl_havana gene 5422111 5423206   "."表示为空.  +表示正义链, -反义链 , ? 表示未知.  有效值为0.1.2  键+值     11      ensembl_havana  gene    5422111 5423206 .       +       .       g

生信基础概念之unique reads VS multi-mapping reads

unique reads:在参考组上只有一个匹配点 multi-mapping reads:在参考组上有多个匹配点 下面是tophat的一个结果案例: Reads: Input : 26140314 Mapped : 25159791 (96.2% of input) of these: 1027691 ( 4.1%) have multiple alignments (1832 have >20) 96.2% overall read mapping rate. the quantity of

生信算法实践

最近在搞16S,发现了一个实践算法的最佳机会. 见文章: A Bayesian taxonomic classification method for 16S rRNA gene sequences with improved species-level accuracy. 文章利用了贝叶斯模型,调用了blast和muscle来对OTU进行taxonomy assignment. 可以看一下源代码,非常简单. Bayesian-based LCA taxonomic classification

生信学习-二代测序知乎专栏总结[转]

转自:https://zhuanlan.zhihu.com/p/20702684 1.基本概念 flowcell 是指Illumina测序时,测序反应发生的位置,1个flowcell含有8条lane lane 每一个flowcell上都有8条泳道,用于测序反应,可以添加试剂,洗脱等等 tile 每一次测序荧光扫描的最小单位 reads 指测序的结果,1条序列一般称为1条reads bp base pair 碱基对,用于衡量序列长度 双端测序 只一条序列可能比较长如500bp,我们可以两端每端各测

主动降噪技术(ANC)的前生今世--概念历史

一 概念 假如使用一句通俗的语言来概述ANC的原理的话,那就是:通过发出与噪声相位相反,频率.振幅相同的声波与噪声干涉实现相位抵消. 使用比较正式的语言来解释就是:动降噪通过降噪系统产生与外界噪音相等的反向声波,将噪音中和,从而实现降噪的效果.下图是一个ANC的降噪原理图: 根据麦克风的位置,可以把这个主动降噪技术分成三类:* 前馈主动降噪技术 Feed forward,简称FF:取样麦克风在耳机外边,通过取样麦克风获取噪声,能够获取外部全部的噪声,然后做反向,常见的场景就是入耳式耳机,没有被动

生信工具汇总

                                            GATK(Genome Analysis Toolkit) GATK使用方法详解(原始数据的处理) GATK使用方法详解(变异检测) GATK使用方法详解(初步分析) GATK使用方法详解

生信常用网站

一 在线分析 GeneMania Phenolyzer NCBI http://www.ncbi.nlm.nih.gov EBI http://www.ebi.ac.uk/ UCSC https://genome.ucsc.edu/index.html Ensemble http://asia.ensembl.org/index.html 二 数据库 HGMD ExAC ACMG 有害性分类 ClinVar 临床数据库 dbSNP https://www.ncbi.nlm.nih.gov/pro

002 生信基础题

01  'GATCCAGATCCCCATAC', 计算这串数列中两个出现最高的频率. t = 'GATCCAGATCCCCATAC' L = [ ] for i in range(len(t)-1): L.append(t[i:i+2]) x = reduce(lambda x,y: x if L.count(x)>L.count(y) else y, L) # reduce(function, iterable[, initializer]) print x, 'appeared', L.co