6、RNA-Seq Analysis Pipeline

Created by Dhivya Arasappan, last modified by Dennis C Wylie on Nov 08, 2015

This pipeline uses an annotated genome to identify differential expressed genes/transcripts. 10 hour minimum ($470 internal, $600 external) per project.

1. Quality Assessment

Quality of data assessed by FastQC; results of quality assessment will be evaluated prior to downstream analysis.

  • Deliverables:

    • reports generated by FastQC
  • Tools used:
    • FastQC: (Andrews 2010) used to generate quality summaries of data:

      • Per base sequence quality report: useful for deciding if trimming necessary.
      • Sequence duplication levels: evaluation of library complexity. Higher levels of sequence duplication may be expected for high coverage RNAseq data.
      • Overrepresented sequences: evaluation of adapter contamination.

2. Fastq Preprocessing

Quality assessment used to decide if any preprocessing of the raw data is required and if so, preprocessing is performed.

  • Deliverables:

    • Trimmed/filtered fastq files.
  • Tools Used:
    • Fastx-toolkit: Used to preprocess fastq files.

      • Fastq quality trimmer: Trimming reads based on quality.
      • Fastq quality filter: Filtering reads based on quality.
    • Cutadapt: Used to remove adaptor from reads.

3. Mapping

Mapping to genome reference performed using BWA-mem or Tophat.

  • Deliverables:

    • Mapping results, as bam files and mapping statistics.
  • Tools Used:
    • BWA-mem: (Li 2013) primary aligner used to generate read alignments.
    • Tophat: (Kim 2011) aligner used to generate read alignments in a splice-aware manner and identify novel junctions.
    • Samtools: (Li 2009) used to generate mapping statistics.

4. Gene/Transcript Counting

Counting the number of reads mapping to annotated intervals to obtain abundance of genes/transcripts.

  • Deliverables:

    • Raw gene/transcript counts
  • Tools Used:
    • HTSeq-count: (Anders 2014) used to count reads overlapping gene intervals.

5. DEG Identification

Normalization and statistical testing to identify differentially expressed genes.

  • Deliverables:

    • DEG Summary and master file containing fold changes and p values for every gene, MA Plots.
  • Tools Used:
    • DESeq2: (Love 2014) used to perform normalization and test for differential expression using the negative binomial distribution.
时间: 2024-10-09 09:50:13

6、RNA-Seq Analysis Pipeline的相关文章

xgene:之ROC曲线、ctDNA、small-RNA seq、甲基化seq、单细胞DNA, mRNA

灵敏度高 == 假阴性率低,即漏检率低,即有病人却没有发现出来的概率低. 用于判断:有一部分人患有一种疾病,某种检验方法可以在人群中检出多少个病人来. 特异性高 == 假阳性率低,即错把健康判定为病人的概率低. 用于:被某种试验判定为患病的人中,又有多少是真的患了这种病的. 好的检测方法:有高的灵敏度(低的假阴性率).同时又有高的特异性(低的假阳性率). ROC 曲线: 横轴:100 - 特异性..即100减去特异性,特异性高,100减去特异性就低,故越小越好. 纵轴:灵敏度值. ROC分析图的

7、RNAseq Downstream Analysis

Created by Dennis C Wylie, last modified on Jun 29, 2015 Machine learning methods (including clustering, dimensionality reduction, classification and regression modeling, resampling techniques, etc.), ANOVA modeling, and empirical Bayes analysis. Uns

09、RNA降解图的计算过程

RNA降解是影响芯片质量的一个很重要的因素,因为RNA是从5’开始降解的,所以理论5’的荧光强度要低于3’.RNA降解曲线可以表现这种趋势. 以样品GSM286756.CEL和GSM286757.CEL为例: library(affy) rawData<-ReadAffy("GSM286756.CEL","GSM286757.CEL") deg<-AffyRNAdeg(rawData) plotAffyRNAdeg(deg) 结果: RNA降解图是只用P

17、SAM文件格式说明(转载迷宫中的将军)

1. SAM格式说明 SAM代表Sequence Alignment/Map格式,是一种制表符分隔的文本格式,包含一个可选的头部分(header section,有人称之为"注释部分"),和一个比对部分(alignment section).如果包含头部分,那么头部分必须置于比对部分之前.头部分的行以@符号开头,而比对部分的行不以@符号开头.比对部分的每一行包含11个必选的字段,用于说明重要的比对信息,如比对位置(mapping position)等:另有可变数量的可选字段,用于存储其

RNA测序相对基因表达芯片有什么优势?

RNA测序相对基因表达芯片有什么优势? RNA-Seq和基因表达芯片相比,哪种方法更有优势?关键看适用不适用.那么RNA-Seq适用哪些研究方向?是否您的研究?来跟随本文了解一下RNA测序相对基因表达芯片有什么优势? 无假设的研究设计和更高的发现能力RNA-Seq是一种基于测序的强大方法,让研究人员能够打破传统技术的低效和花费,如实时定量PCR(RT-PCR)和芯片.无论是将RNA-Seq添加到现有的研究方法中,还是从一种方法彻底转换到另一种,RNA-Seq都带来了许多显而易见的优势.这种方法不

Mol Cell Proteomics. | Integration and analysis of CPTAC proteomics data in the context of cancer genomics in the cBioPortal (解读人:徐洪凯)

文献名:Integration and analysis of CPTAC proteomics data in the context of cancer genomics in the cBioPortal 期刊名:Molecular & Cellular Proteomics 发表时间:2019年9月 IF:4.828 作者: Pamela Wu1,2,3, Zachary J Heins4, James T Muller3, Lizabeth Katsnelson3, Ino de Br

9、linux的特殊符

在shell中常用的特殊符号罗列如下: #   ;   ;;      .      ,       /       \       'string'|       !   $   ${}   $?      $$   $*  "string"*     **   ?   :   ^   $#   [email protected]    `command`{}  []   [[]]   ()    (())  ||   &&       {xx,yy,zz,...}~

arc GIS10.2 安装patch analysis

具体patch analysis这个插件有何功能,既然你找到了这篇安装教程,那想必已经对它的功能有所了解,如果不了解,参考以下链接http://www.cnfer.on.ca/SEP/patchanalyst/Patch5_1_Install.htm 或是自行搜索.之所以要介绍安装过程,是因为在我不知道如何安装时搜索出的结果几乎全是对上面那个链接(英文网页)的直接翻译,叙述太累赘可操作性不强,于是才打算将自己胡乱摸索出的简易安装过程分享给大家. 安装步骤: 1.下载patch analysis插

玩转大数据:深入浅出大数据挖掘技术(Apriori算法、Tanagra工具、决策树)

一.本课程是怎么样的一门课程(全面介绍) 1.1.课程的背景 “大数据”作为时下最火热的IT行业的词汇,随之而来的数据仓库.数据分析.数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点. “大数据” 其实离我们的生活并不遥远,大到微博的海量用户信息,小到一个小区超市的月销售清单,都蕴含着大量潜在的商业价值. 正是由于数据量的快速增长,并且已经远远超过了人们的数据分析能力.因此,科学.商用等领域都迫切需要智能化.自动化的数据分析工具.在这样的背景下,数据挖掘技术应用而生,使得