GO分析-GOseq的使用教程

GOseq的介绍

GOseq是一个R包,用于寻找GO terms,即基因富集分析。此方法基于 Wallenius non-central hyper-geometric distribution。相对于普通的超几何分布(Hyper-geometric distribution),此分布的特点是从某个类别中抽取个体的概率与从某个类别之外抽取一个个体的概率是不同的,这种概率的不同是通过对基因长度的偏好性进行估计得到的,从而能更为准确地计算出 GO term 被差异基因富集的概率。

1.GOseq的安装

>BiocManager::install("goseq")

2.参考数据集

这里我们采用GOseq包里的内置数据集genes来做GO分析

1 library(goseq)
2 data(genes)
3 head(genes)
4 str(genes)

这里genes数据集是EMSEMBL gene的向量集合,其中1代表差异表达

3.通过getgo函数获得GO terms

getgo的用法:

1 getgo(genes, genome, id,fetch.cats=c("GO:CC","GO:BP","GO:MF"))

genes:genes是输入的gene向量或列表

genome:参考基因组,比如hg38,hg19

id:输入基因的类型,比如ensGene

fetch,cats:fetch.cats是"GO:CC", "GO:BP", "GO:MF" & "KEGG"的一系列组合

这里用supportedOrganisms()函数来查看支持的genome和id

结果:结果是一个列表,包含每一个gene对应的所有的GO ID,这个值是goseq函数中gene2cat参数的输入值

举例:

1 genes <- c("ENSG00000124208", "ENSG00000182463", "ENSG00000124201", "ENSG00000124205", "ENSG00000124207")
2 getgo(genes,‘hg19‘,‘ensGene‘)

 这里显示了每一个gene参与到的所有GO ID

3.通过getlength函数检索gene的长度

getlength用法:

1 getlength(genes, genome, id)

结果:结果是一个向量,包含所有基因的长度,如果某个基因的长度无法检索到,用NA代替。这个向量是nullp函数中bias.data的输入值。

举例:

1 genes <- c("ENSG00000124208", "ENSG00000182463", "ENSG00000124201", "ENSG00000124205", "ENSG00000124207")
2 getlength(genes,‘hg19‘,‘ensGene‘)

 这里基因长度出现了3036.5,是因为这里基因长度取得是转录本长度的中位数。

4.使用nullp函数(Probability Weighting Function)计算概率加权函数

nullp函数介绍:

Calculates a Probability Weighting Function for a set of genes based on a given set of biased data (usually gene length) and each genes status as differentially expressed or not.

nullp函数用法:

1 nullp(DEgenes, genome, id, bias.data=NULL,plot.fit=TRUE)

DEgenes:DEgenes的格式是一个二元向量,其中1代表差异表达,0代表非差异表达,还有包括gene id,格式与内置数据集genes一样

bias.data:bias.data是一个数值向量,通常是基因转录本长度的中位数,单位是bp.如果设置bias.data=NULL,nullp函数将通过getlength函数来获取gene的长度。所以这里默认设置为bias.data=NULL

plot.fit:plot.fit这里将pwf作图,默认设置为plot,fit=TRUE

一般nullp函数后面的参数都选择默认,只用选择设置DEgenes, genome和 id即可

结果:结果是一个数据框,行名为gene id,列名为"DEgenes", "bias.data" 和 "pwf",这个数据框对象是goseq函数的输入,用来计算富集的GO terms,也可以作为plotPWF的输入,用来进一步作图。

举例:

1 data(genes)
2 pwf <- nullp(genes, ‘hg19‘, ‘ensGene‘)

5.使用goseq函数进行GO富集分析

goseq函数介绍:

Does selection-unbiased testing for category enrichment amongst differentially expressed (DE) genes for RNA-seq data. By default, tests gene ontology (GO) categories, but any categories may be tested.

goseq函数用法:

1 goseq(pwf, genome, id, gene2cat = NULL,test.cats=c("GO:CC", "GO:BP", "GO:MF"),method = "Wallenius", repcnt = 2000, use_genes_without_cat=FALSE)

pwf:这里的pwf是由nullp函数得到的结果,为一个数据框

gene2cat:这里的gene2cat是由getgo函数得到的结果,如果设置gene2cat=NULL,goseq函数将会自动地用getgo函数来获得GO ID,默认设置是gene2cat=NULL

method:这里method有三种选择,"Wallenius", "Sampling" 和 "Hypergeometric".这里"Sampling" 和 "Hypergeometric"方法几乎从没被使用过

一般goseq函数后面的参数都可以选择默认,只用选择pwf,genome和id这三个参数就可以

举例:

1 data(genes)
2 pwf <- nullp(genes,‘hg19‘,‘ensGene‘)
3 pvals <- goseq(pwf,‘hg19‘,‘ensGene‘)
4 head(pvals)

 这里的选择over_represented_pvalues<0.05就是具有统计学意义的GO ID了

1 enriched.GO<-pvals[pvals$over_represented_pvalue<0.05,]

原文地址:https://www.cnblogs.com/yanjiamin/p/12121998.html

时间: 2024-10-13 16:55:40

GO分析-GOseq的使用教程的相关文章

北京赛车技巧8码滚雪球公式探讨交流+走势分析法刷水教程

此文章是适合5-8码的玩家去下注.(内附冷热原理讲解) 及需要无解刷水方法的直接找我,在这里重申一遍,此教程免费 本人任何方法是以走势冷热原理去研究出的一套方法,明白原理,方法就可以千变万化 任何人以我名义及盗版此文章去招摇撞骗充当高手的都是骗子 本人唯一企鹅号:183468628(蜂蜜柚子茶) 走势无非是热码的一个延伸, 只有明白冷热原理,才能够真正去掌握. (PS:解释一下,具我对走势的熟悉,本人认为完全没有公式计算方法,因为公式是死的,而走势不可能每天都一样,特别注意的是,走势无非是热码的

潜在失效模式和后果分析 FMEA 10分钟教程

FMEA 是英文 Failure Mode and Effect Analysis的首字母缩写, 中文一般叫"潜在失效模式和后果分析".从名字就能看出,FMEA重点关注失效模式.后果是由本层失效导致的上层的失效模式,所以后果也算是失效模式. 失效模式 "效"的意思是"功用","失效"字面含义可以理解为"失去功用". 每个产品都有功能.你可以把产品的功能简单理解为帮助用户做事.比如: 笔能写字 风扇能产生风

自定义View系列教程05--示例分析

自定义View系列教程01–常用工具介绍 自定义View系列教程02–onMeasure源码详尽分析 自定义View系列教程03–onLayout源码详尽分析 自定义View系列教程04–Draw源码分析及其实践 自定义View系列教程05–示例分析 PS:如果觉得文章太长,那就直接看视频吧 之前结合源码分析完了自定义View的三个阶段:measure,layout,draw. 那么,自定义有哪几种常见的方式呢? 直接继承自View 在使用该方式实现自定义View时通常的核心操作都在onDraw

2015年最新Android基础入门教程目录(完结版)

2015年最新Android基础入门教程目录(完结版) 标签(空格分隔): Android基础入门教程 前言: 关于<2015年最新Android基础入门教程目录>终于在今天落下了帷幕,全套教程 共148节已编写完毕,附上目录,关于教程的由来,笔者的情况和自学心得,资源分享 以及一些疑问等可戳:<2015最新Android基础入门教程>完结散花~ 下面是本系列教程的完整目录: 第一章:环境搭建与开发相关(已完结 10/10) Android基础入门教程--1.1 背景相关与系统架构

Ajax学习教程在线阅读

  1.什么是AJAX ?(1) 2.什么是AJAX ?(2) 3.什么是AJAX ?(3) 4.什么是AJAX ?(4) 5.Ajax基础教程(1)-Ajax简介 1.1 Web应用简史 6.Ajax基础教程(1)-Ajax简介 1.2 浏览器历史 7.Ajax基础教程(1)-Ajax简介 1.3 Web应用的发展历程 8.Ajax基础教程(1)-Ajax简介 1.3 Web应用的发展历程(2) 9.Ajax基础教程(1)-Ajax简介 1.3 Web应用的发展历程(3) 10.Ajax基础教

看Android Stuido教程有感

毕业两年了,之前一直都在另外的博客里写之前大学的经历,以及转载一些学习Android的点滴,原创的并不多.因为现在更多的是在博客园里逛,所以直到上个月还是鼓起勇气开通了博客,算来到今天也有一段时间了, 但就是不知道怎么开始写.写公司的学习内容,奈何公司信息安全高,不敢触碰这条线:写自己平时的点滴,却发现在家学习的时间越来越少,只有早上早起的时间看会儿书,晚上回家都被“惰性小人”打趴下,无心投入学习.如果不是兴趣使然,确实会有“累”的感觉,工作压力让你喘不过气来.毕业两年了,越来越感受到IT的水也

自定义View系列教程07--详解ViewGroup分发Touch事件

自定义View系列教程01–常用工具介绍 自定义View系列教程02–onMeasure源码详尽分析 自定义View系列教程03–onLayout源码详尽分析 自定义View系列教程04–Draw源码分析及其实践 自定义View系列教程05–示例分析 自定义View系列教程06–详解View的Touch事件处理 自定义View系列教程07–详解ViewGroup分发Touch事件 PS:如果觉得文章太长,那就直接看视频吧 在上一篇中已经分析完了View对于Touch事件的处理,在此基础上分析和理

2015年最新Android基础入门教程目录(临时版)

2015年最新Android基础入门教程目录(临时版) 标签(空格分隔): Android基础入门教程 前言: 嗯,昨晚又给人盗号了,博客上被发表了十几篇黄贴-然后目录给管理误删了,再发一次 后来协商后发现实被设密保问题了,建议各位用csdn的朋友密保自己设置一波~ 密保问题已修改回来了,应该不会再被盗号了-人怕出名猪怕壮哈~下次如果发现博客被封 告知下小猪,如何很急的话可以先到w3c鸟巢菜鸟教程上看Android基础入门教程 经过站长FK进行排版的,可能阅读体验会比csdn好很多!内容基本是同

ZeroAccess分析

来源:http://bbs.pediy.com/showthread.php?t=141124&highlight=ZeroAccess 总序这分成四个部分的系列文章,是一个完全的一步一步来分析ZeroAccess Rootkit的教程.它也被叫做Smiscar恶意软件,或叫做Max++ rootkit.透过循着教程一步步的看下去,你可以更深入更好的理解到在分析复杂到此种程度的现代rootkit时的思考过程.我们还推荐你把文中提到的工具们下载下来.以及找一个ZeroAccess的样本,并在阅读文