LEfSe分析

LEfSe软件用于发现两组或两组以上的biomarker,主要是通过非参数因子Kruskal-Wallis秩检验来实现的。
运行LEfSe软件主要分三大步骤:第一步:需要把普通的物种、基因等等的丰度信息的表格转化成LEfSe识别的格式。这一步会生成.in结尾的文件
第二步:这一步也是最关键的一步,统计显著差异的biomarker、统计子组组间差异、统计effect sizes(LDA score),会生成.res格式的文件。如下图所示
Step1:两组或两组以上的样本中采用的非参数因子Kruskal-Wallis秩和检验检测出biomarker。
Step2:基于上步的显著差异物种基因,进行两两组之间的Wilcoxon秩和检验,检测出组间差异。
Step3:线性判别分析(LDA)对biomarker进行评估差异显著的物种的影响力(即LDA score),最终获得biomarker。

第三步:基于第二大步的数据,绘制各种图片。如下图所示

Example:format_input.py hmp_aerobiosis_small.txt hmp_aerobiosis_small.in -c 1 -s 2 -u 3 -o 1000000options  -c:大分组信息所在行。-s:小分组信息所在行,如果没有小的分组可以不填。-u:样品信息所在行。-o:标准值,输入的丰度值按照该值重新计算,让输入的丰度值变大。如果输入的hmp_aerobiosis_small.txt数值是1.0e-5左右,则可以设置1000000,可以设置的更大,如果设置成负数,则不做任何处理。
run_lefse.py hmp_aerobiosis_small.in hmp_aerobiosis_small.resoptions -a:Kruskal-Wallis秩和检验筛选biomarker的p-value值。-w:两组组间Wilcoxon秩和检验筛选biomarker的p-value值。-l:LDA score--wilc:是否需要运行Wilcoxon step    0是运行,1是不运行,默认是运行Output:输出.res格式文件内容如下两行。Bacteria.Firmicutes.Clostridia.Clostridiales.Ruminococcaceae 5.0923016841 Low_O2 4.74694106197 2.91304680962e-07Bacteria.Tenericutes.Mollicutes.Mycoplasmatales.Mycoplasmataceae.Mycoplasma 2.55257491798   -总共5列,第一列biomarker名称,第二列是平均丰度最大的log10的值,如果平均丰度小于10的按照10来计算,第三列是差异基因或物种富集的组名称,第四列是LDA值,第五列是Kruskal-Wallis秩和检验的p值,如果不是biomarker则用“-”表示。
plot_res.py hmp_aerobiosis_small.res hmp_aerobiosis_small.pngoptions --feature_font_size:设置feature字体的大小--format:图片输出的格式      --dpi:图片的像素      --title:标题名称,默认为空      --title_font_size:标题字体大小      --class_legend_font_size :图例字体大小      --width:图片宽度。。。。      --height:图片高度      --left_space:左边距      --right_space:右边距plot_cladogram.py hmp_aerobiosis_small.res hmp_aerobiosis_small.cladogram.png --format pngoptions --max_point_size:大点的大小,默认是6--min_point_size:小点的大小,默认是1--point_edge_width:圈的边线粗细,默认0.25--siblings_connector_width:同一级的宽度--parents_connector_width:上一级连接的宽度--title:标题--label_font_size:label字体大小--background_color:背景颜色plot_features.py hmp_aerobiosis_small.in hmp_aerobiosis_small.res biomarkers_raw_images/

时间: 2024-10-11 23:32:46

LEfSe分析的相关文章

微生物来源分析

目录 微生物来源分析 写在前面 准备 微生物来源分析 rm(list = ls()) gc() 导入主函数 导入分组文件和OTU表格 Load OTU table 下面区分目标样品和来源样品. Extract the source environments and source/sink indices 对两组样品进行抽平 Estimate source proportions for each sink 就正常样品而言,我们都会测定重复,这里基于多个样品的sourceracker分析 导入主函

[Linux] 非root安装Lefse软件及其数据分析

说明 Lefse软件是宏组学物种研究常用软件,一般大家用在线版本即可.但要搭建在Linux集群环境中有点烦,记录一下折腾过程. 安装 这个软件是python2写的,因此假设我已经安装好了较高版本的python2以及pip等工具,在此基础上来安装lefse. lefse下载地址:https://bitbucket.org/nsegata/lefse/src/default/.这个网站有丰富的学习内容和教程,包括MetaPhIAn等流程,有时间去好好看看. lefse放在了bitbucket上,克隆

爱奇艺、优酷、腾讯视频竞品分析报告2016(一)

1 背景 1.1 行业背景 1.1.1 移动端网民规模过半,使用时长份额超PC端 2016年1月22日,中国互联网络信息中心 (CNNIC)发布第37次<中国互联网络发展状况统计报告>,报告显示,网民的上网设备正在向手机端集中,手机成为拉动网民规模增长的主要因素.截至2015年12月,我国手机网民规模达6.20亿,有90.1%的网民通过手机上网. 图 1  2013Q1~2015Q3在线视频移动端和PC端有效使用时长份额对比 根据艾瑞网民行为监测系统iUserTracker及mUserTrac

Tomcat启动分析(我们为什么要配置CATALINA_HOME环境变量)

原文:http://www.cnblogs.com/heshan664754022/archive/2013/03/27/2984357.html Tomcat启动分析(我们为什么要配置CATALINA_HOME环境变量) 用文本编辑工具打开用于启动Tomcat的批处理文件startup.bat,仔细阅读.在这个文件中,首先判断CATALINA_HOME环境变量是否为空,如果为空,就将当前目录设为CATALINA_HOME的值.接着判断当前目录下是否存在bin\catalina.bat,如果文件

C# 最佳工具集合: IDE 、分析、自动化工具等

C#是企业中广泛使用的编程语言,特别是那些依赖微软的程序语言.如果您使用C#构建应用程序,则最有可能使用Visual Studio,并且已经寻找了一些扩展来对您的开发进行管理.但是,这个工具列表可能会改变您编写C#代码的方式. C#编程的最佳工具有以下几类: IDE VS扩展 编译器.编辑器和序列化 反编译和代码转换工具 构建自动化和合并工具 版本控制 测试工具和VS扩展 性能分析 APM 部署自动化 容器 使用上面的链接直接跳转到特定工具,或继续阅读以浏览完整列表.

秒杀系统架构分析与实战

0 系列目录 秒杀系统架构 秒杀系统架构分析与实战 1 秒杀业务分析 正常电子商务流程 (1)查询商品:(2)创建订单:(3)扣减库存:(4)更新订单:(5)付款:(6)卖家发货 秒杀业务的特性 (1)低廉价格:(2)大幅推广:(3)瞬时售空:(4)一般是定时上架:(5)时间短.瞬时并发量高: 2 秒杀技术挑战 假设某网站秒杀活动只推出一件商品,预计会吸引1万人参加活动,也就说最大并发请求数是10000,秒杀系统需要面对的技术挑战有: 对现有网站业务造成冲击 秒杀活动只是网站营销的一个附加活动,

Openfire分析之二:主干程序分析

引言 宇宙大爆炸,于是开始了万物生衍,从一个连人渣都还没有的时代,一步步进化到如今的花花世界. 然而沧海桑田,一百多亿年过去了-. 好复杂,但程序就简单多了,main()函数运行,敲个回车,一行Hello World就出来了,所以没事多敲敲回车,可以练手感-. 一.程序入口 Java的程序入口是main方法,Openfire也不例外.可以全局检索一下"void main",可以看到,Openfire的main函数有两个: (1)org.jivesoftware.openfire.lau

gecode FunctionBranch 源码分析

从名字上看,这个类的核心就在于function, 那么看代码: /// Function to call SharedData<std::function<void(Space& home)>> f; /// Call function just once bool done; 的确是定义了一个function,然后一个状态,猜测是调用了function之后会设置为true,往下看代码: ExecStatus FunctionBranch::commit(Space&

爬虫难点分析

难点分析 1.网站采取反爬策略 2.网站模板定期变动 3.网站url抓取失败 4.网站频繁抓取ip被封 1.网站采取反爬策略 >网站默认对方正常访问的方式是浏览器访问而不是代码访问,为了防止对方使用大规模服务器进行爬虫从而导致自身服务器承受过大的压力,通常网站会采取反爬策略 根据这一特性,我们用代码模拟实现浏览器访问 2.网站模板定期变动-解决方案 >标签变动,比如<div>变动,那么我们不能把代码给写死了 (1)不同配置文件配置不同网站的模板规则 (2)数据库存储不同网站的模板规