扩增子分析QIIME2-1简介和安装

QIIME2是微生物组分析流程QIIME(截止17.7.13被引7771次)的全新版(不是升级版),采用python3全新编写,并于2018年1月全面接档QIIME,是代表末来的分析方法标准(大牛们制定方法标准,我们跟着用就好了)。

安装

安装方法比较简单,参照官网:https://docs.qiime2.org/2017.8/install/native/#install-miniconda

附1. 核心概念

原文链接:https://docs.qiime2.org/2017.8/concepts/

想要深入理解QIIME2的分析过程,QIIME定义的基本概念需要了解一下。

1. 数据文件: 人工产品 (artifacts)

QIIME2为了使分析流程标准化,分析过程可重复,制定了统一的分析过程文件格式.qza;qza文件类似于一个封闭的系统,里面包括原始数据、分析的过程和结果;这样保证了文件格式的标准,同时可以追溯每一步的分析,以及图表绘制参数。这一方案为实现将来可重复的分析提供了基础。比如文章投稿,同时提供分析过程的文件,别人可以直接学习或重复实验结果。

2. 数据文件:可视化(visualizations)

QIIME2生成的图表结果文件类型,以.qzv为扩展名,末尾的v代表visual;它同qza文件类似,包括分析方法和结果,方便追溯图表是如何产生的;唯一与qza不同的,它是分析的终点,即结果的呈现,不会在流程中继续分析。可视化的结果包括统计结果表格、交互式图像、静态图片及其它组合的可视化呈现。这类文件可以使用QIIME2 qiime tools view命令查看,不安装程序也可在线 https://view.qiime2.org 导入显示;

3. 语义类型(Semantic types)

QIIME2每步分析中产生的qza文件,都有相应的语义类型,以便程序识别和分析,也避免用户引入不合理的分析过程(如使用末标准化的OTU表进行多样性分析)。了解分析各步的结果,才能对分析有更深入和全面的认识。

4. 插件(Plugins)

QIIME2中的某个特定功能即为插件,比如拆分样品、Alpha多样性分析等。插件每个人都可以开发,系列已经由社区开发了标准化分析的插件,其他用户按其标准开发的特定分析,并可与团队联系发布,或整合入平台。

5. 方法和可视化

方法是对QIIME2定义的输入格式进行操作的过程,并产生标准格式的输出,以方便后续分析,输入和输出均为qza文件;可视化是对定义的标准输入,产生统计表格或可视化图形,方便用户解读,输入为qza格式,输出为qzv,文件不仅包括结果,还包括处理的分析命令和参数,方便重复和检查分析过程是否准确。

附2. Glossary 名词解释

Action 方法或可视化的动作

A general term for a method or visualizer.

Artifact 本流程定义的文件格式,存储数据和分析结果

Data that can be used as input to a QIIME method or visualizer, or that can be generated as output from a QIIME method. Artifacts typically have the extension .qza when written to file.

Method 对Artifact分析的方法

An action that takes some combination of artifacts and parameters as input, and produces one or more artifacts as output. These output artifacts could subsequently be used as input to other QIIME 2 methods or visualizers. Methods can produce intermediate or terminal outputs in a QIIME analysis.

Parameter 参数,软件或方法中可调整的部分

A primitive (i.e., non-artifact) input to an action. For example, strings, integers, and booleans are primitives. Primitives are never output from an action.

Pipeline 流程,一系统分析方法的串联

A combination of actions. This is not yet implemented.

Plugin 插件,可扩展的功能

A plugin provides microbiome (i.e. domain-specific) analysis functionality that is accessible to users through a variety of interfaces built around the QIIME 2 framework. Plugins can be developed and distributed by anyone. In more technical terms, a plugin is a Python 3 package that instantiates a qiime2.plugin.Plugin object, and registers actions, data formats, and/or semantic types that become discoverable in the QIIME 2 framework.

Result 分析结果

A general term for an artifact or visualization. A result is produced by a method, visualizer, or pipeline.

Visualization 可视化,把数据绘制成图表方便查看和分析规律

Data that can be generated as output from a QIIME visualizer. Visualizations typically have the extension .qzv when written to file.

Visualizer 可视化工具,将结果可视化的软件

An action that takes some combination of artifacts and parameters as input, and produces exactly one visualization as output. Output visualizations, by definition, cannot be used as input to other QIIME 2 methods or visualizers. Visualizers can only produce terminal output in a QIIME analysis.

附3. 常用的语义类型semantic types

原文链接:https://docs.qiime2.org/2017.8/semantic-types/

FeatureTable[Frequency]: 频率,即Feature表(OTU表),为每个样品中对应OTU出现频率的表格

FeatureTable[RelativeFrequency]: 相对频率,OTU表标准化为百分比的相度丰度

FeatureTable[PresenceAbsence]: OTU有无表,显示样本中某个OTU有或无的表格

FeatureTable[Composition]: 组成表,每个样品中OTU的频率

Phylogeny[Rooted]: 有根进化树

Phylogeny[Unrooted]: 无根进化树

DistanceMatrix: 距离矩阵

PCoAResults: 主成分分析结果

SampleData[AlphaDiversity]: Alpha多样性结果,来自样本自身的分析

SampleData[SequencesWithQuality]: 带质量的序列,要求有质量值,要求序列名称与样品存在对应关系,如为按样品拆分后的数据格式

SampleData[PairedEndSequencesWithQuality]: 成对的带质量序列,要求序列ID与样品编号存在对应关系;

FeatureData[Taxonomy]: 每一个OTU/Feature的分类学信息

FeatureData[Sequence]: 代表性序列

FeatureData[AlignedSequence]: 代表性序列进行多序列比对的结果

FeatureData[PairedEndSequence]: 双端序列进行聚类或去噪后,分类好的OTU或Feature

EMPSingleEndSequences: 采用地球微生物组计划标准实验方法产生的单端测序数据;

EMPPairedEndSequences: 采用地球微生物组计划标准实验方法产生的双端测序数据;

TaxonomicClassifier: 用于物种注释的分类软件

时间: 2024-10-03 00:04:47

扩增子分析QIIME2-1简介和安装的相关文章

扩增子分析QIIME2分析实战Moving Pictures

本示例的的数据来自文章<Moving pictures of the human microbiome>,Genome Biology 2011,取样来自两个人身体四个部位五个时间点 进入环境 source activate qiime2-2017.6 退出环境 source deactivate 准备数据 # 创建并进入工作目录 mkdir -p qiime2-moving-pictures-tutorialcd qiime2-moving-pictures-tutorial # 下载实验设

扩增子分析解读3格式转换 去冗余 聚类

本节课程,需要完成扩增子分析解读1质控 实验设计 双端序列合并和2提取barcode 质控及样品拆分 切除扩增引物 先看一下扩增子分析的整体流程,从下向上逐层分析 分析前准备 # 进入工作目录 cd example_PE250 上一节回顾:我们提取barcode,质控及样品拆分,切除扩增引物,经历了两节课6步数据处理才拿到我们扩增的高质量目的片段(貌似基因组/RNA-Seq测序结果直接就是这个阶段了,可以直接mapping) 接下来我们将这些序列去冗余.聚类为OTU.再去除嵌合体,这样就可以获得

Mahout学习之Mahout简介、安装、配置、入门程序测试

一.Mahout简介 查了Mahout的中文意思--驭象的人,再看看Mahout的logo,好吧,想和小黄象happy地玩耍,得顺便陪陪这位驭象人耍耍了... 附logo: (就是他,骑在象头上的那个Mahout) 步入正文啦: Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现.分类.聚类等.Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的

Nutch之简介与安装

初学Nutch之简介与安装 初学Nutch之简介与安装 1.Nutch简介 Nutch是一个由Java实 现的,开放源代码(open-source)的web搜索引擎.主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行 查询的一套工具.其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从 Nutch 1.3开始,其集成了这个索引架构. 1.1 Nutch的目标 Nutch 致力于让每个人能很容易,

Nagios简介与安装(1)

搭建Nagios实在是一个繁杂的过程,首先需要读者有Linux基础,最为重要的是要花费大量的精力和时间,还有就是耐心和细心.我主要是参考网上这篇文章,觉得写的非常好. 原文: http://www.cnblogs.com/mchina/archive/2013/02/20/2883404.html http://www.ibm.com/developerworks/cn/linux/1309_luojun_nagios/ 一.Nagios简介 Nagios是一款开源的电脑系统和网络监视工具,能有

扩增子分析解读2提取barcode 质控及样品拆分 切除扩增引物

本节课程,需要完成扩增子分析解读1质控 实验设计 双端序列合并 先看一下扩增子分析的整体流程,从下向上逐层分析 分析前准备 # 进入工作目录 cd example_PE250 上一节回顾:我们拿到了双端数据,进行了质控.并对实验设计进行了填写和检查.最后将双端数据合并为单个文件进行下游分析. 接下来我们将序列末端的barcode标签切下来,因为它们是人为添加的,不属于实验对象:再根据标签序列与实验设计文件比对,对每条序列属于哪个样品进行分类:最后我们切除掉扩增使用的引物,因为它们是人工合成的相似

高可用高性能负载均衡软件HAproxy详解指南-第一章(简介、安装)

第一章:HAproxy简介及安装配置 对Linux有兴趣的朋友加入QQ群:476794643 在线交流 本文防盗链:http://zhang789.blog.51cto.com 目录 HAproxy简介 为什么要使用HAproxy haproxy 性能特点 负载均衡器的性能评估因素 安装HAproxy haproxy案例4:实现web负载 由于字体过多分开写的,全系列文章链接 第一章:HAproxy简介及安装配置 http://zhang789.blog.51cto.com/11045979/1

数据实时监控平台(二):Telegraf简介及安装

接着上一篇博客:InfluxDB简介及安装,这篇博客介绍下Linux环境下Telegraf安装以及其功能特点... 官网地址:influxdata 官方文档:telegraf文档 环境:CentOS7.4 64位 InfluxDB版本:1.0.2 一.Telegraf介绍 1.基本介绍 Telegraf 是一个用 Go 编写的代理程序,可收集系统和服务的统计数据,并写入到 InfluxDB 数据库.内存占用小,通过插件系统可轻松添加支持其他服务的扩展. Influxdb 是一个开源的分布式时序.

Ubuntu下部分软件的简介及其安装步骤

1.安装linux摄像头应用软件cheese sudo apt-get install cheese 2.Ubuntu Tweak    Ubuntu Tweak是一款专门为Ubuntu(GNOME桌面)准备的配置.调整工具.主要面向新手级的普通用户.它可以设置很多并不能在系统首选项中设置的隐藏选项,以满足用户自定义的乐趣.即使是新手,也可以方便地通过它来进行适合自己的系统调整.    安装命令:    第一步:添加tweak源 sudo add-apt-repository ppa:tuala

Node.js【4】简介、安装和配置、快速入门

笔记来自<Node.js开发指南>BYVoid编著 第1章 Node.js简介 Node.js是一个让JavaScript运行在服务端的开发平台,它让JavaScript成为脚本语言世界的一等公民,在服务端堪与PHP.Python.Perl.Ruby平起平坐. Node.js可以作为服务器向用户提供服务,与PHP.Python.RubyonRails相比,它跳过了Apache.Nginx等HTTP服务器,直接面向前端开发. Node.js还可以调用C/C++的代码,这样可以充分利用已有的诸多函