扩增子分析解读7物种分类统计 筛选进化树和其它

分析前准备

# 进入工作目录
cd example_PE250

上一节回顾:我们获得了OTU序列的进化分析、同时计算Alpha和Beta多样性值。

本节是最后一节,我们对物种进行分类统计,筛选高丰度结果用于进化树展示,和其它用于R统计分析的结果生成

19. 按物种分类级别分类汇总

OTU表中最重要的注释信息是物种注释信息。通常的物种注释信息分为7个级别:界、门、纲、目、科、属、种。种是最小的级别,和OTU类似但有不相同。

我们除了可以比较样品和组间OTU水平差异外,还可以研究不同类似级别上的差异,它们是否存在那些共同的变化规律。

按照注释的级别进行分类汇总,无论是Excel还R操作起来,都是很麻烦的过程。这里我们使用QIIME自带的脚本summarize_taxa.py。

# 结果按门、纲、目、科、属五个级别进行分类汇总,对应结果的L2-L6
summarize_taxa.py -i result/otu_table4.biom -o result/sum_taxa # summary each level percentage
# 修改一下文本表头,适合R读取的表格格式
sed -i ‘/# Const/d;s/#OTU ID.//g‘ result/sum_taxa/* # format for R read
# 以门为例查看结果
less -S result/sum_taxa/otu_table4_L2.tx

以门为例,我们看到样品的OTU分布在19个门,及每个门在各样品中的相对比例。其它的各级别,用户自己看吧。

这步的结果将用于后期统计和绘图。

20. 筛选可展示的进化树

我们在文章中看到几种漂亮的进化树,但是OTU通常成百上千,如果直接展示是根本看不清也是极丑的。

下面教大家一些通常的方法来筛选数据,用于生成漂亮的进化树。

# 选择OTU表中丰度大于0.1%的OTU
filter_otus_from_otu_table.py --min_count_fraction 0.001 -i result/otu_table4.biom -o temp/otu_table_k1.biom
# 获得对应的fasta序列
filter_fasta.py -f result/rep_seqs.fa -o temp/tax_rep_seqs.fa -b temp/otu_table_k1.biom
# 统计序列数量,104条,一般100条左右即有大数据的B格,又能读懂和更清规律和细节
grep -c ‘>‘ temp/tax_rep_seqs.fa # 104
# 多序列比对
clustalo -i temp/tax_rep_seqs.fa -o temp/tax_rep_seqs_clus.fa --seqtype=DNA --full --force --threads=30
# 建树
make_phylogeny.py -i temp/tax_rep_seqs_clus.fa -o temp/tax_rep_seqs.tree
# 格式转换为R ggtree可用的树
sed "s/‘//g" temp/tax_rep_seqs.tree > result/tax_rep_seqs.tree # remove ‘
# 获得序列ID
grep ‘>‘ temp/tax_rep_seqs_clus.fa|sed ‘s/>//g‘ > temp/tax_rep_seqs_clus.id
# 获得这些序列的物种注释,用于树上着色显示不同分类信息
awk ‘BEGIN{OFS="\t";FS="\t"} NR==FNR {a[$1]=$0} NR>FNR {print a[$1]}‘ result/rep_seqs_tax_assignments.txt temp/tax_rep_seqs_clus.id|sed ‘s/; /\t/g‘|cut -f 1-5 |sed ‘s/p__//g;s/c__//g;s/o__//g‘ > result/tax_rep_seqs.tax

21. 其它

其它都是一些简单的格式转换,为后面统计分析而准备文件。

# 将mappingfile转换为R可读的实验设计
sed ‘s/#//‘ mappingfile.txt > result/design.txt
# 转换文本otu_table格式为R可读
sed ‘/# Const/d;s/#OTU //g;s/ID.//g‘ result/otu_table4.txt > result/otu_table.txt
# 转换物种注释信息为制表符分隔,方便R读取
sed ‘s/;/\t/g;s/ //g‘ result/rep_seqs_tax_assignments.txt > result/rep_seqs_tax.txt
时间: 2024-10-13 06:40:47

扩增子分析解读7物种分类统计 筛选进化树和其它的相关文章

扩增子分析解读4去嵌合体 非细菌序列 生成代表性序列和OTU表

本节课程,需要先完成 扩增子分析解读1质控 实验设计 双端序列合并 2提取barcode 质控及样品拆分 切除扩增引物 3格式转换 去冗余 聚类 先看一下扩增子分析的整体流程,从下向上逐层分析 分析前准备 # 进入工作目录 cd example_PE250 上一节回顾:我们制作了Usearch要求格式的Fasta文件,对所有序列进行去冗余和低丰度过滤,并聚类生成了OTU. 接下来我们对OTU进一步去除嵌合体,并生成代表性序列和OTU表. 什么是chimeras(嵌合体)? 嵌合体序列由来自两条或

扩增子分析解读2提取barcode 质控及样品拆分 切除扩增引物

本节课程,需要完成扩增子分析解读1质控 实验设计 双端序列合并 先看一下扩增子分析的整体流程,从下向上逐层分析 分析前准备 # 进入工作目录 cd example_PE250 上一节回顾:我们拿到了双端数据,进行了质控.并对实验设计进行了填写和检查.最后将双端数据合并为单个文件进行下游分析. 接下来我们将序列末端的barcode标签切下来,因为它们是人为添加的,不属于实验对象:再根据标签序列与实验设计文件比对,对每条序列属于哪个样品进行分类:最后我们切除掉扩增使用的引物,因为它们是人工合成的相似

扩增子分析解读3格式转换 去冗余 聚类

本节课程,需要完成扩增子分析解读1质控 实验设计 双端序列合并和2提取barcode 质控及样品拆分 切除扩增引物 先看一下扩增子分析的整体流程,从下向上逐层分析 分析前准备 # 进入工作目录 cd example_PE250 上一节回顾:我们提取barcode,质控及样品拆分,切除扩增引物,经历了两节课6步数据处理才拿到我们扩增的高质量目的片段(貌似基因组/RNA-Seq测序结果直接就是这个阶段了,可以直接mapping) 接下来我们将这些序列去冗余.聚类为OTU.再去除嵌合体,这样就可以获得

扩增子分析解读6进化树 Alpha Beta多样性

分析前准备 # 进入工作目录 cd example_PE250 上一节回顾:我们的OTU获得了物种注释,并学习OTU表的各种操作————添加信息,格式转换,筛选信息. 接下来我们学习对OTU序列的进化分析.同时计算Alpha和Beta多样性值. 16. 进化树构建 进化树是基于多序列比对的结果,可展示丰富的信息,我们将在R绘图中详细解读.此处只是建树,用于Alpha, Beta多样性分析的输入文件. # clustalo多序列比对,如果没有请安装Clustal Omega clustalo -i

扩增子分析解读1质控 实验设计 双端序列合并

本文采用目前最主流的扩增子测序数据类型HiSeq2500 PE250类型数据为例,结合目前主流方法QIIME+USearch定制的分析流程.本课程中所需的测序数据.实验设计和课程分析生成的中间文件,均可以直去百度云下载.链接:http://pan.baidu.com/s/1hs1PXcw 密码:y33d 本课程代码的运行,至少需要Linux平台+安装QIIME 1 分析前准备 # 建立工作目录并进入,-p参数为如果文件夹存在不报错 mkdir -p example_PE250 cd exampl

扩增子图表解读1箱线图:Alpha多样性

箱线图 箱形图(Box-plot)又称为盒须图.盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图.因形状如箱子而得名.在宏基因组领域,常用于展示样品组中各样品Alpha多样性的分布 第一种情况,最大或最小值没有超过1.5倍箱体范围 第二种情况,最大或最小值超过1.5倍箱体范围,外位延长线外,即异常值(outliers) Alpha多样性 知识背景:Alpha多样性计算方法 常见的丰度估计方法有Shannon, Chao1和Observed OTU和PD whole tree等.我最喜欢

如何分析解读systemstat dump产生的trc文件

ORACLE数据库的systemstat dump生成trace文件虽然比较简单,但是怎么从trace文件中浩如烟海的信息中提炼有用信息,并作出分析诊断是一件技术活,下面收集.整理如何分析解读systemstat dump产生的trace文件. 如果要人工去解读systemstat dump生成的trace文件,真是一件体力活,因为这些trace文件动不动就几百M甚至更大,它产生的跟踪文件包含了系统中所有进程的进程状态等信息.每个进程对应跟踪文件中的一段内容,反映该进程的状态信息,包括进程信息,

扩增子图表解读3热图:差异菌、OTU及功能

热图是使用颜色来展示数值矩阵的图形.通常还会结合行.列的聚类分析,以表达实验数据多方面的结果. 热图在生物学领域应用广泛,尤其在高通量测序的结果展示中很流行,如样品-基因表达,样品-OTU相对丰度矩阵非常适合采用热图呈现. 热图优点 因为人读数字需要思考和比较,而对颜色识别能力非常强,采用颜色的深浅代替数据表是非常高效的呈现方式,也便于从中挖掘规律. 热图在非常小的区域展示了大量的基因表达/细菌丰度数据,即可以快速比较组间的变化,同时还可以显示组内每个样品的的丰度,以及组内各样品间的重复情况.

扩增子分析QIIME2-1简介和安装

QIIME2是微生物组分析流程QIIME(截止17.7.13被引7771次)的全新版(不是升级版),采用python3全新编写,并于2018年1月全面接档QIIME,是代表末来的分析方法标准(大牛们制定方法标准,我们跟着用就好了). 安装 安装方法比较简单,参照官网:https://docs.qiime2.org/2017.8/install/native/#install-miniconda 附1. 核心概念 原文链接:https://docs.qiime2.org/2017.8/concep