本次的任务是对三组儿童的肠道宏基因组测序序列进行数据挖掘。我负责的是2-3 years old,control,十个双端测序数据。
*****************************************我是分割线***********今天没有心情卖萌**************************************************************
p { margin-bottom: 0.25cm; line-height: 120% }
a:link { }
Step1:
新建文件夹:20161205
使用人的基因组作为参考序列,先进行比对,看数据质量。
bowtie2-build /home/pxy7896/Desktop/20161205/GCF_000001405.35_GRCh38.p9_genomic.fna human
Step2:
查看数据的质量。是否与人类基因组近似?
这里只以两组为例,数据质量比较好吧,所以不需要去除人的基因组的干扰。
Step3:
描述物种分类
for
f in *.fastq.gz
do
metaphlan2.py
$f --input_type fastq --nproc 4 > ${f%.fastq.gz}_profile.txt
done
合并表格
/home/pxy7896/Downloads/metaphlan2/utils/merge_metaphlan_tables.py
*_profile.txt > merged_abundance_table.txt
绘制热图:
/home/pxy7896/Downloads/metaphlan2/utils/metaphlan_hclust_heatmap.py
-c bbcry --top 25 --minv 0.1 -s log --in merged_abundance_table.txt
--out result/abundance_heatmap.png
感觉应该把pe-1和pe-2放在一起,而且pe-1和pe-2的差距本就不大。所以尝试合并的情况:
IDs="G45084
G45072 G45071 G45109 G45125 G45124 G45049 G45054 G45121 G45099"
for
s in ${IDs}
do
metaphlan2.py
${s}_pe_1.fastq.gz,${s}_pe_2.fastq.gz --bowtie2out
result1/${s}.bowtie2.bz2 --nproc 5 --input_type fastq >
result1/profiled_${s}.txt
done
查看cpu情况:
然后合并表格:
/home/pxy7896/Downloads/metaphlan2/utils/merge_metaphlan_tables.py
profiled_*.txt > merged_abundance_table.txt
重新绘制热图:
/home/pxy7896/Downloads/metaphlan2/utils/metaphlan_hclust_heatmap.py
-c bbcry --top 25 --minv 0.1 -s log --in merged_abundance_table.txt
--out abundance_heatmap.png
修改命令,展示所有的种类,而非top25
,并修改精度为 0.01
/home/pxy7896/Downloads/metaphlan2/utils/metaphlan_hclust_heatmap.py
-c bbcry --minv 0.01 -s log --in merged_abundance_table.txt --out
abundance_heatmap_2.png
PS:
1.
单独查看内存使用情况的命令:free
-m;查看内存及cpu使用情况的命令:top,再输入1
也可以安装htop工具,sudo
apt-get install htop
安装完后,直接输入命令:htop
2.
远程连接
http://www.linuxidc.com/Linux/2016-06/132442.htm
参考上面这篇设置好ubuntu后,记录ubuntu的ip地址(ifconfig)
然后在win7下使用软件RealVNC
,输入ip和密码即可。
https://www.realvnc.com/download/viewer/