组装三代番木瓜基因组——by Serenity

# 估算测序深度、reads数目、N50等值(自写perl程序):

$ perl ~/TangerScript/fqStat -i sunset.raw.subreads.fastq -g 372m

统计结果如下:

# 基因组组装三步走1. Correction 2. Assembly 3. Polish 

## Step1: canu组装(1. Correction 2. Assembly)

$ (nohup) canu -s spec.txt -p sunset -d sunset-auto genomeSize=400m -pacbio-raw sunset.raw.subreads.fastq &

$ cat spec.txt  注:spec文件为配置文件,根据不同服务器设置不同的参数。

   ### 组装初步结果如下(自写perl程序)

$ cd /public1/home/Serenity/Sunset_Assembly/Canu-sunset-auto-201704

$ perl ~/perl_scripts/faSize.pl sunset.contigs.fasta

   ### 抽取unassembled.fasta中reads>5的contigs(自写python程序)

$ python ~/python_scripts/extract_faread_filter.py sunset.unassembled.fasta

   ### 将上一步结果与 sunset.contigs.fasta合并

$ cat sunset.contigs.fasta sunset.unassembled.fastareadfilter > sunset.all.contigs.fasta

## Step2: 第一轮矫正(3. Polish): quiver——取至少50x的三代数据做校正

$ cd /public1/home/Serenity/Sunset_Assembly/Canu-sunset-auto-201704/canu-quiver

$ ln -s ../sunset.all.contigs.fasta .

$ perl ~/TangerScript/runQuiver.pl -i sunset.all.contigs.fasta -d /public4/zhangxt/DATA/Papaya/sunset/baxh5 -t 16    注:run Quiver矫正,-t 设置节点数16-24

$ for i in {1..27};do qsub script/script.${i}.pbs; done     注:结束后检查outcmp里面的文件数目,检查无误后提交quiver.sh脚本

$ qsub quiver.sh   注:结束后得到consensus.fasta文件便是quiver校正后的基因组文件

 

## Step3: 第二轮矫正(3. Polish): pilon——取至少50x的二代数据做校正

$ cd /public1/home/Serenity/Sunset_Assembly/sunset-reseq-raw-data

   ### 首先统计read长度、read数目、总碱基数

$ zcat papaya_S1FR_CAGATC_L000_R1.fastq.gz | awk ‘NR==2{a=length($1)}END{print "read length:"a"\nread num:"NR/4"\ntotal base:"a*NR/4*2"\n"}‘ > papaya_S1FR_CAGATC_L000_R1.fastq.gz.qstat.txt

$ cat papaya_S1FR_CAGATC_L000_R1.fastq.gz.qstat.txt   注:测序深度=total base/372000000

   ### bwa mem进行align

$ bwa index -a bwtsw consensus.fasta

$ bwa mem -t 24 -R ‘@RG\tID:S1FR_CAGATC\tSM:S1FR_CAGATC\tPL:Illumina\tLB:lib1‘ consensus.fasta papaya_S1FR_CAGATC_L000_R1.fastq.gz papaya_S1FR_CAGATC_L000_R2.fastq.gz > papaya_S1FR_CAGATC_L000.sam

$ samtools view -bS papaya_S1FR_CAGATC_L000.sam > papaya_S1FR_CAGATC_L000.bam

$ samtools sort papaya_S1FR_CAGATC_L000.bam -o papaya_S1FR_CAGATC_L000.sorted.bam

$ samtools index papaya_S1FR_CAGATC_L000.sorted.bam

$ qsub run_pilon.sh

$ cat run_pilon.sh    注:在本实验室服务器指定13节点或者14节点,因为这两个节点内存比较大,java设置内存300G,线程设置12以上 

   ### 组装最终结果如下:

$ perl ~/perl_scripts/faSize.pl sunset_pilon.fasta

 注:N50大概达到了1.2M,总基因组大小大概组装到了330M

 

                                             

时间: 2024-08-03 19:58:15

组装三代番木瓜基因组——by Serenity的相关文章

三代组装小基因组研究综述

三代组装小基因组研究综述 三代测序 组装 三代组装各种原理和方法都有. 近日illumina发布了新的测序仪NovaSeq系列,这个测序是相当的便宜,这个可能对于打开100美元人类基因组时代的大门有巨大的帮助.不过本篇文章小编不讲NovaSeq,感兴趣的自行百度就可以了. 小编目前主要是三代动植物基因组方向,今天高铁上跨了个界读了14年的一篇三代在小基因中的应用的综述文章.今天看来这篇文章确实分析的对,可以认为是所谓的领路人吧. 今天分享给大家我的阅读理解,希望大家能有所收获. One chro

利用 pacbio 数据组装真菌基因组

最近在做组装稻瘟病的基因组. 估计的基因组大小为40M. 由于没有参考基因组,进行de novo assembly. 用HGAP策略.需要的有用的pacbio数据量应为400M左右, 选用的seed read 最小长度为6K, seed的覆盖度应在20倍左右. 拼接流程为:1,filtering. 2, assembly. 3, mapping. 4, consensus.选用的cutoff如下图: 所有的操作都在网页上进行. piobio 的数据以cell 为单位.每个cell中有很多ZMWS

基因组注释

基因组注释主要包括四个研究方向:重复序列的识别:非编码RNA的预测:基因结构预测和基因功能注释.我们将分别对这四个领域进行阐述. 1 重复序列的识别. 1.1  重复序列的研究背景和意义:重复序列可分为串联重复序列(Tendam repeat)和散在重复序列(Interpersed repeat)两大类.其中串联重复序列包括有微卫星序列,小卫星序列等等:散在重复序列又称转座子元件,包括以DNA-DNA方式转座的DNA转座子和反转录转座子(retrotransposon).常见的反转录转座子类别有

测序总结,高通量测序名词

主要来自 :http://mp.weixin.qq.com/s/iTnsYajtHsbieGILGpUYgQ 测序的黄金标准:一代测序了,故称之为黄金测序. 高通量测序最近这几年很火越来越火,但是世界上更多的还是一帮天天做分子克隆.养细胞.养细菌.杂蛋白的生物学家,究其原因Sanger测序还是测序届的金标准,由于精确度高于2.3代测序且保持大白菜价格使之地位稳固. 应用范围:De Novo测序.重测序: 如突变检测.SNPs.插入.缺失克隆产物验证.比较基因组.分型: 如微生物和真菌鉴定.HLA

测序简史

测序简史 一代 二代测序 三代测序 一文从一代到最新的测序技术,希望能够帮助你. 序 这几天天气很热,热的人心惶惶.因此一直提上日程的所谓的测序简史,也没有时间去好好的落实.中途找过一个行业内的颇有影响力的人,但是他由于种种原因,也没有能踏踏实实的去做这件事情.几经周折,这个任务还是落到了我自己的肩上. 于是乎,我鼓鼓勇气,尝试着去把这段从1977年到2017年的漫长而又渺小的四十年说的有趣些儿. 当我起笔去写这篇文章的时候,小伙伴们还在工作室因为某个服务器后台技术争论不了,这样看来生信人团队还

KEGG数据库

参考:KEGG数据库中文教程 - 博奥  &[学习笔记]KEGG数据库 - 微信 学习一个技能最主要的事情你必须知道,那就是能通过它来做什么? KEGG数据库里面有什么? 如何查询某一特定的代谢途径(pathway)的信息,例如Glycolysis / Gluconeogenesis? 如何查询某一化合物的信息,例如Pyruvate? 如何查询Pyruvate涉及了哪些生化反应? 如何查询某一基因的信息,例如gltA ? 如何知道Bacillus subtilis是否有gltA? 如何查询 gl

生物信息相关国家自然科学基金汇总(持续更新中)

项目题目              申请人 申请单位     经费 年份<br>我国驯养酵母菌资源.遗传多样性与群体演化研究    白逢彦 中科院微生物所 90万  2015<br>基于`翻译组学`的酵母有氧发酵途径翻译调控的进化机制研究          江会锋 中科院天津生技所 85万  2015<br>综合组学策略鉴定猪骨骼肌肌纤维类型构成相关基因及其适应性进化机制      樊斌   华中农业大学    85万  2015<br>PLP依赖的II-氨

BioNano数据的管道

K-INBRE生物信息学核心为BioNano分子图或预组装的BioNano基因组图谱创建了易于使用的管道,用于多次常规的组装和/或对准实验. 所有管道都有样本数据集和教程.管道从您从测绘设施收到的原始数据或汇编的基因组图谱中完成分析. 在使用这些脚本之前,不需要命令行的体验. 生物纳米分子的"原始数据到完成装配和组装分析"管线与基于序列的基因组FASTA映射 组装XeonPhi管道预处理原始分子图,并为其编写并运行一系列组件.然后用户选择最佳组装,并将其用于超级支架参考FASTA基因组

GapFiller

1. GapFiller简介 组装出来的基因组草图的scaffold需要进一步进行gaps的close.进行这样功能的软件有:SOAPdenovo GapCloser v1.12r6; IMAGE; GapFiller. GapFiller文章发表在Genome Biology上:Boetzer M,Pirovano W. 2012. Toward almost closed genomes with GapFiller. Genome Biol.13:R56.从文章可以完全明白该软件closi