利用 pacbio 数据组装真菌基因组

最近在做组装稻瘟病的基因组。 估计的基因组大小为40M。 由于没有参考基因组,进行de novo assembly。
用HGAP策略。需要的有用的pacbio数据量应为400M左右, 选用的seed read 最小长度为6K, seed的覆盖度应在20倍左右。

拼接流程为:1,filtering. 2, assembly. 3, mapping. 4, consensus.选用的cutoff如下图:

所有的操作都在网页上进行。 piobio 的数据以cell 为单位。每个cell中有很多ZMWS, ZMWS可以产生三种产物。

productivity0: ZMWS中没有聚合酶,相当于是空的

productivity1:有聚合酶存在,产生了有效的数据。

productivity2:虽然不是空的,但是产生的数据是不能用的。

所以,对于每个cell来说,只有productivity1 是有用的。

首先导入你的数据,1,DESIGN JOB 2, Import and Manage 3, from smrt cell 4, 添加你的cell
数据在服务器中的位置,添加好后,scan, 如果数据正确,就会被导入。

注意: 对于每一个cell来说,必须有Analysis_Results文件夹,
其中metadata.xml和Analysis_Results在同一个目录下。bas.h5 和bax.h5在Analysis_Results目录下。
如果目录结构不正确是不能导入该cell的。bax.h5文件必须有,另外的没有测试过。

将所有的cell导入后,就可以建立一个job了。1, DESIGN JOB 2,Creat New 3, 填写job name ,comments
是关于这个job的说明,可写可不写。选择protocol, 由于是de novo
assembly,选择RS_HGAP_Assembly.2。这个protocol的设置如上面的图所示。将属于该job的cell数据导入,
所以,你必须知道每个cell的ID, ID如何查看直接看原始数据就知道了。这些做完以后,点击save, start.job就开始跑了。

跑完以后会生成此次job的报告,
你可以根据报告查看这次job的情况。最终的结果位置可以在log文件中找到(eg:/opt/smrtanalysis/install/smrtanalysis-2.1.1.128549/common/jobs/016/016451)。出现错误的话log文件也会记录出错信息。

关于HGAP 组装策略 请自己下载参考文献阅读, 这里不多说明。

by freemao

FAFU.

[email protected]

利用 pacbio 数据组装真菌基因组,布布扣,bubuko.com

时间: 2024-10-13 00:12:23

利用 pacbio 数据组装真菌基因组的相关文章

三代组装小基因组研究综述

三代组装小基因组研究综述 三代测序 组装 三代组装各种原理和方法都有. 近日illumina发布了新的测序仪NovaSeq系列,这个测序是相当的便宜,这个可能对于打开100美元人类基因组时代的大门有巨大的帮助.不过本篇文章小编不讲NovaSeq,感兴趣的自行百度就可以了. 小编目前主要是三代动植物基因组方向,今天高铁上跨了个界读了14年的一篇三代在小基因中的应用的综述文章.今天看来这篇文章确实分析的对,可以认为是所谓的领路人吧. 今天分享给大家我的阅读理解,希望大家能有所收获. One chro

利用RGB-D数据进行人体检测 带dataset

利用RGB-D数据进行人体检测 LucianoSpinello, Kai O. Arras 摘要 人体检测是机器人和智能系统中的重要问题.之前的研究工作使用摄像机和2D或3D测距器.本文中我们提出一种新的使用RGB-D的人体检测方法.我们从HOG( Histogram of OrientedGradients)描述子获得灵感,设计了一个在稠密深度数据中检测人体的方法,叫做深度方向直方图HOD(Histogram of Oriented Depths).HOD对局部深度变化的方向进行编码,依靠在预

Python 数据分析(二 本实验将学习利用 Python 数据聚合与分组运算,时间序列,金融与经济数据应用等相关知识

Python 数据分析(二) 本实验将学习利用 Python 数据聚合与分组运算,时间序列,金融与经济数据应用等相关知识 第1节 groupby 技术 第2节 数据聚合 第3节 分组级运算和转换 第4节 透视表和交叉表 第5节 时间序列 第6节 日期的规范.频率以及移动 第7节 时区处理 第8节 时期及算术运算 第9节 重采样及频率转换 第10节 时间序列绘图 groupby 技术 一.实验简介 Python 数据分析(二)需要同学们先行学完 Python 数据分析(一)的课程. 对数据集进行分

政府部门利用大数据面临的诸多难题

政府部门对大数据进行应用,不仅要处理多种来源和不同格式的数据集成等一般问题外,还面临着一些独特的挑战,最大的挑战是数据采集.由于政府部门收集的数据不仅从各种社交媒体.网站和众包中获取,还可以从不同的国家和机构中采集,收集难度就不难想象了.并且,国家之间的数据和信息共享是一个不小的问题,因为跨国共享信息牵涉到语言的转换和不同文化背景产生的交流问题,在这种情况下共享和传递信息可能会导致信息失去其原有的真实性.另外,在不同的政府部门和机构之间共享数据的状态也是一个挑战.比较政府数据与商业数据,最大的不

利用中文数据跑Google开源项目word2vec

word2vec注释 1.多线程并行处理: 1.分配内存空间,创建多线程,执行多线程.malloc,pthread_create,pthread_join 2.每个多线程处理的训练文档根据线程id,分配不同的文档内容,由fseek定位 2.vocab相关: 1.每个vocab对象都含以下内容:词(char[]),词频(long long),词在哈夫曼树中的父节点们(可以理解为编码的次序)(int*),哈夫曼编码(char*),哈夫曼码长度(char) 2.获取vocab词典有两条路径: 1.是从

制造业如何利用大数据

大数据是信息技术的重要概念.很多企业正在搜集大数据并使用复杂的分析工具对其进行分析,以期发现隐藏的规律和关联.如果生产制造系统发生重大变更的时候也能够自动识别并找到最佳的作业条件,例如设备发生故障.原材料特性发生变化或者能源和人力成本发生变化,那么是不是很棒呢?这就是生产制造领域内大数据的存在意义,也是为什么很多生产制造企业正在针对其生产设施开展大数据项目. 如果你正在进行大数据项目,那么有四个因素需要牢记. 1.数据不能脱离实际环境 首先需要说明的是,脱离实际环境的数据的作用将会大打折扣.在生

彩票APP开发如何利用大数据研究数字规律

现在社会高速发展,如今已经不知不觉的地进入大数据时代,彩票作为一项数字娱×××戏,吸引越来越多人加入,也有越来越多人开始研究开奖的规律,看有没有办法找到开奖的走向.彩票APP开发如今也以大数据为依托,深度解析数据规律,为用户推出更多满意的服务. 互联网时代,各大行业紧跟互联网的脚步,企业和商家与手机软件APP结合,通过手机APP突破新的营销模式,房地产也不例外,既然人们可以通过手机APP网购,那房地产就实现房地产代购,于是,房地产导购APP应运而生.APP开发就找麦鱼科技.联系方式:电话:028

利用大数据做企业托管和SEO优化服务

托管服务提供商可以利用大数据为企业提供更好的服务和更多的SEO优势. 大数据如今已经成为很多企业数字营销战略中的重要组成部分.机器学习.数据分析和Hadoop技术正在改变搜索引擎优化(SEO): 机器学习在搜索引擎算法中得到越来越广泛的应用.使用机器学习的SEO可以部分逆向工程这些算法. 大数据帮助SEO公司发现新的链接机会和其他场所,以提高他们的搜索引擎结果页面(SERP)排名. 大数据帮助企业找到与其SEO目标兼容的新的托管解决方案. 最后一点很重要,但经常被忽视. 企业采用托管服务可能会对

利用大数据技术实现日志记录与分析

整体思路 整体分三步: 1.记录日志 1.记录日志采用UDP协议写入大数据平台,大数据平台采用Hive表来存储日志信息. 2.写入日志的工作,封装了一个Auto.Lib3.Dealer.Log.dll,这个dll要依赖ZooKeeperNet.dll 和 log4net.dll.这三个dll文件地址如下: dll文件 TFS上路径 Auto.Lib3.Dealer.Log.dll $/dealer/MCH/CommonLib/Auto.Lib3.Logging.dll ZooKeeperNet.