NGS中的一些软件功能介绍

1.bowtie

短序列比对工具,blast也是短序列比对工具,速度快,结果易理解。

输入可以是fastq或者fasta文件。

生成比对结果文件sam格式的吧。

2.bwa

转自:https://www.jianshu.com/p/1552cc6ac3be

将DNA序列比对到参考基因组上的软件,包含三种算法:

BWA-backtrack:适合比对长度不超过100bp的序列;

BWA-SW:合于长度为70-1M bp的序列;

BWA-MEM:合于长度为70-1M bp的序列,高质量的测序数据,其比对的速度更快,精确度更高。

使用whereis bwa找到其安装路径:

[email protected]:/data1/zzl$ whereis bwa
bwa: /usr/bin/bwa /usr/share/bwa /usr/share/man/man1/bwa.1.gz

输入bwa得到以下帮助:

Usage:   bwa <command> [options]

Command: index         index sequences in the FASTA format
         mem           BWA-MEM algorithm
         fastmap       identify super-maximal exact matches
         pemerge       merge overlapping paired ends (EXPERIMENTAL)
         aln           gapped/ungapped alignment
         samse         generate alignment (single ended)
         sampe         generate alignment (paired ended)
         bwasw         BWA-SW for long queries

         shm           manage indices in shared memory
         fa2pac        convert FASTA to PAC format
         pac2bwt       generate BWT from PAC
         pac2bwtgen    alternative algorithm for generating BWT
         bwtupdate     update .bwt to the new format
         bwt2sa        generate SA from BWT and Occ

Note: To use BWA, you need to first index the genome with `bwa index‘.
      There are three alignment algorithms in BWA: `mem‘, `bwasw‘, and
      `aln/samse/sampe‘. If you are not sure which to use, try `bwa mem‘
      first. Please `man ./bwa.1‘ for the manual.

步骤:

1.对参照基因组建索引:

bwa index –a bwtsw hg19.fasta

此处构建索引使用的是bwtsw算法,最终输出的结果文件:

会生成:bwt,pac,ann,amb,sa五种类型的文件:

[email protected]:/data1/GRCm38$ ls
GRCm38_68.fa  GRCm38_68.fa.amb  GRCm38_68.fa.ann  GRCm38_68.fa.bwt  GRCm38_68.fa.fai  GRCm38_68.fa.pac  GRCm38_68.fa.sa

2.使用bwa-mem算法进行比对:

bwa mem –t 4 hg19.fasta read1.fq read2.fq > aln-pe.sam

我使用了这条命令:

bwa mem -t 4 ../hg19/hg19.fasta ERR580012_1.fastq.gz ERR580012_2.fastq.gz > aln-pe.sam

使用了mem算法,-t是选择几个线程,增加线程,减少运行时间;然后是参照基因组的fasta文件。以及其他参数:

-p 忽略第二个输入序列,默认情况下,输入一个序列文件认为是单端测序,输入两个序列文件则是双端测序,加上这个参数后,会忽略第二个输入序列文件,把第一个文件当做单端测序的数据进行比对;

将最终结果存入到了sam文件中。

那么什么是单端测序和双端测序:

转自:https://www.cnblogs.com/Formulate0303/p/7843082.html

1、单端测序(Single-ead)首先将DNA样本进行片段化处理形成200-500p的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flowcell上生成DNA簇,上机测序单端读取序列。

2、Paied-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paied-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序。

//其实这个第二点还不太明白.[1]

3.将sam文件压缩为bam格式

samtools view –bS aln-pe_reorder.sam –o aln-pe.bam

查找samtools帮助:

Usage:   samtools <command> [options]

Command: view        SAM<->BAM conversion
         sort        sort alignment file
         mpileup     multi-way pileup
         depth       compute the depth
         faidx       index/extract FASTA
         tview       text alignment viewer
         index       index alignment
         idxstats    BAM index stats (r595 or later)
         fixmate     fix mate information
         flagstat    simple stats
         calmd       recalculate MD/NM tags and ‘=‘ bases
         merge       merge sorted alignments
         rmdup       remove PCR duplicates
         reheader    replace BAM header
         cat         concatenate BAMs
         bedcov      read depth per BED region
         targetcut   cut fosmid regions (for fosmid pool only)
         phase       phase heterozygotes
         bamshuf     shuffle and group alignments by name

-b 表示输出为bam文件格式 –S默认下输入是 BAM 文件,若是输入是 SAM 文件,则最好加该参数,否则有时候会报错。-o 输出文件名

最终生成了bam文件,其中b指binary,运算快。

使用下面命令来查看文件头:

samtools view -H ESCell#8.sam

原文地址:https://www.cnblogs.com/BlueBlueSea/p/9858814.html

时间: 2024-10-18 09:12:01

NGS中的一些软件功能介绍的相关文章

Joomla软件功能介绍与开源程序大比拼Joomla,wordpress,Drupal哪个好?

Joomla 软件功能介绍:    Joomla!是一套在国外相当知名的内容管理系统 (Content Management System, CMS),它属于Portal(企业入口网站)类型,顾名思义,就是比较适合作为商业类型的网站程序.一般人对这类型的内容管理系统可能会有以下的别名来称呼: ■ 架站程序(或软件) ■ 快速架站程序(或软件) ■ 整站程序 Joomla!是使用PHP语言加上MySQL数据库所开发的软件系统,可以在Linux. Windows.MacOSX等各种不同的平台上执行.

sf中标准的分页功能介绍

世上本无事,庸人自扰之.我喜欢一个相对比较安静的环境去学习和工作,希望在一个掉一根针的声音都能够听到的环境中,但是有时候往往相反,一片嘈杂,我改变不了周围的环境,只能改变自己,其实这些都没有什么,也许是我内心就很嘈杂,使我听到一点点声音就感觉很烦躁.上善若水,心静则情静继而人静. 言归正传: sf中标准的分页功能: sf有自己标准的分页功能,sf真是个功能相当完善的云端开发平台,其有好多自己标准的功能,今天我就根据自己的理解先介绍一下sf标准的分页功能的皮毛. 定义关联到前台的Contet值 p

最新一代企业管理软件功能介绍

Saaii商翼ERC企业管理系统功能介绍 一.操作界面 商翼ERC企业管理系统一改传统管理软件的"7"字形框架布局,采用了全新的Windows平台界面和个性化工作图标的直观的设计风格,美观简洁.清晰明了.每一个工作图标的名称与功能用途相互对应,用户无须再通过下拉菜单的方式去查找应用,缩短了查找的时间,简化了操作的步骤,大大提高了工作的效率. 二.客户管理 商翼ERC企业管理系统对客户采取的是动态管理模式.用户可以随心所欲的建立多个客户分组和设置客户等级,同一个客户可以添加到多个不同的客

防火墙安全, 合规性, 带宽, 配置变更管理软件?——功能介绍详细版

原文地址:http://blog.51cto.com/13922960/2171629

来电通来电弹屏软件的功能介绍

由于各个公司发展规模的扩大,相应的业务流量也越来越多,作为公司职员每天要接到很多不同客户的来电,也常常会出现这样一种情况:第一次联系的时候交谈甚好,客户对你的服务也是非常满意,可等客户再次打来电话咨询时,你却忘记了客户姓甚名谁:当客户二次买入的时候,却忘记了上一次的售价是多少:这样也在无形中遭到客户的反感,也从不同程度上造成客户流失.如何化解类似的尴尬呢?来电通来电弹屏软件就可以解决上述问题,下面就来介绍一下来电通来电弹屏软件的相关功能. 来电弹屏,顾名思义就是在有客户来电的时候,会将来电信息自

Python中生成器和迭代器的功能介绍

生成器和迭代器的功能介绍 1. 生成器(generator) 1. 赋值生成器 1. 创建 方法:x = (variable for variable in iterable) 例如:x = (i for i in range(10)) print(x) >>> <generator object <genexpr> at 0x00000000006B85C8> 返回值:generator #使用元祖推导式的时候回变成一个生成器. 2. 调用 方法:x.__nex

Python中set的功能介绍

Set的功能介绍 1.集合的两种函数(方法) 1. 集合的内置函数 交集 格式:x.__and__(y)等同于x&y 例如:s1 = {'a',1,} s2 = {'b',1,} s3 = {'b','d'} print(s1.__and__(s2)) >>> {1} print(s1.__and__(s3)) >>> set() 返回值:set #y只能是集合,当两个集合没有交集时,返回值为空集合. 判断是否是包含关系 格式:x.__contains__(y)

python中int的功能介绍

int的功能介绍 1. 绝对值 x.__abs__()等同于abs(x) 2. 加法 x.__add__(y)等同于x+y 3. 与运算 x.__and__(y)等同于x&y 4. 布尔运算 x.__bool__() 5. 商和余数 x.__divmod__(y)等同于divmod(x,y) 6. 等于 x.__eq__(y)等同于x==y 7. 整数转为为浮点数 x.__float__()等同于float(x) 8. 地板除 x.__floordiv__(y)等同于x//y 9. 大于等于 x

Python中list的功能介绍

List的功能介绍 1. 列表的两种方法 1. 列表的内置方法 列表的相加 格式:x.__add__(y)等同于x+y 例如:list1 = [1,2,3] print(list1.__add__([4,5,6])) >>> [1,2,3,4,5,6] 返回值:list 注:上述的y可以是list/tuple/str/dict/set等,但不可以是int. 是否是包含关系 格式:x.__contains__(y)等同于y in x 例如:list1 = [1,2,3] print(lis