生物信息 perl 脚本实战

索引

1.统计fasta、fa和fastq文件的长度，统计fastq的reads个数，单个reads长度，reads总长度；统计fasta文件中contig的个数，列出名称，单条的长度，以及总长度。

1.统计fasta、fa和fastq文件的长度，统计fastq的reads个数，单个reads长度，reads总长度（主要是统计总长度，其他在Linux下很简单就实现了）；统计fasta文件中contig的个数，列出名称，单条的长度，以及总长度。

思路整理：这是个典型的逐行读文件，取字段，计算长度问题。

fastq简单：四行一轮，解决办法很多，可以逐行读取，逐行匹配；也可以一次读两行；输出也少，单reads长度，reads数量，reads长度总和，也没有其他有价值的信息。

fasta略微复杂：没有规律，因为序列被切成短的，只能逐行读，逐行匹配；逐行读有个问题，怎么检测结束？（这是逐行读的一个最大缺陷，你无法操纵最后一次！！！）因此，只能把最后一次放在读循环的外面，每次输出的点就在匹配title那个地方。

代码如下：

#!/usr/bin/perl
#Author:zxlee
#Function: compute the length of fastq or fasta, fa.
#usage: `perl script_name fastq/fasta/fa_file_name`, it will show the total length, also a detail file.

use strict;
use warnings;
my $infile = shift;  #give 1st default para to it, you can go on shift to get the 2st para
open IN, "<$infile" or die $!;
open OUT, ">./result_len.txt" or die $!;

our $total_len = 0;
our $seq_num = 0;
our $len;

if($infile =~ /fastq$/){
    while(<IN>){
        next if not /^@\S+/;
        my $seq = <IN>;  #your cannot use $_ here!!!
        chomp($seq);
        $seq_num += 1;
        $total_len += length($seq);
        print OUT "\nreads_len = $total_len\n" if $seq_num == 1;
    }
    print OUT "Total num of reads is $seq_num\n";
}
elsif($infile =~ /(fasta|fa)$/){ # easy way, not use "OR"
    my $chr_len = 0;
    while(<IN>){
        chomp;
        my $line = $_;
        if ($line =~ /^>(\S+)/){
            print OUT "$chr_len\n" if $chr_len != 0;
            print OUT "$1\t";
            $chr_len = 0;
        }else{
            $len = length($line) if $total_len == 0;
            $chr_len += length($line);
            $total_len += length($line);
        }
    }
    print OUT "$chr_len\n";
    print OUT "one line has $len\n";
}
print "The total length is $total_len\n";
close(IN);
close(OUT);

时间： 2024-11-13 08:12:54

生物信息 perl 脚本实战的相关文章

window-运行perl脚本(搭建health-check环境)

安装vsphere sdk VMware-vSphere-Perl-SDK-5.1.0-780721.exe ##看具体的情况安装对应版本的sdk 修改系统环境变量,将安装路径Perl/bin和Perl/site/bin添加到path变量的后面 cmd到perl脚本目录: perl *.pl --serrver ip –username name –type vcenter ##vcenter服务器 perl *.pl --server ip –username name –type

Verilog代码自动缩进和对齐Perl脚本

实验室做FPGA开发时经常用到Verilog,代码规范成为一个问题,于是乎写了一个Perl脚本对代码进行规范化,主要是进行自动缩进和对齐. 代码原理很简单,主要是使用了正则表达式进行匹配和替换. 代码如下,初学Perl,请读者赐教: ##################################################### # 代码缩进对齐脚本 # 功能:对Verilog代码进行自动缩进和对齐处理, # 该版本目前还没有对case语句进行处理 # 更改:增加了对assign的缩进

Perl脚本访问Greenplum数据库安装指导

安装前准备 (1)操作系统(系统上面要安装一些必备的开发工具(比如gcc等)) linux-82:/home/PlODBC # cat/etc/SuSE-release SUSE Linux EnterpriseServer 11 (x86_64) VERSION = 11 PATCHLEVEL = 1 (2)安装所需的软件包 greenplum-connectivity-4.3.0.0-build-2-SuSE10-x86_64.zip --GP官网下载,GP的JDBC和ODBC驱动 DBI-

写的一个perl脚本，用于发送远程MySQL命令

想写一些简化管理操作的脚本,下面是基础脚本之一. 对于一个从来没使用过perl脚本的我来说还是有些难度的,直接上代码. 此脚本用于发送远程MySQL命令并且接收结果,功能比较简单,后面会渐渐完善. #!/usr/bin/perl use Getopt::Long; use DBI; Getopt::Long::GetOptions( 'host|h=s' => \$host, 'user|u=s' => \$user, 'password|pw=s' => \$password, 'po

perl脚本中对数据库的操作

perl中DBI模块为mysql数据库相关操作的接口,首先需要在环境中安装DBI模块.perl处理数据库操作的大致步骤如下:#声明使用DBI模块use DBI;#设置数据库连接参数,指定连接数据库名,数据库所在服务器ip地址,连接用户名,密码# db_name为要连接的数据库名,ip为数据库所在服务器ip地址my $database='DBI:mysql:database=db_name;host=ip';my $user='user_name';my $pw='password';#连接数据库

perl脚本中对字符编码的支持

# 使perl程序支持utf8宽字符编码,不添加下面几行打印中文字符时将出现Wide character in print警告或错误.use utf8;binmode(STDIN, ':encoding(utf8)');binmode(STDOUT, ':encoding(utf8)');binmode(STDERR, ':encoding(utf8)');perl脚本处理中文等字符时,有时从文件读出的数据为字节码,需要进行解码才能正确显示.使用Encode模块即可处理.use Encode;#

Perl脚本调用的优缺点

Perl脚本在运行时作为一个独立的进程,调用另一个脚本意味着创建一个子进程,这和函数调用有着本质的区别,函数调用是一个进程中执行了一段独立代码.这是特别需要注意的前提,下面总结了这种机制的优缺点. 优点并行性.进程之间是独立的.并发的,因此脚本调用脚本时,这两个脚本可以是并行工作的,子脚本又可以调用子脚本,并行性可以无限扩展,运行效率高. 兼容性.一行命令就能调用其它脚本语言,甚至是系统命令,简洁方便. 缺点传参数需要特别检查.调用脚本时传入参数相当于敲命令时加参数,被调用的脚本不会自己主动

perl脚本中的模式匹配

#判断一个变量是否匹配一个空字符串,m!pattern! 与 m/pattern/if($str =~ m!^\s*$!)如果仅仅判断字符串为空,可以使用if($str eq "")# 判断$doc变量是否与给定模式相匹配,模式字符串包含<span id="status">字符,\s表示包含空白,[^<>]*表示匹配不为字符<及>的任何字符.# 其中的括号按顺序可以用$1, $2...进行引用. 最后的s表示跨行匹配,g表示全局匹

perl脚本获取网页内容

# 使用LWP模块的get函数获取网页内容.use LWP::Simple;my $doc=get("http://www.csdn.net");# 获取网页内容后可以对内容进行提取或者其它处理# 将网页内容打印出来print $doc; # 使用post函数向web服务器提交请求.use LWP::UserAgent;use Encode;my $user_agent = LWP::UserAgent->new;my $des = "http://www.xxxx.c