Perl中Schwartzian转换问题

Perl中著名的Schwartzian转换,其产生背景主要涉及到排序问题:

比如说,根据文件名以字母顺序排序,代码如下:

use strict;
use warnings;

my @files = glob "*.xml";          #perl中文件操作符glob提供相当于shell中的通配符的功能
my @sorted_files = sort @files;    #sort(),排序,默认是字母顺序排序

比如说,根据文件名长度排序,其代码如下:

use strict;
use warnings;

#length求长度。 太空船操作符<=>,默认变量是$a,$b,返回值为-1,0,1分别表示大于,==,小于。 sort进行排序
my $profix = ".xml";
my @files = glob "*.xml";my @sorted_length = sort { length($a) <=> length($b) } @files;

上面的两种情况,对很多文件操作来说,速度还不算慢,如果是下面这种情况。


比如说:要批量比较文件大小,其代码如下:

use strict;
use warnings;

my @files     = glob "*.xml";
my @sort_size = sort { -s $a <=> -s $b } @files;  #比较大小

上面的代码设计到三重(次)操作:

1. 从硬盘上获取文件大小(-s $b)

2. 比较文件大小(太空船操作)

3. 对其进行排序(sort操作)

考虑到要比较$a,$b大小时,要从硬盘中获取两次,所以次数是6次!也就是说,如果有1万个文件,总共是6万次。

其算法复杂度是: n*long(n),考虑到后两项(比较文件大小,进行排序)必然要进行的操作,但第一项却可以降低!

即一次性从硬盘中读取所有文件大小,将其放置到Perl中的默认的变量,并存储到内存中!于是又下面算法实现:

use strict;
use warnings;

my @files = glob "*.xml";

my @unsorted_pairs = map  { [$_, -s $_] } @files;
my @sorted_pairs   = sort { $a->[1] <=> $b->[1] } @unsorted_pairs;
my @sorted_files   = map  { $_->[0] } @sorted_pairs;

看上去比较复杂,分三个步骤解释下:

第一步:遍历文件列表,对每个文件创建一个数组引用。数组引用包含两个元素:

第一个是文件名($_),第二个是文件大小(-s $_)。这样,处理每个文件只访问一次磁盘。

第二步:对二维数组排序。因比较文件大小,所以需取元素[1],比较它们的值。得到另一个二维数组。

第三步:丢掉文件大小元素,创建一个只含文件名的列表。完成目标!

上面的代码使用了两个临时数组,但这并不是必须的。我们可以一个语句就能完成所有的工作。为了达到目的,需要按照“数据从右流向左”的原理反转句子顺序,不如果将每个句子放在单独一行,并且留出足够的空间,我们依然可以写出可读性高的代码。

my @quickly_sorted_files =
    map  { $_->[0] }
    sort { $a->[1] <=> $b->[1] }
    map  { [$_, -s $_] }
    @files;

这就是以Randal L. Schwartz命名的Schwartzian转换,对数据量特多的情况下,其速度要比前者快数倍!

下面写了小程序,包括在生成1万个xml文件,在两种情况下,完整代码如下:

#!/usr/bin/perl -w
use strict;
use warnings;
use autodie;
use v5.10;

######################################
###  创建要比较的10,000个.xml文件 ###
######################################
my $profix = ".xml";

foreach my $num (1..10000) {
	open(my $fh, '>', $num . $profix) || die "Can not create the file: $!\n";
	print $fh "This is file size testing!";
}

print "All the 10_1000 files created! \n";

######################################
### 常规转换:      遍历20次       ###
######################################
my $t1  = time();

foreach (1..20){
	my @files     = glob "*.xml";
    my @sorted    = sort { -s $a <=> -s $b } @files;
}

say "常规算法需要时间: => ", time()- $t1;

######################################
### Schwartzian转换: 遍历20次     ###
######################################
my $t2  = time();

foreach (1..20){
	my @files = glob "*.xml";
        my @sorted =
            map  {$_->[0]}
            sort {$a->[1] <=> $b->[1]}
            map  {[$_, -s $_]}
       @files;
}

say "Schwartzian算法需要时间: => ", time()- $t2;

输出结果:

All the 10_1000 files created!

常规算法需要时间:        => 185

Schwartzian算法需要时间: => 115

时间: 2024-09-30 16:39:28

Perl中Schwartzian转换问题的相关文章

Perl中的真与假

Perl认为真值是自明的(self-evident), 表示任何事物的真值都可以计算.Perl以实用的方式来定义真值,即一个实体的真值取决于这个实体的类型.Perl总是乐观的认为:这个世界上真的东西远比假的东西多的多. Perl区别与任何其他计算机语言,Perl是语言学家创造的,而语言的意思离不开上下文语境,所以Perl中的真值都可以在标量(标量$与数组@类似于英文中的单数与复数, book 与 books的区别, 真值在现实世界中,应该就是单数,所以是标量)计算,除此之外,不会做任何类型的强制

【转载】Perl中字符串编码的处理

在 Perl看来, 字符串只有两种形式. 一种是octets, 即8位序列, 也就是我们通常说的字节数组. 另一种utf8编码的字符串, perl管它叫string. 也就是说: Perl只熟悉两种编码: Ascii(octets)和utf8(string). utf8 flag在perl内部, 字符串结构由两部分组成: 数据和utf8 flag. 比如字符串"中国"在perl内部的存储是这样:utf8 flag 数据On 中国假如utf8 flag是On的话, perl就会把中国当成

Perl中的骆驼精神

Perl中的哈希数据结构. 哈希是一种数据结构,由一对对的键(keys)--值(values)对来组成. 这些键和值都是任意的标量,但键总会被转换成字符串而且必须是唯一的字符串. 访问哈希元素,    $hash{$some_key}    ##和访问数组的做法类似,只是使用了花括号{}而非方括号[]. 访问哈希表中不存在的值得到undef. $family_name{'barney'} = 'rubble'        ##完成对某一哈希元素的单一赋值 访问整个哈希,    %family_

Perl中uc和lc函数

这两个函数的作用是把字符串的大写字母和小写字母进行转换.如: $side = uc $attrs[0]; 把attrs[0]转换成大写,然后给side变量赋值. $gender = lc $attrs[1]; 把attrs[1]转换成小写,然后给gender赋值. 注意: 两个函数都是把转换之后的字符串作为返回的值 . uc是大写,表示upper convert,lc是小写,表示lower convert Perl中uc和lc函数

perl中==操作和eq操作区别

$str1 = "1 -the first str"; $str2 = "1 -the second str"; print "numerically  equal\n" if($str1 == $str2); print "stringwise equal\n" if($str1 eq $str2); 结果只有numerically equal. PS:perl会自动转换字符串.$str1 == $str2中的值都是1 实际

[Perl系列—] 2. Perl 中的引用用法

Perl 中的引用,为什么要使用引用? 对于熟悉C语言的开发者来说, 指针这个概念一定不陌生. Perl 的引用就是指针,可以指向变量.数组.哈希表甚至子程序. Perl5中的两种Perl引用类型为硬Perl引用和符号Perl引用.符号Perl引用含有变量的名字,它对运行时创建变量名并定位很有用,基本上,符号Perl引用就象文件名或UNIX系统中的软链接.而硬Perl引用则象文件系统中的硬链接. Perl4只允许符号Perl引用,给使用造成一些困难.例如,只允许通过名字对包的符号名哈希表(名为_

Json在Struts中的转换与传递

本文主要探讨普通数据如何快速转换为Json数据,一共讨论2种方法: 首相准备页面和实体类: 页面: <body> <div id="topLoginDiv"> 用户名: <input name="user.name" id="loginName" />  密码: <input name="user.password" id="loginPassword" />

VC++使用CImage在内存中Bmp转换Jpeg图片

之前写了一篇<VC++使用CImage在内存中Jpeg转换Bmp图片>,通过CImage实现了在内存中Jpeg转Bmp. 既然Jpeg能转Bmp,那CImage也支持Bmp转Jpeg,与上一篇文章依赖CImage的Load函数相反,Bmp转Jpeg通过Save函数实现: 使用的也是IStream接口的函数重载,具体可以参考MSDN:http://msdn.microsoft.com/zh-cn/library/d06f3fhw.aspx 下面贴出使用CImage在内存中Bmp转换Jpeg的代码

Perl中的正则表达

前几天用到了Perl语言,主要看了一下Perl中的正则表达式,在各种网页语言中,正则表达式在处理字符串的时候十分有用,所以这里就简单说一下在Perl中正则表达式的应用. 先上代码 1 #!/usr/bin/perl -w 2 #use utf8; 3 #use encoding "gb2312"; 4 5 open(DATA,"<test2.txt") or die "read error"; 6 7 open(OUT,">