Python实现各种排序算法的代码示例总结

Python实现各种排序算法的代码示例总结

作者:Donald Knuth 字体:[增加 减小] 类型:转载 时间:2015-12-11我要评论

这篇文章主要介绍了Python实现各种排序算法的代码示例总结,其实Python是非常好的算法入门学习时的配套高级语言,需要的朋友可以参考下

在Python实践中,我们往往遇到排序问题,比如在对搜索结果打分的排序(没有排序就没有Google等搜索引擎的存在),当然,这样的例子数不胜数。《数据结构》也会花大量篇幅讲解排序。之前一段时间,由于需要,我复习了一下排序算法,并用Python实现了各种排序算法,放在这里作为参考。

最简单的排序有三种:插入排序,选择排序和冒泡排序。这三种排序比较简单,它们的平均时间复杂度均为O(n^2),在这里对原理就不加赘述了。贴出来源代码。

插入排序:

?


1

2

3

4

5

6

7

8

9

10

11

12

def insertion_sort(sort_list):

  iter_len = len(sort_list)

  if iter_len < 2:

    return sort_list

  for i in range(1, iter_len):

    key = sort_list[i]

    j = i - 1

    while j >= 0 and sort_list[j] > key:

      sort_list[j+1] = sort_list[j]

      j -= 1

    sort_list[j+1] = key

  return sort_list

冒泡排序:

?


1

2

3

4

5

6

7

8

9

def bubble_sort(sort_list):

  iter_len = len(sort_list)

  if iter_len < 2:

    return sort_list

  for i in range(iter_len-1):

    for j in range(iter_len-i-1):

      if sort_list[j] > sort_list[j+1]:

        sort_list[j], sort_list[j+1] = sort_list[j+1], sort_list[j]

  return sort_list

选择排序:

?


1

2

3

4

5

6

7

8

9

10

11

12

13

14

def selection_sort(sort_list):

  iter_len = len(sort_list)

  if iter_len < 2:

    return sort_list

  for i in range(iter_len-1):

    smallest = sort_list[i]

    location = i

    for j in range(i, iter_len):

      if sort_list[j] < smallest:

        smallest = sort_list[j]

        location = j

    if i != location:

      sort_list[i], sort_list[location] = sort_list[location], sort_list[i]

  return sort_list

这里我们可以看到这样的句子:

sort_list[i], sort_list[location] = sort_list[location], sort_list[i]
不了解Python的同学可能会觉得奇怪,没错,这是交换两个数的做法,通常在其他语言中如果要交换a与b的值,常常需要一个中间变量temp,首先把a赋给temp,然后把b赋给a,最后再把temp赋给b。但是在python中你就可以这么写:a,
b = b, a,其实这是因为赋值符号的左右两边都是元组(这里需要强调的是,在python中,元组其实是由逗号“,”来界定的,而不是括号)。

平均时间复杂度为O(nlogn)的算法有:归并排序,堆排序和快速排序。

归并排序。对于一个子序列,分成两份,比较两份的第一个元素,小者弹出,然后重复这个过程。对于待排序列,以中间值分成左右两个序列,然后对于各子序列再递归调用。源代码如下,由于有工具函数,所以写成了callable的类:

?


1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

class merge_sort(object):

  def _merge(self, alist, p, q, r):

    left = alist[p:q+1]

    right = alist[q+1:r+1]

    for i in range(p, r+1):

      if len(left) > 0 and len(right) > 0:

        if left[0] <= right[0]:

          alist[i] = left.pop(0)

        else:

          alist[i] = right.pop(0)

      elif len(right) == 0:

        alist[i] = left.pop(0)

      elif len(left) == 0:

        alist[i] = right.pop(0)

 

  def _merge_sort(self, alist, p, r):

    if p<r:

      q = int((p+r)/2)

      self._merge_sort(alist, p, q)

      self._merge_sort(alist, q+1, r)

      self._merge(alist, p, q, r)

 

  def __call__(self, sort_list):

    self._merge_sort(sort_list, 0, len(sort_list)-1)

    return sort_list

堆排序,是建立在数据结构——堆上的。关于堆的基本概念、以及堆的存储方式这里不作介绍。这里用一个列表来存储堆(和用数组存储类似),对于处在i位置的元素,2i+1位置上的是其左孩子,2i+2是其右孩子,类似得可以得出该元素的父元素。

首先我们写一个函数,对于某个子树,从根节点开始,如果其值小于子节点的值,就交换其值。用此方法来递归其子树。接着,我们对于堆的所有非叶节点,自下而上调用先前所述的函数,得到一个树,对于每个节点(非叶节点),它都大于其子节点。(其实这是建立最大堆的过程)在完成之后,将列表的头元素和尾元素调换顺序,这样列表的最后一位就是最大的数,接着在对列表的0到n-1部分再调用以上建立最大堆的过程。最后得到堆排序完成的列表。以下是源代码:

?


1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

class heap_sort(object):

  def _left(self, i):

    return 2*i+1

  def _right(self, i):

    return 2*i+2

  def _parent(self, i):

    if i%2==1:

      return int(i/2)

    else:

      return i/2-1

 

  def _max_heapify(self, alist, i, heap_size=None):

    length = len(alist)

 

    if heap_size is None:

      heap_size = length

 

    l = self._left(i)

    r = self._right(i)

 

    if l < heap_size and alist[l] > alist[i]:

      largest = l

    else:

      largest = i

    if r < heap_size and alist[r] > alist[largest]:

      largest = r

 

    if largest!=i:

      alist[i], alist[largest] = alist[largest], alist[i]

      self._max_heapify(alist, largest, heap_size)

 

  def _build_max_heap(self, alist):

    roop_end = int(len(alist)/2)

    for i in range(0, roop_end)[::-1]:

      self._max_heapify(alist, i)

 

  def __call__(self, sort_list):

    self._build_max_heap(sort_list)

    heap_size = len(sort_list)

    for i in range(1, len(sort_list))[::-1]:

      sort_list[0], sort_list[i] = sort_list[i], sort_list[0]

      heap_size -= 1

      self._max_heapify(sort_list, 0, heap_size)

 

    return sort_list

最后一种要说明的交换排序算法(以上所有算法都为交换排序,原因是都需要通过两两比较交换顺序)自然就是经典的快速排序。

先来讲解一下原理。首先要用到的是分区工具函数(partition),对于给定的列表(数组),我们首先选择基准元素(这里我选择最后一个元素),通过比较,最后使得该元素的位置,使得这个运行结束的新列表(就地运行)所有在基准元素左边的数都小于基准元素,而右边的数都大于它。然后我们对于待排的列表,用分区函数求得位置,将列表分为左右两个列表(理想情况下),然后对其递归调用分区函数,直到子序列的长度小于等于1。

下面是快速排序的源代码:

?


1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

class quick_sort(object):

  def _partition(self, alist, p, r):

    i = p-1

    x = alist[r]

    for j in range(p, r):

      if alist[j] <= x:

        i += 1

        alist[i], alist[j] = alist[j], alist[i]

    alist[i+1], alist[r] = alist[r], alist[i+1]

    return i+1

 

  def _quicksort(self, alist, p, r):

    if p < r:

      q = self._partition(alist, p, r)

      self._quicksort(alist, p, q-1)

      self._quicksort(alist, q+1, r)

 

  def __call__(self, sort_list):

    self._quicksort(sort_list, 0, len(sort_list)-1)

    return sort_list

细心的朋友在这里可能会发现一个问题,如果待排序列正好是顺序的时候,整个的递归将会达到最大递归深度(序列的长度)。而实际上在操作的时候,当列表长度大于1000(理论值)的时候,程序会中断,报超出最大递归深度的错误(maximum
recursion depth
exceeded)。在查过资料后我们知道,Python在默认情况下,最大递归深度为1000(理论值,其实真实情况下,只有995左右,各个系统这个值的大小也不同)。这个问题有两种解决方案,1)重新设置最大递归深度,采用以下方法设置:

?


1

2

import sys

sys.setrecursionlimit(99999)

2)第二种方法就是采用另外一个版本的分区函数,称为随机化分区函数。由于之前我们的选择都是子序列的最后一个数,因此对于特殊情况的健壮性就差了许多。现在我们随机从子序列选择基准元素,这样可以减少对特殊情况的差错率。新的randomize
partition函数如下:

?


1

2

3

4

def _randomized_partition(self, alist, p, r):

  i = random.randint(p, r)

  alist[i], alist[r] = alist[r], alist[i]

  return self._partition(alist, p, r)

完整的randomize_quick_sort的代码如下(这里我直接继承之前的quick_sort类):

?


1

2

3

4

5

6

7

8

9

10

11

12

import random

class randomized_quick_sort(quick_sort):

  def _randomized_partition(self, alist, p, r):

    i = random.randint(p, r)

    alist[i], alist[r] = alist[r], alist[i]

    return self._partition(alist, p, r)

 

  def _quicksort(self, alist, p, r):

    if p<r:

      q = self._randomized_partition(alist, p, r)

      self._quicksort(alist, p, q-1)

      self._quicksort(alist, q+1, r)

关于快速排序的讨论还没有结束。我们都知道,Python是一门很优雅的语言,而Python写出来的代码是相当简洁而可读性极强的。这里就介绍快排的另一种写法,只需要三行就能够搞定,但是又不失阅读性。(当然,要看懂是需要一定的Python基础的)代码如下:

?


1

2

3

4

5

6

def quick_sort_2(sort_list):

  if len(sort_list)<=1:

    return sort_list

  return quick_sort_2([lt for lt in sort_list[1:] if lt<sort_list[0]]) + \

      sort_list[0:1] + \

      quick_sort_2([ge for ge in sort_list[1:] if ge>=sort_list[0]])

怎么样看懂了吧,这段代码出自《Python cookbook 第二版》,这种写法展示出了列表推导的强大表现力。

对于比较排序算法,我们知道,可以把所有可能出现的情况画成二叉树(决策树模型),对于n个长度的列表,其决策树的高度为h,叶子节点就是这个列表乱序的全部可能性为n!,而我们知道,这个二叉树的叶子节点不会超过2^h,所以有2^h>=n!,取对数,可以知道,h>=logn!,这个是近似于O(nlogn)。也就是说比较排序算法的最好性能就是O(nlgn)。

那有没有线性时间,也就是时间复杂度为O(n)的算法呢?答案是肯定的。不过由于排序在实际应用中算法其实是非常复杂的。这里只是讨论在一些特殊情形下的线性排序算法。特殊情形下的线性排序算法主要有计数排序,桶排序和基数排序。这里只简单说一下计数排序。

计数排序是建立在对待排序列这样的假设下:假设待排序列都是正整数。首先,声明一个新序列list2,序列的长度为待排序列中的最大数。遍历待排序列,对每个数,设其大小为i,list2[i]++,这相当于计数大小为i的数出现的次数。然后,申请一个list,长度等于待排序列的长度(这个是输出序列,由此可以看出计数排序不是就地排序算法),倒序遍历待排序列(倒排的原因是为了保持排序的稳定性,及大小相同的两个数在排完序后位置不会调换),假设当前数大小为i,list[list2[i]-1]
= i,同时list2[i]自减1(这是因为这个大小的数已经输出一个,所以大小要自减)。于是,计数排序的源代码如下。

?


1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

class counting_sort(object):

  def _counting_sort(self, alist, k):

    alist3 = [0 for i in range(k)]

    alist2 = [0 for i in range(len(alist))]

    for j in alist:

      alist3[j] += 1

    for i in range(1, k):

      alist3[i] = alist3[i-1] + alist3[i]

    for l in alist[::-1]:

      alist2[alist3[l]-1] = l

      alist3[l] -= 1

    return alist2

 

  def __call__(self, sort_list, k=None):

    if k is None:

      import heapq

      k = heapq.nlargest(1, sort_list)[0] + 1

    return self._counting_sort(sort_list, k)

各种排序算法介绍完(以上的代码都通过了我写的单元测试),我们再回到Python这个主题上来。其实Python从最早的版本开始,多次更换内置的排序算法。从开始使用C库提供的qsort例程(这个方法有相当多的问题),到后来自己开始实现自己的算法,包括2.3版本以前的抽样排序和折半插入排序的混合体,以及最新的适应性的排序算法,代码也由C语言的800行到1200行,以至于更多。从这些我们可以知道,在实际生产环境中,使用经典的排序算法是不切实际的,它们仅仅能做学习研究之用。而在实践中,更推荐的做法应该遵循以下两点:

当需要排序的时候,尽量设法使用内建Python列表的sort方法。
当需要搜索的时候,尽量设法使用内建的字典。
我写了测试函数,来比较内置的sort方法相比于以上方法的优越性。测试序列长度为5000,每个函数测试3次取平均值,可以得到以下的测试结果:

可以看出,Python内置函数是有很大的优势的。因此在实际应用时,我们应该尽量使用内置的sort方法。

由此,我们引出另外一个问题。怎么样判断一个序列中是否有重复元素,如果有返回True,没有返回False。有人会说,这不很简单么,直接写两个嵌套的迭代,遍历就是了。代码写下来应该是这样。

?


1

2

3

4

5

6

7

def normal_find_same(alist):

  length = len(alist)

  for i in range(length):

    for j in range(i+1, length):

      if alist[i] == alist[j]:

        return True

  return False

这种方法的代价是非常大的(平均时间复杂度是O(n^2),当列表中没有重复元素的时候会达到最坏情况),由之前的经验,我们可以想到,利用内置sort方法极快的经验,我们可以这么做:首先将列表排序,然后遍历一遍,看是否有重复元素。包括完整的测试代码如下:

?


1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

import time

import random

 

def record_time(func, alist):

  start = time.time()

  func(alist)

  end = time.time()

 

  return end - start

 

def quick_find_same(alist):

  alist.sort()

  length = len(alist)

  for i in range(length-1):

    if alist[i] == alist[i+1]:

      return True

  return False

 

if __name__ == "__main__":

  methods = (normal_find_same, quick_find_same)

  alist = range(5000)

  random.shuffle(alist)

 

  for m in methods:

    print ‘The method %s spends %s‘ % (m.__name__, record_time(m, alist))

运行以后我的数据是,对于5000长度,没有重复元素的列表,普通方法需要花费大约1.205秒,而快速查找法花费只有0.003秒。这就是排序在实际应用中的一个例子。

时间: 2024-10-10 01:51:42

Python实现各种排序算法的代码示例总结的相关文章

Python实现八大排序算法

Python实现八大排序算法,具体内容如下 1.插入排序描述 插入排序的基本操作就是将一个数据插入到已经排好序的有序数据中,从而得到一个新的.个数加一的有序数据,算法适用于少量数据的排序,时间复杂度为O(n^2).是稳定的排序方法.插入算法把要排序的数组分成两部分:第一部分包含了这个数组的所有元素,但将最后一个元素除外(让数组多一个空间才有插入的位置),而第二部分就只包含这一个元素(即待插入元素).在第一部分排序完成后,再将这个最后元素插入到已排好序的第一部分中. 代码实现 def insert

排序算法总结---代码+性能

// data_sort_alg.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" #include "sort_alg.h" #include <iostream> #include <vector> void show(std::vector<int> &a) { std::vector<int>::iterator it=a.begin(); while(it!=a.

各种排序算法的代码

1 // ALLKindsOfSorts.cpp : 定义控制台应用程序的入口点. 2 // 3 4 #include "stdafx.h" 5 #include<iostream> 6 #include<vector> 7 #include<bitset> 8 9 using namespace std; 10 11 ////////////////////////////////////////所有的排序总结///////////////////

C言语疾速排序算法及代码

疾速排序是对冒泡法排序的一种改良.疾速排序算法 的根本思惟是:将所要停止排序的数分为阁下两个局部,个中一局部的一切数据都比别的一 局部的数据小,然后将所分得的两局部数据停止异样的划分,反复履行以上的划分操作,直 到一切要停止排序的数据变为有序为止.能够仅依据根本思惟对疾速排序的看法并不深,接下来以对n个无序数列A[0], A[1]-, A[n-1]采取疾速排序办法停止升序陈列为例停止解说.(1)界说两个变量low和high,将low.high辨别设置为要停止排序的序列的肇端元素和最初一个元素的下

十种排序算法总结(代码及说明)

1.冒泡排序 基本思想是:两两比较相邻记录的关键字,如果反序则交换 冒泡排序时间复杂度最好的情况为O(n),最坏的情况是O(n^2) 改进思路1:设置标志位,明显如果有一趟没有发生交换(flag = false),说明排序已经完成 改进思路2:记录一轮下来标记的最后位置,下次从头部遍历到这个位置就Ok. 原冒泡排序代码如下: void swap(int left, int right) { left = left ^ right; right = right ^ left; left = lef

十大排序算法 JAVA代码

冒泡排序 插入排序 选择排序 希尔排序 归并排序 快速排序 堆排序 计数排序 基数排序 桶排序  O是指计算机执行命令所需的时间 nlogn是算法的时间复杂度,一般排序用的是log2n 总体总结表:这个有个错误就是归并排序需要一个o(n)的辅助数组  冒泡排序 主要思想:外层循环从1到n-1,内循环从当前外层的元素的下一个位置开始,依次和外层的元素比较,出现逆序就交换. 特点:stable sort(稳定性排序).In-place sort(不占用额外的空间,只是交换元素) 最优复杂度:当输入数

简单的选择排序算法实现代码

1 #include<stdio.h> 2 #define N 12 3 //length统计数组的长度 返回最后元素的下标 4 int length(int a [N]){ 5 for(int i = 0;i<=N;i++){ 6 if(a[i]==0) return i-1; 7 8 } 9 } 10 //打印输出数组元素 11 void show(int a[N]){ 12 for(int i= 0;i<N;i++){ 13 if(a[i]!=0) printf("

C言语选择排序算法及代码

选择排序是排序算法的一种,这里以从小到大排序为例停止解说. 根本思惟及举例阐明 选择排序(从小到大)的根本思惟是,起首,选出最小的数,放在第一个地位:然后,选出第二小的数,放在第二个地位:以此类推,直到一切的数从小到大排序.在完成上,我们平日是先肯定第i小的数地点的地位,然后,将其与第i个数停止交流.下面,以对 3  2  4  1 停止选择排序阐明排序进程,运用min_index 记载以后最小的数地点的地位.第1轮 排序进程 (寻觅第1小的数地点的地位)3  2  4  1(最后, min_i

C言语拔出排序算法及代码

拔出排序是排序算法的一种,它不改动原有的序列(数组),而是创立一个新的序列,在新序列长进行操作.这里以从小到大排序为例停止解说. 根本思惟及举例阐明 拔出排序的根本思惟是,将元素逐一添加到曾经排序好的数组中去,同时请求,拔出的元素必需在准确的地位,如许本来排序好的数组是依然有序的.在实践运用中,平日是排序全部无序数组,所以把这个无序数组分为两局部排序好的子数组和待拔出的元素.第一轮时,将第一个元素作为排序好的子数组,拔出第二个元素:第二轮,将前两个元素作为排序好的数组,拔出第三个元素.以此类推,