TimSort算法分析

Timsort是一种混合稳定的排序算法,采用归并排序混合插入排序的设计,在多种真实数据上表现良好。

它基于一个简单的事实,实际中大部分数据都是部分有序(升序或降序)的。

它于2002年由Tim Peters在Python编程语言实现。

Timsort排序算法中定义数组中的有序片段为run,每个run都要求单调递增或严格单调递减(保证算法的稳定性),如下图:

文中图片都是我手绘的,字写的难看了点,将就看吧~

Timsort排序算法可以概括成两步:

1. 把待排序数组分成一个个的run(即单调上升的数组), 并且run不能太短, 如果run的长度小于minRun这个阀值, 则使用插入排序进行填充

2. 将上面的一个个run入栈, 当栈顶的run的长度不满足下列约束条件中的任意一个时,则使用归并排序将其中最短的2个run合并成一个新的run,最终栈=1的时候,排序完成。

  ① runLen[n-2] > runLen[n-1] + runLen[n]

  ② runLen[n-1] > runLen[n]

下面用一个例子进行说明,假设minRun=5,也就是说run的最小长度不能小于5,如果小于5则使用插入排序进行填充。每划分出一个run就将其入栈,如下图所示:

注意:此时栈顶的run是不满足约束条件的,因为此时runLen[0] < runLen[1],所以要对这两个run进行归并,这个过程使用的是归并排序。

如果遇到run的长度小于minRun的情况,则需要进行填充,直到run的长度=minRun或者数组结束为止,如下图:

至此排序完成~~~有的同学可能会有疑问,为什么要有那个奇怪的约束条件呢?每次入栈的时候直接进行归并不行吗?这主要是考虑到归并排序的效率问题,

因为将一个长序列和一个短序列进行归并排序从效率和代价的角度来看是不划算的,而两个长度均衡的序列进行归并排序时才是比较合理的也比较高效的。

这里只是简单的阐述了一下TimSort的思想原理,具体实现还是有很多细节需要考虑的,下一篇文章会分析JDK1.8中TimSort的代码实现~

最后来一张归并排序的动态图片:

时间: 2024-10-07 15:24:41

TimSort算法分析的相关文章

算法分析的正确姿势

[本系列博文会对常见的数据结构及相应算法进行分析与总结,并会在每篇博文中提供几道相关的一线互联网企业面试/笔试题来巩固所学及帮助我们查漏补缺.项目地址:https://github.com/absfree/Algo.由于个人水平有限,叙述中难免存在不清晰准确的地方,希望大家可以指正,谢谢大家:)] 一.前言 在进一步学习数据结构与算法前,我们应该先掌握算法分析的一般方法.算法分析主要包括对算法的时空复杂度进行分析,但有些时候我们更关心算法的实际运行性能如何,此外,算法可视化是一项帮助我们理解算法

算法分析与设计复习

算法分析与设计复习 2016年初,研一上学期期末考试前,复习并总结算法分析与设计科目的内容.复习过程参照<算法导论>中文第2版,同时参照PPT,章节划分根据PPT内容 概要: 第一章 概述 第二章 插入排序&分治策略 第三章 复杂度分析 第四章 堆与堆排序 第五章 快速排序 第六章 线性时间排序 第一章 概述 算法的应用范围 算法在诸如生物等诸多领域有其应用 算法的意义 算法在很多情况下让不可能完成的事情变成了可能,让处理的很慢的过程变快. 一个铺垫 一串不全为0的数,怎么取能拿到一段

拓扑排序之变量序列算法分析

拓扑排序之变量序列 巧若拙(欢迎转载,但请注明出处:http://blog.csdn.net/qiaoruozhuo) 题目描述: 假设有n个变量(1<=n<=26,变量名用单个小写字母表示),还有m个二元组(u,v),分别表示变量u小于v.那么,所有变量从小到大排列起来应该是什么样子的呢? 例如有4个变量a,b,c,d,若以知a<b,c<b,d<c,则这4个变量的排序可能是a<d<c<b.尽管还有可能其他的可能,你只需找出其中的一个即可. 输入: 输入为一

某某水表-M1卡数据算法分析

# 某某水表-M1卡数据算法分析 ## 卡片数据-----------------------------扇区数据 | 金额:--- |:---13EC 0000 0000 0000 0000 0000 03EB BD1B | 51.0013E7 0000 0000 0000 0000 0000 03F0 AD2B | 50.9513E2 0000 0000 0000 0000 0000 03F5 AD2B | 50.8513DD 0000 0000 0000 0000 0000 03FA 9D

算法分析

算法就是一系列解决问题的指令,对于给定的输入,能够在有限时间内获得预期的输出.一个好的算法和一篇好的文章一样,都是不断努力,反复修正的结果.算法分析主要从运行时间和存储空间两方面讨论算法的效率.相信有些人会有跟我一样的感觉,对于一些算法,有时我们一眼就能看出它的时间复杂度,但就是无法比较规范的表达出来.本文就系统的整理一下如何规范推导算法的时间和空间复杂度. 算法分析的一个依据是,输入规模(又称问题规模,记为 n),根据直觉,程序的运行时间随着问题规模的增大而变长.那么怎么衡量程序的运行时间呢?

[MD5变形算法练习] AutoRun Design Specialty算法分析

[破文标题][MD5变形算法练习] AutoRun Design Specialty算法分析[破文作者]静心学习[作者邮箱][email protected][作者主页]http://www.cnblogs.com/dacainiao/[破解工具]OD, DEDE, IDA[破解平台]xp sp3[软件名称]AutoRun Design Specialty[软件大小]6.98MB[原版下载]http://www.alleysoft.com/autorundesignspecialty/ARDSS

数据结构与算法分析绪论

数据结构+算法=程序 逻辑结构:集合.线性.树.图 物理结构:顺序.链式 算法分析: (渐进)时间复杂度: 基本语句的执行次数(基本语句:执行次数与整个算法执行次数成正比的语句,通常是最内层循环的循环体) 非递归:找执行次数最大的基本语句放入大O: 递归:(迭代法)可迭代的展开方程的右边,直到没有可以迭代的项为止,这时通过对右边的和进行估算来估计方程的解http://www.cnblogs.com/python27/archive/2011/12/09/2282486.html 最好情况.最坏情

数据结构1:数据结构和算法分析

问题引出 假设有一道题目:有一组N个数而要确定其中第k个最大者,我们称之为选择问题,那么这个程序如何编写?最直观地,至少有两种思路: 1.将N个数读入一个数组中,再通过某种简单的算法,比如冒泡排序法,以递减顺序将数组排序,则第k个位置上的元素就是我们需要的元素 2.稍微好一些的做法,将k个元素读入数组并以递减顺序排序,接着将接下来的元素再逐个读入,当新元素被读到时,如果它小于数组中的第k个元素则忽略之,否则将其放到数组中正确的位置上,同时将数组中的一个元素挤出数组,当算法终止时,位于第k个位置上

数据结构与算法:算法分析

目录 实验研究 常用函数 渐近分析  一.实验研究(Experimental studies) 1.运行时间测量 时钟时间 time.time() CPU时间 time.clock() 基准时间 timeit.timeit() 在执行算法的时候,我们可以通过改变输入规模的大小和记录花费的时间来研究运行时间. 在python中使用time模块的time函数来记录算法的运行时间: from time import time start_time=time() run algorithm end_ti