CRC32算法冲突概率测试和分析

最近因为某个业务需要用到CRC32算法，但业务又不能容忍重复的数值出现，于是自然就想了解一下CRC32算法的冲突概率（或者叫碰撞概率）。

本以为这种问题应该很多人分析过，结果找来找去就只看到一大堆数学公式，我这种数学盲完全看不懂。

好不容易找到一张图，但看得云里雾里（原图链接：http://preshing.com/20110504/hash-collision-probabilities/ ）：

既然网上的不靠谱，那就自己来验证吧，写个php脚本很简单，我的第1次验证模型是这样的：

取1个整型值作为初始值，然后递增1000W次，每次计算crc32的值，输出到文件，再使用sort crc32.result | uniq -c -d > crc32-collision.txt 来输出冲突的结果

结果出来，我大吃一惊：1000W没有1个冲突！大大出乎意料，于是尝试2000W，还是没有冲突！！于是尝试 1亿，这回有冲突了，冲突数大约是240W个！！

虽然我没有看懂crc32算法的原理，但隐约觉得这个冲突率不符合实际，于是继续寻找，终于功夫不负有心人，找到一个详细和完整的测试报告（http://www.backplane.com/matt/crc64.html）：

CRC16 - CRC64 test results on 18.2M dataset

这个测试报告非常详细，基本上解决了我们的疑问，从这个报告可以看到，1820W数据，冲突数量是38638个，这个比较符合我的理解和预期。

但问题还是没有解决：为什么我的测试结果那么好？

由于CRC32算法是通用的，因此也就不存在不同语言实现机制不同的问题，于是我把目光转向了测试模型，问题果然在这里。

我的测试模型：crc32(i++)，这个计算模型输入进去的原值只是某个范围内连续的数据，并不是完全随机的.

于是我稍微修改一下：crc32(md5(i++))，这样就保证输入的原值是完全随机的。

重新测试，结果出来了，和上面那个完整测试报告的结果完全一样！！

归纳总结一下：

1）CRC32在完全随机的输入情况下，冲突概率还是比较高的，特别是到了1亿的数据量后，冲突概率会更高

2）CRC32在输入某个连续段的数据情况下，冲突概率反而很低，这是因为两个冲突的原值理论上应该是相隔很远，只输入某段数据的情况下，这个段里面冲突的原值会很少

时间： 2024-11-07 16:31:43

CRC32算法冲突概率测试和分析的相关文章

细菌觅食优化算法：理论基础，分析，以及应用(未完)

原作者:Swagatam Das,Arijit Biswas,Sambarta Dasgupta,和Ajith Abraham [摘要]细菌觅食优化算法(Bacterial foraging optimization algorithm[BFOA])已经被分布式优化和控制的同行们当作一种全局性的优化算法接受.BFOA是由大肠杆菌的群体觅食行为所启发而总结出来的.BFOA已经吸引了足够多的研究者的注意,由于它出现在解决真实世界中一些应用领域上优化问题的高效性.E.coli 的群体策略的生物基

[CRC32算法练习] CRC32CrackMe算法分析

[破文标题][CRC32算法练习] CRC32CrackMe算法分析[破文作者]静心学习[作者邮箱][email protected][作者主页]http://www.cnblogs.com/dacainiao/[破解工具]OD, DEDE, IDA[破解平台]xp sp3[软件名称]CRC32CrackMe[软件大小]40KB[原版下载]http://bbs.pediy.com/attachment.php?attachmentid=6579&d=1183561716[保护方式]无壳[软件简介

MATLAB智能算法30个案例分析

<matlab智能算法30个案例分析>采用案例形式,以智能算法为主线,讲解了遗传算法.免疫算法.退火算法.粒子群算法.鱼群算法.蚁群算法和神经网络算法等最常用的智能算法的matlab实现.本书共给出30个案例,每个案例都是一个使用智能算法解决问题的具体实例,所有案例均由理论讲解.案例背景.matlab程序实现和扩展阅读四个部分组成,并配有完整的原创程序,使读者在掌握算法的同时更能快速提高使用算法求解实际问题的能力.本书可作为本科毕业设计.研究生项目设计.博士低年级课题设计参考书籍,同时对广大科

比较排序算法及复杂度分析

比较排序算法分类比较排序(Comparison Sort)通过对数组中的元素进行比较来实现排序. 比较排序算法(Comparison Sorts) Category Name Best Average Worst Memory Stability 插入排序 (Insertion Sorts) 插入排序 (Insertion Sort) n n2 n2 1 Stable 希尔排序 (Shell Sort) n n log2 n n log2 n 1 Not Stable 交换排序 (Exc

SURF算法与源码分析、下

上一篇文章 SURF算法与源码分析.上中主要分析的是SURF特征点定位的算法原理与相关OpenCV中的源码分析,这篇文章接着上篇文章对已经定位到的SURF特征点进行特征描述.这一步至关重要,这是SURF特征点匹配的基础.总体来说算法思路和SIFT相似,只是每一步都做了不同程度的近似与简化,提高了效率. 1. SURF特征点方向分配为了保证特征矢量具有旋转不变性,与SIFT特征一样,需要对每个特征点分配一个主方向.为些,我们需要以特征点为中心,以$6s$($s = 1.2 *L /9$为特征点

从软件project的角度写机器学习3——主要监督学习算法的project性分析

主要机器学习算法的project适用性分析前段时间AlphaGo跟李世石的大战及相关的深度学习的新闻刷了一遍又一遍的朋友圈.只是这件事情,也仅仅是在机器学习的深度上进一步拓展,而机器学习的广度(也即project化实践)上,仍然没有什么突破性的理论或实践,用的领域继续用,不用的领域依旧不用. project性分析的作用 project上的琐事机器学习的使命是使计算机强大的运算能力和存储能力转化为推演能力.能转化是一方面.转化的效率则是还有一方面.科研性质的AlphaGo,拥有近乎无限的计算资

CRC32算法笔记

这几天在研究CRC32的计算过程,看了CRC算法的原理,也看了不少通过移位法实现的代码,但是算出的结果跟校验工具算的不一致. 折腾了好长时间,终于找到一个手工计算CRC32的文章,再对照IEEE 802.3标准的CRC计算过程,才算把CRC32的计算搞定. 这里把计算过程的要点记录一下: 1) CRC32是CRC算法一种,先参考Wiki上CRC算法的原理和实例搞明白基本的计算方法. 2) 最常见的CRC32算法就是IEEE 802.3里生成FCS字段用的那个: a) CRC32使用的Polyno

加州大学用机器学习北京赛车(PK10)源码出售算法来预测和分析梦境

[导读]梦是神秘的一种主体经验,是哲学.宗教.心理学等最感兴趣的话题北京赛车(PK10)源码出售 QQ2952777280[话仙源码论坛]hxforum.com[木瓜源码论坛]papayabbs.com,也产生了许多有关的科学猜想.但人类从未真正理解梦的内容.机制和作用.我们能不能设计一种机器学习算法来预测和分析我们的梦境呢?答案是肯定的.在AI的帮助下,理解.预测和控制梦境的技术上已经取得了进展. 你有没有做过令人不安的梦,梦见高中时认识的某个人?或者做过以某种特殊的方式预知未来的梦,比如预

实现 | 朴素贝叶斯模型算法研究与实例分析

实现 | 朴素贝叶斯模型算法研究与实例分析(白宁超2018年9月4日09:03:21) 导读:朴素贝叶斯模型是机器学习常用的模型算法之一,其在文本分类方面简单易行,且取得不错的分类效果.所以很受欢迎,对于朴素贝叶斯的学习,本文首先介绍理论知识即朴素贝叶斯相关概念和公式推导,为了加深理解,采用一个维基百科上面性别分类例子进行形式化描述.然后通过编程实现朴素贝叶斯分类算法,并在屏蔽社区言论.垃圾邮件.个人广告中获取区域倾向等几个方面进行应用,包括创建数据集.数据预处理.词集模型和词袋模型.朴素贝叶斯