php底层HashTable的实现

本文转载自:  http://segmentfault.com/blog/tree/1190000000718519

HashTable对PHP来说是一种非常重要的数据结构。很多PHP的内部实现(变量的作用域,函数表,类的属性、方法,数组)就是通过HashTable来实现的。最近了解了一下PHP底层HashTable的实现。

PHP底层HashTable的实现有两个非常重要的结构分别是:HashTable和Bucket。

先说一下HashTable结构:

HashTable的底层实现代码如下:

typedef struct _hashtable{

uint nTableSize;         // hash Bucket的大小,最小为8

uint nTableMask;         //nTableSize - 1, 索引取值的优化

uint nNumofElements      // bucket 里面存的总数

ulong nNextFreeElement   //下一个数字索引的位置

Bucket *pInternalPointer  //当前遍历的指针(foreach比较快的原因)

Bucket *pListHead         //整个hashtable的头指针

Bucket *pListTail         //整个hashTable的尾指针

Bucket **argBuckets       // Buceket 数组,用来存储数据

doctor_func_t pDestructor //删除元素时的回调函数,用于资源的释放

zend_bool persistent      //Bucket的内存分配方式,true使用系统的分配函数,false 使用php的内存分配函数

unsigned char nApplyCount //标记当前hash bucket 被递归的次数

zend_bool bApplyProtection

#if ZEND_DEBUG

int inconsistent

#endif

}HashTable

建议不太了解hash数据结构的同学先简单了解一下hash结构。

简单说一下php中hashtable的初始化操作:

代码如下:

ZEND_API int _zend_hash_init(HashTable *ht, uint nSize, hash_func_t pHashFunction, dtor_func_t pDestructor, zend_bool persistent ZEND_FILE_LINE_DC)

{

uint i = 3;

//...

if (nSize >= 0x80000000) {

/* prevent overflow */

ht->nTableSize = 0x80000000;

} else {

while ((1U << i) < nSize) {

i++;

}

ht->nTableSize = 1 << i;

}

// ...

ht->nTableMask = ht->nTableSize - 1;

/* Uses ecalloc() so that Bucket* == NULL */

if (persistent) {

tmp = (Bucket **) calloc(ht->nTableSize, sizeof(Bucket *));

if (!tmp) {

return FAILURE;

}

ht->arBuckets = tmp;

} else {

tmp = (Bucket **) ecalloc_rel(ht->nTableSize, sizeof(Bucket *));

if (tmp) {

ht->arBuckets = tmp;

}

}

return SUCCESS;

}

最开始判断需要初始化的hashtable大小是不是超过了系统能使用的最大大小。下面是对tablesize大小的一个处理。将用户自定义的大小改成需要的大小。例如:如果用户定义的hashtable大小是6,那初始化时,就会将6变成8,如果用户定义的大小为11,那初始化后的Hashtable的大小为16.

下面就是一个简单的判断,来决定是按照C语言本身的分配内存函数来分配内存,还是根据php封装好的内存分配函数来分配内存。

再谈一下 bucket的结构

typedef struct bucket{

ulong h;       //对key索引以后的值,数字key不做kash

uint nKeyLength; //key的长度

void *pData;

void *pDataPtr;   //指针数据,指向真实数据

struct bucket * pListNext; //整个hash表的下个元素

struct bucket *pListLast;   //整个hash表的上个元素

struct bucket *pNext;       //本bucket里面,下一个元素

struct bucket *pLast;       //本bucket里面的上一个元素

char arKey[1];

}Bucket

这里用一张网络上的很火的图来说明(图原地址没找到,没有做来源说明):

下面是引用了tipi里面的插入说明:

引用地址:tipi

如图中左下角的假设,假设依次插入了Bucket1,Bucket2,Bucket3三个元素:

1、插入Bucket1时,哈希表为空,经过哈希后定位到索引为1的槽位。此时的1槽位只有一个元素Bucket1。 其中Bucket1的pData或者pDataPtr指向的是Bucket1所存储的数据。此时由于没有链接关系。pNext, pLast,pListNext,pListLast指针均为空。同时在HashTable结构体中也保存了整个哈希表的第一个元素指针, 和最后一个元素指针,此时HashTable的pListHead和pListTail指针均指向Bucket1。

2、插入Bucket2时,由于Bucket2的key和Bucket1的key出现冲突,此时将Bucket2放在双链表的前面。 由于Bucket2后插入并置于链表的前端,此时Bucket2.pNext指向Bucket1,由于Bucket2后插入。 Bucket1.pListNext指向Bucket2,这时Bucket2就是哈希表的最后一个元素,这是HashTable.pListTail指向Bucket2。\3、插入Bucket3,该key没有哈希到槽位1,这时Bucket2.pListNext指向Bucket3,因为Bucket3后插入。 同时HashTable.pListTail改为指向Bucket3。

简单来说就是哈希表的Bucket结构维护了哈希表中插入元素的先后顺序,哈希表结构维护了整个哈希表的头和尾。 在操作哈希表的过程中始终保持预算之间的关系。

时间: 2024-12-06 17:26:41

php底层HashTable的实现的相关文章

vector ,hashtable ,hashset 和 hashtable

说明:下文中的所谓的优缺点只不过算作一个分隔符,其实只有使用场景的不同,没有孰优孰劣. vector: [实现]vector的底层就是一个数组,所以其才能有O(1)的查找效率.只不过它是变长的,容量到达end_of_storage时便另寻空间自动扩容一倍,并将原来的数据都拷贝到新空间,之后将原来空间销毁.由于其数组的特性,决定了vector的频繁插入和删除的效率比较低. [优点]查找效率高. [缺点]除了查找,其他的效率都不特别高. [其他]1,在优点和缺点这方面,list和queue简直是和v

【转载】网络攻击技术(三)——Denial Of Service &amp; 哈希相关 &amp; PHP语言 &amp; Java语言

找到了这个系列的原始作者: http://www.cnblogs.com/rush/archive/2012/02/05/2339037.html 最近网络安全成了一个焦点,除了国内明文密码的安全事件,还有一件事是影响比较大的--Hash Collision DoS(通过Hash碰撞进行的拒绝式服务攻击),有恶意的人会通过这个安全漏洞让你的服务器运行巨慢无比,那他们是通过什么手段让服务器巨慢无比呢?我们如何防范DoS攻击呢?本文将给出详细的介绍. 这一篇跟Hash关系比较密切. 首先,发生哈希冲

24-哈希碰撞攻击是什么?

24-哈希碰撞攻击是什么? 最近哈希表碰撞攻击(Hashtable collisions as DOS attack)的话题不断被提起,各种语言纷纷中招.本文结合PHP内核源码,聊一聊这种攻击的原理及实现. 哈希表碰撞攻击的基本原理 哈希表是一种查找效率极高的数据结构,很多语言都在内部实现了哈希表.PHP中的哈希表是一种极为重要的数据结构,不但用于表示Array数据类型,还在Zend虚拟机内部用于存储上下文环境信息(执行上下文的变量及函数均使用哈希表结构存储). 理想情况下哈希表插入和查找操作的

关联容器(底层机制) — hashtable

C++ 11已将哈希表纳入了标准之列.hashtable是hash_set.hash_map.hash_multiset.hash_multimap的底层机制,即这四种容器中都包含一个hashtable. 解决碰撞问题的办法有许多,线性探测.二次探测.开链等等.SGI STL的hashtable采用的开链方法,每个hash table中的元素用vector承载,每个元素称为桶(bucket),一个桶指向一个存储了实际元素的链表(list),链表节点(node)结构如下: template <cl

HashMap底层实现原理/HashMap与HashTable区别/HashMap与HashSet区别

Hash算法 Hash,一般翻译做"散列",也有直接音译为"哈希"的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值.这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,而不可能从散列值来唯一的确定输入值.简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数. HASH主要用于信息安全领域中加密算法,它把一些不同长度的信息转化成杂乱的128

HashMap底层实现原理以及HashMap与HashTable区别以及HashMap与HashSet区别

①HashMap的工作原理 HashMap基于hashing原理,我们通过put()和get()方法储存和获取对象.当我们将键值对传递给put()方法时,它调用键对象的hashCode()方法来计算hashcode,让后找到bucket位置来储存值对象.当获取对象时,通过键对象的equals()方法找到正确的键值对,然后返回值对象.HashMap使用链表来解决碰撞问题,当发生碰撞了,对象将会储存在链表的下一个节点中. HashMap在每个链表节点中储存键值对对象. 当两个不同的键对象的hashc

golang: 常用数据类型底层结构分析

虽然golang是用C实现的,并且被称为下一代的C语言,但是golang跟C的差别还是很大的.它定义了一套很丰富的数据类型及数据结构,这些类型和结构或者是直接映射为C的数据类型,或者是用C struct来实现.了解golang的数据类型和数据结构的底层实现,将有助于我们更好的理解golang并写出质量更好的代码. 基础类型 源码在:$GOROOT/src/pkg/runtime/runtime.h .我们先来看下基础类型: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1

HashTable vs HashMap(三)

HashTable的应用非常广泛,HashMap是新框架中用来代替HashTable的类,也就是说建议使用HashMap,不要使用HashTable. 可能你觉得HashTable很好用,为什么不用呢?这里简单分析他们的区别. 1.HashTable的方法是同步的,HashMap未经同步,所以在多线程场合要手动同步HashMap这个区别就像Vector和ArrayList一样. 2.HashTable不允许null值(key和value都不可以),HashMap允许null值(key和value

hashMap,hashTable,hashSet,TreeMap的区别

[hashMap:](键值对,不同步,无序) 存放的是key-value的值,采用put方法:可以存相同的对象.是map的子类: 并允许使用 null 值和 null 键(除了非同步和允许使用 null 之外,HashMap 类与 Hashtable 大致相同.) 此类不保证映射的顺序,特别是它不保证该顺序恒久不变. 是无序的. 注意,此实现不是同步的. [hashTable:](对象,同步,无序) 为了成功地在哈希表中存储和获取对象,用作键的对象必须实现 hashCode 方法和 equals