set的常见问题(转)
(1)为何map和set的插入删除效率比用其他序列容器高?
大部分人说,很简单,因为对于关联容器来说,不需要做内存拷贝和内存移动。说对了,确实如此。set容器内所有元素都是以节点的方式来存储,其节点结构和链表差不多,指向父节点和子节点。结构图可能如下:
A
/ \
B C
/ \ / \
D E F G
因此插入的时候只需要稍做变换,把节点的指针指向新的节点就可以了。删除的时候类似,稍做变换后把指向删除节点的指针指向其他节点也OK了。这里的一切操作就是指针换来换去,和内存移动没有关系。
(2)为何每次insert之后,以前保存的iterator不会失效?
iterator这里就相当于指向节点的指针,内存没有变,指向内存的指针怎么会失效呢(当
然被删除的那个元素本身已经失效了)。相对于vector来说,每一次删除和插入,指针都有可能失效,调用push_back在尾部插入也是如此。因为为
了保证内部数据的连续存放,iterator指向的那块内存在删除和插入过程中可能已经被其他内存覆盖或者内存已经被释放了。即使时push_back的
时候,容器内部空间可能不够,需要一块新的更大的内存,只有把以前的内存释放,申请新的更大的内存,复制已有的数据元素到新的内存,最后把需要插入的元素
放到最后,那么以前的内存指针自然就不可用了。特别时在和find等算法在一起使用的时候,牢记这个原则:不要使用过期的iterator。
(3)当数据元素增多时,set的插入和搜索速度变化如何?
如果你知道log2的关系你应该就彻底了解这个答案。在set中查找是使用二分查找,也就是
说,如果有16个元素,最多需要比较4次就能找到结果,有32个元素,最多比较5次。那么有10000个呢?最多比较的次数为log10000,最多为
14次,如果是20000个元素呢?最多不过15次。看见了吧,当数据量增大一倍的时候,搜索次数只不过多了1次,多了1/14的搜索时间而已。你明白这
个道理后,就可以安心往里面放入元素了。
1 [email protected]:~/test/nbdriver 2 #include<vector> 3 #include<set> 4 #include<stdio.h> 5 #include<sys/time.h> 6 7 const int max_num = 10000; 8 9 int main(int argc, char** argv){ 10 std::vector<int> vec; 11 std::set<int> se; 12 struct timeval begin; 13 struct timeval end; 14 gettimeofday(&begin, NULL); 15 for(int i=0;i<max_num;i++) 16 vec.push_back(i); 17 gettimeofday(&end, NULL); 18 long time_vec=end.tv_usec - begin.tv_usec; 19 gettimeofday(&begin, NULL); 20 for(int i=0;i<max_num;i++) 21 se.insert(i); 22 gettimeofday(&end, NULL); 23 long time_set=end.tv_usec - begin.tv_usec; 24 printf("vec: %ld\n", time_vec); 25 printf("set: %ld\n", time_set); 26 // 删除批量数据 27 gettimeofday(&begin, NULL); 28 vec.erase(vec.begin(),vec.begin()+500); 29 gettimeofday(&end, NULL); 30 time_vec=end.tv_usec - begin.tv_usec; 31 std::set<int>::iterator it; 32 int i=0; 33 for(it=se.begin();i<500;i++,it++) 34 35 gettimeofday(&begin, NULL); 36 se.erase(se.begin(),it); 37 gettimeofday(&end, NULL); 38 time_set=end.tv_usec - begin.tv_usec; 39 printf("vec erase much :%d\n", time_vec); 40 printf("sec erase much :%d\n", time_set); 41 //删除一个数据 42 gettimeofday(&begin, NULL); 43 vec.erase(vec.begin()); 44 gettimeofday(&end, NULL); 45 time_vec=end.tv_usec - begin.tv_usec; 46 gettimeofday(&begin, NULL); 47 se.erase(se.begin()); 48 gettimeofday(&end, NULL); 49 time_set=end.tv_usec - begin.tv_usec; 50 printf("vec erase single:%d\n", time_vec); 51 printf("sec erase single:%d\n", time_set); 52 53 return 0; 54 }
运行结果:
max_num=10000
vec: 230
set: 6627
vec erase much :4
sec erase much :36
vec erase single:10
sec erase single:0
max_num=999999
vec: 17957
set: 38627
vec erase much :545
sec erase much :41
vec erase single:1058
sec erase single:0
当插入的数据是随机数时,不是顺序产生的序列时
max_num=9999999
vec: 150897
set: 153710
可以看到,两者插入时间几乎一致