STL系列之六 set与hash set

STL系列之六 set与hash_set

set和hash_set是STL中比较重要的容器,有必要对其进行深入了解。在STL中,set是以红黑树(RB-tree)作为底层数据结构的,hash_set是以Hash table(哈希表)作为底层数据结构的。set可以在时间复杂度为O(logN)情况下插入、删除和查找数据。hash_set操作的时间复杂度则比较复杂,这取决于哈希函数和哈希表的负载情况。下面列出set和hash_set的常用函数:

set和hase_set的更多函数请查阅MSDN

set的使用范例如下(hash_set类似):

// by MoreWindows( http://blog.csdn.net/MoreWindows )
#include <set>
#include <ctime>
#include <cstdio>
using namespace std;

int main()
{
	printf("--set使用 by MoreWindows( http://blog.csdn.net/MoreWindows ) --\n\n");
	const int MAXN = 15;
	int a[MAXN];
	int i;
	srand(time(NULL));
	for (i = 0; i < MAXN; ++i)
		a[i] = rand() % (MAXN * 2);

	set<int> iset;
	set<int>::iterator pos; 

	//插入数据 insert()有三种重载
	iset.insert(a, a + MAXN);

	//当前集合中个数 最大容纳数据量
	printf("当前集合中个数: %d     最大容纳数据量: %d\n", iset.size(), iset.max_size());

	//依次输出
	printf("依次输出集合中所有元素-------\n");
	for (pos = iset.begin(); pos != iset.end(); ++pos)
		printf("%d ", *pos);
	putchar(‘\n‘);

	//查找
	int findNum = MAXN;
	printf("查找 %d是否存在-----------------------\n", findNum);
	pos = iset.find(findNum);
	if (pos != iset.end())
		printf("%d 存在\n", findNum);
	else
		printf("%d 不存在\n", findNum);

	//在最后位置插入数据,如果给定的位置不正确,会重新找个正确的位置并返回该位置
	pos  = iset.insert(--iset.end(), MAXN * 2);
	printf("已经插入%d\n", *pos);

	//删除
	iset.erase(MAXN);
	printf("已经删除%d\n", MAXN);

	//依次输出
	printf("依次输出集合中所有元素-------\n");
	for (pos = iset.begin(); pos != iset.end(); ++pos)
		printf("%d ", *pos);
	putchar(‘\n‘);
	return 0;
}

运行结果如下:

下面试下在set中使用类(结构体也可以类似这样做)。这个类很简单,只有一个成员变量,及设置和获取这个成员变量的成员函数。

//在set中使用类要重载‘<’并实现拷贝构造函数
// by MoreWindows( http://blog.csdn.net/MoreWindows )
#include <set>
#include <ctime>
#include <cstdio>
using namespace std;
class Node
{
public:
	Node(int nAge = 0)
	{
		m_nAge = nAge;
	}
	Node(const Node &na)  //拷贝构造函数
	{
		m_nAge = na.GetAge();
	}
	int GetAge()
	{
		return m_nAge;
	}
private:
	int m_nAge;
};
//不能写成类的成员函数
inline bool operator < (const Node &na, const Node &nb)
{
	return na.GetAge() < nb.GetAge();
}
int main()
{
	int i;
	set<Node> nset;
	for (i = 0; i < MAXN; ++i)
		nset.insert(Node(i));
	return 0;
}

编译,直接报了3个错误!!1个在拷贝构造函数,2个在operator<()函数。如下图所示:

3个错误都是一样的:

error C2662: “Node::GetAge”: 不能将“this”指针从“const Node”转换为“Node &” 转换丢失限定符

这是怎么回事呀?分析下,拷贝构造函数与operator<()函数出错,错误都指向了GetAge()函数,有点古怪,比较下它们与GetAge()函数,可以发现最大的不同点在于这2个函数都用到了const而GetAge()函数没有使用const。难道是这个导致报错了吗?先给GetAge()函数加个const看看,如下:

int GetAge()  const //增加这个const

{

returnm_nAge;

}

再编译,不报错了。再查下资料,原因如下——因为那2个函数都使用了const修饰的对象,但GetAge()没有加上const以保证它不修改对象,编译器认为这种写法是不安全的,所以就毫不犹豫报了个错误。

这种错误如果不亲身体会下,到笔试面试时很可能写了个错误程序而自己还处于一无所知中(死在这些小细节上最不值得)。另外,如果使用VC6.0则不会提示详细的错误信息——“转换丢失限定符”。

STL还为set提供了一些集合运算的函数,如交集set_intersection()、并集set_union()、差集set_difference()和对称差集set_symmetric_difference()。这些就不详细介绍了,有兴趣可以自己动手试一试。

下面开始对set和hash_set作个性能测试(Win7 +VS2008Release下)。

测试代码如下:

// by MoreWindows( http://blog.csdn.net/MoreWindows )
#include <set>
#include <hash_set>
#include <iostream>
#include <ctime>
#include <cstdio>
#include <cstdlib>
using namespace std;
using namespace stdext;  //hash_set

// MAXN个数据 MAXQUERY次查询
const int MAXN = 10000, MAXQUERY = 5000000;
int a[MAXN], query[MAXQUERY];

void PrintfContainertElapseTime(char *pszContainerName, char *pszOperator, long lElapsetime)
{
	printf("%s 的%s操作 用时 %d毫秒\n", pszContainerName, pszOperator, lElapsetime);
}

int main()
{
	printf("set VS hash_set 性能测试 数据容量 %d个 查询次数 %d次\n", MAXN, MAXQUERY);
	const int MAXNUM = MAXN * 4;
	const int MAXQUERYNUM = MAXN * 4;
	printf("容器中数据范围 [0, %d) 查询数据范围[0, %d)\n", MAXNUM, MAXQUERYNUM);
	printf("--by MoreWindows( http://blog.csdn.net/MoreWindows ) --\n\n");

	//随机生成在[0, MAXNUM)范围内的MAXN个数
	int i;
	srand(time(NULL));
	for (i = 0; i < MAXN; ++i)
		a[i] = (rand() * rand()) % MAXNUM;
	//随机生成在[0, MAXQUERYNUM)范围内的MAXQUERY个数
	srand(time(NULL));
	for (i = 0; i < MAXQUERY; ++i)
		query[i] = (rand() * rand()) % MAXQUERYNUM;

	set<int>       nset;
	hash_set<int> nhashset;
	clock_t  clockBegin, clockEnd;

	//insert
	printf("-----插入数据-----------\n");

	clockBegin = clock();
	nset.insert(a, a + MAXN);
	clockEnd = clock();
	printf("set中有数据%d个\n", nset.size());
	PrintfContainertElapseTime("set", "insert", clockEnd - clockBegin);

	clockBegin = clock();
	nhashset.insert(a, a + MAXN);
	clockEnd = clock();
	printf("hash_set中有数据%d个\n", nhashset.size());
	PrintfContainertElapseTime("hase_set", "insert", clockEnd - clockBegin);

	//find
	printf("-----查询数据-----------\n");

	int nFindSucceedCount, nFindFailedCount;
	nFindSucceedCount = nFindFailedCount = 0;
	clockBegin = clock();
	for (i = 0; i < MAXQUERY; ++i)
		if (nset.find(query[i]) != nset.end())
			++nFindSucceedCount;
		else
			++nFindFailedCount;
	clockEnd = clock();
	PrintfContainertElapseTime("set", "find", clockEnd - clockBegin);
	printf("查询成功次数: %d    查询失败次数: %d\n", nFindSucceedCount, nFindFailedCount);

	nFindSucceedCount = nFindFailedCount = 0;
	clockBegin = clock();
	for (i = 0; i < MAXQUERY; ++i)
		if (nhashset.find(query[i]) != nhashset.end())
			++nFindSucceedCount;
		else
			++nFindFailedCount;
	clockEnd = clock();
	PrintfContainertElapseTime("hash_set", "find", clockEnd - clockBegin);
	printf("查询成功次数: %d    查询失败次数: %d\n", nFindSucceedCount, nFindFailedCount);
	return 0;
}

在数据容量100万,查询次数500万时,程序运行结果如下:

由于查询的失败次数太多,这次将查询范围变小使用再测试下:

由于结点过多,80多万个结点,set的红黑树树高约为19(2^19=524288,2^20=1048576),查询起来还是比较费时的。hash_set在时间性能上比set要好一些,并且如果查询成功的几率比较大的话,hash_set会有更好的表现。想知道为什么hash_set会有优良的性能表现,请看继集——《STL系列之九 探索hash_set》。

注1.   MSDN上讲set的erase()是有返回值的,但在VS2008中查看set的源代码,erase()函数的三个重载版本中,有二个返回值都为void即无返回值,另一个返回size_type。 可以通过http://msdn.microsoft.com/zh-cn/library/8h4a3515(v=VS.90).aspx查看MSDN上对set的erase()说明。

转载请标明出处,原文地址:http://blog.csdn.net/morewindows/article/details/7029587

再分享一下我老师大神的人工智能教程吧。零基础!通俗易懂!风趣幽默!还带黄段子!希望你也加入到我们人工智能的队伍中来!https://www.cnblogs.com/captainbed

原文地址:https://www.cnblogs.com/heishanglaoyao/p/10173152.html

时间: 2024-10-29 00:44:08

STL系列之六 set与hash set的相关文章

stl源码分析之hash table

本文主要分析g++ stl中哈希表的实现方法.stl中,除了以红黑树为底层存储结构的map和set,还有用哈希表实现的hash_map和hash_set.map和set的查询时间是对数级的,而hash_map和hash_set更快,可以达到常数级,不过哈希表需要更多内存空间,属于以空间换时间的用法,而且选择一个好的哈希函数也不那么容易. 一. 哈希表基本概念 哈希表,又名散列表,是根据关键字直接访问内存的数据结构.通过哈希函数,将键值映射转换成数组中的位置,就可以在O(1)的时间内访问到数据.举

《STL系列》之map原理及实现

上一篇文章<STL系列>之vector原理及实现,介绍了vector的原理及实现,这篇文章介绍map的原理及实现.STL实现源码下载.STL中map的实现是基于RBTree的,我在实现的时候没有采用RBTree,觉得这东西有点复杂,我的map采用的是排序数组(CSortVector).map中的Key存在排序数据中,通过二分查找判断某个Key是否在map中,时间复杂度为O(logN).在用一个CVector存Key和Value,为了方便拿到Key和Value,这里有点冗余,Key被存了两次.现

quick-cocos2d-x 学习系列之六 CoinFlip

quick-cocos2d-x 学习系列之六 CoinFlip 下面我们来看一个很完整的例子,CoinFlip,这个DEMO已经非常完整可以直接用来玩耍了. 代码路径:.. \quick\samples\coinflip 这个游戏还是很益智的. 1.  代码逻辑 开始部分基本和其他的都一致,从main.lua文件进入,到达MyApp.lua文件中.(MyApp继承于cc.mvc.AppBase) 主要函数是run,enterMenuScene,enterMoreGamesScene,enterC

oracle学习入门系列之六 模式

oracle学习入门系列之六 模式 上篇咱们学习记录了ORACLE数据库中的数据库结构.内存结构和进程等,篇幅 蛤蟆感觉偏多了.这次要休整下,每次笔记不宜太多,不然与书籍有何区别.我们要保证的是每次做记录都能所有收获所有提升. 上次中我们从总体上把握了下ORACLE系统结构,这次开始我们将涉及到ORACLE数据库的具体方方面面了.本次就从模式对象入手. 老规矩,先来两个问题: a)        什么事模式 b)       为什么需要 搞清楚这两个问题即可. 本人邮箱:[email prote

SCCM2012 R2实战系列之六:安装客户端代理软件

在安装客户端代理软件之前,请大家确保已经对本系列的第四和第五部分有了基本了解,而且对SCCM环境做了初始化配置和发现方法.我们目前讨论的是加域的计算机,对于工作组的计算机还需要进行额外的配置.在上篇文章中,我们已经成功的发现加域计算机了,现在开始我们一起讨论下如何去推送并安装SCCM客户端代理软件. 在下图中可以看到,在设备集合"windows7"中已经发现3台计算机,其中W71已经安装过客户端代理软件的,在这里我们对设备集合"windows7"进行客户端的推送,在

Exchange Server 2013系列之六:客户端访问服务器角色高可用性概述

客户端访问服务器角色的高可性就是常说的负载平衡技术,负载平衡的两种主要用途:当一个 Active Directory 站点中的某个客户端访问服务器出现故障时,负载平衡可以降低该故障造成的影响:此外,负载平衡可确保每个客户端访问服务器上的负载分配均匀. Exchange Server 2013负载平衡体系较之早期版本发生了改变,Exchange 2010 协议要求相关性,例如客户端计算机上运行的 Outlook.移动设备上运行的 Microsoft Exchange ActiveSync.Micr

6. oracle学习入门系列之六 模式

oracle学习入门系列之六 模式 上篇咱们学习记录了ORACLE数据库中的数据库结构.内存结构和进程等.篇幅 蛤蟆感觉偏多了.这次要休整下,每次笔记不宜太多,不然与书籍有何差别. 我们要保证的是每次做记录都能全部收获全部提升. 上次中我们从整体上把握了下ORACLE系统结构,这次開始我们将涉及到ORACLE数据库的详细方方面面了. 本次就从模式对象入手. 老规矩.先来两个问题: a)        什么事模式 b)       为什么须要 搞清楚这两个问题就可以. 本人邮箱:[email pr

Sequoiadb 测试体验系列之六 – Java 开发3

上一篇笔记中更新了在集合中的删除,更新,查询等操作.这次尝试一下SequoiaDB的集群操作.包括复制组的创建和删除,复制组的启动和停止,在复制组中添加.删除.启动.停止节点,获取复制组中的主从节点等. import java.util.ArrayList; import java.util.List; import org.bson.BSONObject; import org.bson.BasicBSONObject; import com.sequoiadb.base.Node.NodeS

R语言数据分析系列之六

R语言数据分析系列之六 -- by comaple.zhang 上一节讲了R语言作图,本节来讲讲当你拿到一个数据集的时候如何下手分析,数据分析的第一步,探索性数据分析. 统计量,即统计学里面关注的数据集的几个指标,常用的如下:最小值,最大值,四分位数,均值,中位数,众数,方差,标准差,极差,偏度,峰度 先来解释一下各个量得含义,浅显就不说了,这里主要说一下不常见的 众数:出现次数最多的 方差:每个样本值与均值的差得平方和的平均数 标准差:又称均方差,是方差的二次方根,用来衡量一个数据集的集中性