DataTable数据检索的性能分析(转寒江独钓)

我们知道在.NET平台上有很多种数据存储,检索解决方案-ADO.NET Entity Framework,ASP.NET Dynamic Data,XML, NHibernate,LINQ to SQL 等等,但是由于一些原因,如平台限制,比如说必须基于.NET Framework2.0及以下平台;遗留的或者第三方数据接口采用的就是DataTable等等,仍然需要使用DataTable作为数据存储结构。另一方面DataTable比较容易使用,一些数据访问的接口可能直接采用了DataTable结构。在使用DataTable进行数据检索的时候,有一些需要注意的地方,这些地方会严重的影响对数据的检索效率。

本人最近工作中需要对大量的DataTable进行拼接。接口的数据是以DataSet然后里面放DataTable的方式提供的,暂不提是否合理,同时进行多个请求的时,服务端会返回一个DataSet,其中包含每个请求的结果DataTable,这些DataTable中有一列相当于”关键字”列。现在需要按照这个关键字,将这些DataTable中的列合并到一个DataTable,然后展现到界面上来。

最开始,我使用的是DataTable的Select方法来循环遍历拼接实现的,发现很慢,于是总结了一下对DataTable进行查询等操作的一些经验,和大家分享。

一 场景

为了简化问题,有两张DataTable,名为表A,表B,字段分别为

表A,存储股票的最高价信息,        表B存储股票最低价信息

SecurityCode    High                  SecurityCode    Low

000001.SZ       20                     000001.SZ      18.5

000002.SZ       26                     000002.SZ       56

现在需要,将这两张表拼接到一张表中,这张表有三列字段,SecurityCode High Low,之前采用的方法是,新建一张含有这三个字段的DataTable 表C,然后复制Security字段,然后遍历另外两张表,对其采用Select方法查找对应的SecurityCode,然后复制给C中对应字段。发现效率很慢,问题出现在Select方法上,于是需要进行优化。

二 DataTable的查询效率

DataTable提供了两个查询数据的接口,DataTable.Select和DataTable.Rows.Find方法。

DataTable的Select方法通过传入一系列条件,然后返回一个DataRow[ ]类型的数据,他需要遍历整个表,然后挨个匹配条件,然后返回所有匹配的值。很显然在策略上,之前的DataTable拼接采用Select方法存在问题,因为我们只需要查找匹配上的一条记录即可。

DataTable.Rows 的Find查找第一个匹配上的唯一一条记录。在指定了主键的基础上,查找会采用二叉树的方式查找,效率高。要创建主键,需要指定DataTable的PrimaryKey字段如下:

dtA.PrimaryKey = new DataColumn[] { dtA.Columns["SecurityCode"] };

当然,创建主键会增加时间消耗,这也分为在数据填充前创建和数据填充后创建。在数据量大的情况下,创建主键的消耗是需要考虑进去的。下面的图中显示了在填充数据之前创建主键,之后创建主键,以及创建Dictionary所需的时间。可以看到:


ArraySize


PreIndex Creation Time


PostIndex Creation Time


Dictionary Creation Time


10


0


0


0


50


0


0


0


100


1


0


0


500


6


1


0


1000


15


2


0


5000


107


16


2


10000


261


42


5


50000


1727


271


31


100000


3525


544


47


500000


20209


2895


240


1000000


43382


5919


517

作图如下:

从上图可以得到:

  1. 在填充数据之前创建主键,然后填充数据,比填充数据完之后创建主键消耗的时间要多。这是由于,创建主键后,再向其中添加数据,会导致需要重新生成索引,这和数据库中,不适合在频繁变动的字段上创建主键的原理是一样的。在我的笔记本 (Win7 32bit,CPU T6600 2.0GHZ,RAM 2GB)上,为100万条记录的DataTable创建索引大约需要5秒钟,所以在数据量大的情况下,需要考虑索引的创建时间。
  2. 创建DataTable然后创建主键与直接创建和该DataTable相同的Dictionary结构相比,创建Dictionary所需要的时间要少的多,而且几乎不随着记录条数规模的变大而变大。

创建完成之后,下面来测试几种情况下的DataTable的检索效率。为此,在建立主键和没有建立索引的条件下,测试了在不同规模下 DataTable.Select, DataTable.Rows.Find 的查询速度,由于在DataTable比较小的时候,时间不能很好的显示,所以测试采用的单位是StopWatch的Tick数。每个方法在数据规模不同的情况下,各执行了10次,然后取平均值,结果如下:

ArraySize Dictionary Create Dictionary Search Table Select Indexed Table Select Table Rows Find LINQ
10 13 3 40 25 8 16
50 27 2 69 37 8 27
100 51 3 112 38 9 39
500 210 3 589 51 11 155
1000 461 4 1175 60 14 328
5000 2264 14 8412 85 17 1540
10000 6235 7 16806 99 20 3354
50000 23768 8 150133 138 26 15824
100000 49133 7 259794 147 26 31525
500000 252103 51 1547935 181 30 158317
1000000 494647 9 2736616 209 30 315716

作图如下:

可以看到:

  1. 在没有创建主键的条件下,对DataTable执行Select操作时比较低效的。在建立主键之后,仅对主键所在列执行Select操作,速度提高了很多,这种差距在数据量大的情况下尤其明显,在集合大小规模为1000时,该差异达到了近20倍。
  2. LINQ对DataTable的查询效率比DataTale.Select方法要高,但是仍然比DataTable.Rows.Find方法效率要低。
  3. 在对主键进行唯一性查找时,我们应该使用DataTable.Rows.Find操作,在DataTable建立主键,并且仅对主键进行操作的情况下,Find方法会比Select方法快3-6倍,这可能是由于Select方法需要对里面的过滤字符串进行解析及判断。因为Select方法可以接受多个条件的查询以及以一些比较复杂的表达式,处理及解析可能需要耗费一些时间。并且在一般条件下Select是完全搜索,即查找整个集合找到所有满足条件的记录。而Find方法则仅对主键字段进行检索,如果没有设置主键,那么调用Find方法就会报错。
  4. 采用Dictionary来代替DataTable结构来进行检索,能达到最快的速度,且几乎不受规模的影响,但是在数据量较大的情况下,将DataTable转换为对应的Dictionary结构可能需要花费时间,如果操作频繁,诸如在进行多个DataTable基于关键字进行拼接的情况下,对目标DataTable使用Dictionary<String,DataRow> 的方式进行存储,能够使用ContainsKey的基于Hash的方式对关键字进行查找,这能极大地提高效率。并且在DataTable列有重复字段,不能建立主键的情况下,可以采用Dictionary<string,List<DataRow>>能够解决DataTable无法创建主键,从而导致查找性能下降的问题。

三 实施效果

基于上面的分析,在实际中的工作中,替换了Select方法,创建了一个类型为Dictionary<String,DataRow>的包含目标合并后DataTable对象的所有行的结构C,其中关键字为SecurityCode,DataRow为包含SecurityCode,High,Low三列数据的行。在合并的时候,直接遍历表A的所有行,然后判断在C中是否包含该行中的SecurityCode,如果包含,取出,直接赋值。然后遍历表B。整个过程使得DataTable合并的效率至少提高了10倍。

四 结语

本文简要介绍了DataTable中检索数据的两种方法,DataTable.Select 和DataTable.Rows.Find方法。在测试方法的执行效率之前介绍了如何为DataTable设置主键,并比较了在数据填充之前和数据填充之后设置主键花费的时间,结果表明,在数据填充完成之后,设置主键要比在填充数据之前设置主键效率要高的多。设置主键之后,比较了在有无主键的情况下,DataTable.Select 方法在仅对主键字段进行过滤时的性能,结果表明,在仅对主键进行检索时,设置主键之后使用DataTable.Select 方法会比没有主键的情况下的检索速度会快非常多。在相同条件下,如果仅需要查找某一条记录,使用DataTable.Rows.Find会比DataTable.Select快很多。在某些需要频繁操作DataTable查询的时候,要避免在循环体内调用DataTable.Select方法,采用将DataTable转换为等价的Dictionary结构,能够有效解决由于键值重复导致不能创建主键的问题并且Dicitonary的采用哈希表的方式查找能够极大地提高查询效率。

点击此处下载本文测试用例及代码,希望对您在对DataTable进行检索操作时,如何提高效率能够带来一点儿帮助。

注:个人认为若DataTable设值主键且仅查找主键,使用后设置主键方式比Dictionary速度要快。

时间: 2024-08-25 23:07:38

DataTable数据检索的性能分析(转寒江独钓)的相关文章

DataTable数据检索的性能分析[转]

原文链接 作者写得非常好,我学到了许多东西,这里只是转载! 我们知道在.NET平台上有很多种数据存储,检索解决方案-ADO.NET Entity Framework,ASP.NET Dynamic Data,XML, NHibernate,LINQ to SQL 等等,但是由于一些原因,如平台限制,比如说必须基于.NET Framework2.0及以下平台:遗留的或者第三方数据接口采用的就是DataTable等等,仍然需要使用DataTable作为数据存储结构.另一方面DataTable比较容易

Windows驱动过滤--kdbclass过滤,寒江独钓加强版

寒江独钓键盘过滤,修改了下,过滤QQ密码写入buff,有 回车 或者buff满写入文件,因为irp完成,irp对应的内存快回收,所以用全局缓冲区.开启一个线程写入,开始打算用队例一个一个处理irp的,但是发现那样比较缓慢,只好这样了..创建进程回调代码加几行就行,这里没写,因为代码丢失了,算是个大概的代码吧.给初学的分享下.有错指出,谢谢. 前辈们不要见笑了. struct.h /************************************/ //author:DuanYueming

寒江独钓:键盘的过滤 学习笔记

先来名词热身: 一.符号链接:其实就是一个别名.可以用一个不同的名字来代表一个设备对象 二.PDO:是物理设备对象,可以理解为是设备栈最下面的那个设备对象. 函数介绍: 内核中:ZwCreateFile是很重要的函数,不但可以打开文件,还可以打开设备对象.在应用程序中跟它对应的是CreateFile函数.. 接下来是记录Windows如何获得按键,然后传递给各个应用程序. csrss这个进程里有个线程叫win32k!RawInputThread,这个线程总是调用nt!ZwReadFile来读入数

《寒江独钓_Windows内核安全编程》中修改类驱动分发函数

最近在阅读<寒江独钓_Windows内核安全编程>一书的过程中,发现修改类驱动分发函数这一技术点,书中只给出了具体思路和部分代码,没有完整的例子. 按照作者的思路和代码,将例子补充完整,发现将驱动安装在WIN7 32位环境下,键盘失效. 经调试发现,可能的原因是替换了\\Driver\\Kbdclass类驱动的所有分发函数导致,如果只替换分发IRP_MJ_READ的函数,不会有问题,以下为代码 1 //替换分发函数 来实现过滤 2 #include <wdm.h> 3 #inclu

寒江独钓Windows内核编程——串口过滤

一.过滤的概念: 过滤是在不影响上层和下层接口的情况下,在Windows系统内核中加入新的层,从而不需要修改上层的软件或者下层的真是驱动程序,就加入了新的功能. 1.1 设备绑定的内核API 进行过滤的最主要的方法是对一个设备对象(Device Object)进行绑定.通过编程可以生成一个虚拟设备对象,并“绑定”(Attach)在一个真实的设备上.一旦绑定,则本来操作系统发送给真实设备的请求,就会首先发送到这个虚拟设备. 在WDK中,有多个内核API能实现绑定的功能.以下三个绑定API是从WDK

寒江独钓--Windows内核安全编程笔记(一)

第一章:内核上级指导 1.如果没有设置DriverUnload函数指针,则一个内核模块一旦被加载就不能卸载了. 2.makefile文件内容永远也不需要改动. 3.设置断点之前系统必须已经中断. 4.驱动加载之前,设置断点不方便,手工断点如下: #if DBG _asm int 3 #endif 如果不是调试状态执行会直接蓝屏,断点弹出之后可以设置新的断点 5.WinDbg为双机调试,Softice可以进行单机调试但已经不再更新,吴岩峰等人开发的Syser也可以进行单机调试,100%国产 第二章

java&amp;nbsp;IO性能分析(转载)

Java IO性能分析 第一部分技术讨论底层的I/O问题,然后讨论诸如压缩,格式化和串行化等高级I/O问题.然而这个讨论没有包含应用设计问题,例如搜索算法和数据结构,也没有讨论系统级的问题,例如文件高速缓冲. Java语言采取两种截然不同的磁盘文件结构.一个是基于字节流,另一个是字符序列.在Java语言中一个字符有两个字节表示,而不是像通常的语言如c语言那样是一个字节.因此,从一个文件读取字符时需要进行转换.这个不同在某些情况下是很重要的,就像下面的几个例子将要展示的那样. 低级I/O相关的问题

.NET批量大数据插入性能分析及比较

原文:.NET批量大数据插入性能分析及比较 数据插入使用了以下几种方式 1. 逐条数据插入2. 拼接sql语句批量插入3. 拼接sql语句并使用Transaction4. 拼接sql语句并使用SqlTransaction5. 使用DataAdapter6. 使用TransactionScope及SqlBulkCopy7. 使用表值参数 数据库使用SQL Server,脚本如下 create table TestTable(Id int ,Name nvarchar(20)) 程序中生成测试Dat

大数据技术之_29_MySQL 高級面试重点串讲_02_Mysql 简介+Linux 版的安装+逻辑架构介绍+性能优化+性能分析+查询截取分析+分区分库分表简介+锁机制+主从复制

第1章 Mysql 简介1.1 概述1.2 高级 MySQL第2章 Mysql Linux 版的安装2.1 下载地址2.2 检查当前系统是否安装过 mysql2.3 修改 Mysql 配置文件位置2.4 修改字符集和数据存储路径2.5 MySQL 的安装位置说明2.6 Mysql 配置文件说明2.7 Mysql 的数据存放目录第3章 Mysql 逻辑架构介绍3.1 总体概览3.2 查询说明第4章 Mysql 性能优化4.1 影响 mysql 的性能因素4.2 查询与索引优化分析4.2.1 性能下