使用迭代器模式批量获得数据(C#实现)

先说一下项目的背景,以前曾经做过一个项目,根据Excel中的数据批量的到网页上抓取数据,将抓取到的数据批量的回填到Excel中。这个Excel中有很多行的记录(多的时候会有好几千行),每一行数据存储能在网页上查询唯一的一条数据的条件。操作网页部分使用了微软MSHTML,在这里不做多余的介绍。这里主要讲的是如何获得最后的查询结果,并把结果填写回Excel的部分。

这个听起来好像很简单,最简单的方法就是在网页中没查询出一条数据,就将该数据存储到内存中的一个List或DataTable中,等执行完成后,从内存中获取数据填写到Excel中。但这有一个问题,在执行的过程中系统可能由于升级被迫重启。而且执行的过程通常比较长,用户不可能一直盯着屏幕看,所以如果将数据存储到内存中,容易在最后丢失先前的执行结果。这样虽然用户可以重新执行数据抓取的过程,但那又要浪费很多的时间来执行,有的时候甚至可能让用户错过任务的Deadline!我的实现方案是每次将获取的数据存储到数据库中,在数据库中记录查询的条件和查询的结果,在最后执行完成后批量的从数据库中获取数据,同步到Excel中。这样既可以在最大程度上保证获取的结果不丢失,又可以在最大限度的保证系统的性能(相比较与每次将结果直接写入到Excel中)。

那如何从数据库中获取数据呢?最简单的方法就是循环Excel中的每条数据,到数据库中获取记录,但很显然这样的效率非常低,需要多次访问数据库。在这种方法的基础上可以更近一步,就是在最后动态拼出一个Sql,类似于

select * from 查询结果表
where 查询条件 in (‘查询条件1‘,‘查询条件2‘...)

但是有一个问题,很多数据库(SqlServer、Oracle)在In中可以使用的条件数都有一个限制,都是1000条,其它的数据库可能也有一些类似的限制。那么一旦Excel中的数据超过1000条,该sql就会报错。所以要想使用该方法,就要根据Excel数据的行数,对数据动态的分组,每1000条为1组。然后循环每一组,根据每一组数据动态拼出一个sql,提交到数据库,最后将查询的结果合并。举一个具体的例子吧,假设有1005条数据,那么就需要将数据分成2组,第1~1000条为一组,第1001到1005为一组,将这2组数据分别到数据库中查询。如果仅仅是这样到也不是不能接受,但在获取的过程中还要考虑另外一个问题,那就是有些数据可能在数据库中没有对应的记录,这个时候要向用户做出提示。之所以会出现这种情况的原因是,从网页获取数据的时候,网页可能会出现各种问题,从而导致数据抓取失败。用户必须手动的将网页复位,并将之前获取过的数据从Excel删除,再重新开始执行才可以继续,这样就会有删错的风险,就可能在最后同步数据的时候出现数据库中没有Excel对应数据的情况。

如果按照这种方法来实现,那么最后的实现大概类似于以下代码

var 分组数=Math.Cell(Excel数据数/1000);

for(int i=0;i<分组数;i++)
{
List<string> 分组数据=获得分组的数据;
根据分组数据拼sql;
执行sql
根据分组数据查询结果集
如果在结果集中没有查询到数据,将错误信息记录到Excel中
将获取数据同步到Excel中

}

这样做的结果把循环Excel获取数据的逻辑和同步Excel(实际同步Excel的代码还是比较复杂的,这里只是为了简化问题,而让这部分逻辑看起来比较简单)的逻辑混合到了一起,不但代码看上去比较乱,而且也不容易对这一段代码做单元测试。要想解决这个问题,就是把循环逻辑分离出来,23种设计模式刚好有一种可以解决这个问题,那就是迭代器模式。这个模式的标准实现方式如下

这个我就不介绍了,网上有很多的介绍,但实现这个模式需要多个类的协作,虽然可以实现逻辑的分离,但开发量还是比较大的。在实际项目中我使用了该模式在.net下的一个变体,利用了.net的yield关键字来实现迭代器。代码大致如下

/// <summary>
        /// 获得迭代器
        /// </summary>
        /// <param name="dataSource"></param>
        /// <param name="batchLoadSize">批量加载大小</param>
        /// <param name="loadDataCallBack">加载数据回调,第一个参数为要加载的数据源,返回实际数据</param>
        /// <param name="getTargetDataBySourceDataCallBack">根据数据源获得已经加载完成的对象</param>
        /// <returns></returns>
        public IEnumerable<KeyValuePair<TSource,TTarget>> GetEnumerable(IList<TSource> dataSource, int batchLoadSize, Func<IList<TSource>,  IList<TTarget>> loadDataCallBack,Func<TSource,IList<TTarget>,TTarget> getTargetDataBySourceDataCallBack)
        {
            int beginIndex = 0;
            while (true)
            {
                List<TSource> loadSourceData = new List<TSource>();
                int i;
    //循环获取要批量加载的数据
                for( i=0;i<batchLoadSize&&i+beginIndex<dataSource.Count;i++)
                {
                    loadSourceData.Add(dataSource[beginIndex+i]);
                }
    //从数据库中加载数据
                IList<TTarget> targetDataList = loadDataCallBack(loadSourceData);
    //获得一个源数据与目标数据的键值对
                foreach (var source in loadSourceData)
                {
                    TTarget target= getTargetDataBySourceDataCallBack(source, targetDataList);
                    KeyValuePair<TSource, TTarget> sourceTargetKeyPair = new KeyValuePair<TSource, TTarget>(source,target);
                    yield return sourceTargetKeyPair;
                }

                beginIndex += i;
    //如果已经循环到最后一组,退出循环
                if (beginIndex>=dataSource.Count)
                {
                    break;
                }
            }
        }

对该迭代器的调用方法如下

foreach(Excel数据与查询结果 in new BatchLoadEnumerable<TSource,TTarget>().GetEnumerable(Excel数据,1000,加载数据的委托,根据Excel数据从加载结果中查询数据的委托))
{
if(Excel数据与查询结果.查询结果==null)
{记录查询错误
continue;
}
同步数据
}

使用该方法后,循环的逻辑与同步数据的完全分离,不但代码看上去更近简洁,而且也更容易做单元测试。我对该迭代器做了通用化的处理,只要更换加载数据与根据原始数据在结果集中查询数据的委托就可以在不同的业务场景中使用,希望也会对大家有所帮助。

时间: 2024-09-30 10:11:46

使用迭代器模式批量获得数据(C#实现)的相关文章

【设计模式】迭代器模式

迭代器模式(Iterator Pattern)是 Java 和 .Net 编程环境中非常常用的设计模式.这种模式用于顺序访问集合对象的元素,不需要知道集合对象的底层表示. 迭代器模式属于行为型模式. 介绍 意图:提供一种方法顺序访问一个聚合对象中各个元素, 而又无须暴露该对象的内部表示. 主要解决:不同的方式来遍历整个整合对象. 何时使用:遍历一个聚合对象. 如何解决:把在元素之间游走的责任交给迭代器,而不是聚合对象. 关键代码:定义接口:hasNext, next. 应用实例:JAVA 中的

行为型模式之迭代器模式

概述 在软件开发中,我们经常需要使用聚合对象来存储一系列数据.聚合对象拥有两个职责:一是存储数据:二是遍历数据.从依赖性来看,前者是聚合对象的基本职责:而后者既是可变化的,又是可分离的.因此,可以将遍历数据的行为从聚合对象中分离出来,封装在一个被称之为“迭代器”的对象中,由迭代器来提供遍历聚合对象内部数据的行为,这将简化聚合对象的设计,更符合“单一职责原则”的要求. 定义 迭代器模式(Iterator Pattern):提供一种方法来访问聚合对象,而不用暴露这个对象的内部表示,其别名为游标(Cu

设计模式(十五):Iterator迭代器模式 -- 行为型模式

1.概述 类中的面向对象编程封装应用逻辑.类,就是实例化的对象,每个单独的对象都有一个特定的身份和状态.单独的对象是一种组织代码的有用方法,但通常你会处理一组对象或者集合. 集合不一定是均一的.图形用户界面框架中的 Window 对象可以收集任意数量的控制对象 - Menu.Slider 和 Button.并且,集合的实现可以有多种方式:PHP 数字是一个集合,但也是一个散列表,一个链接列表,一个堆栈以及队列. 例子1:电视遥控器的频道遍历 2.问题 如何操纵任意的对象集合? 如一个列表(Lis

迭代器模式(Iterator.hasNaxt())

迭代器模式(Iterator Pattern)是 Java 和 .Net 编程环境中非常常用的设计模式.这种模式用于顺序访问集合对象的元素,不需要知道集合对象的底层表示. 迭代器模式属于行为型模式. 介绍 意图:提供一种方法顺序访问一个聚合对象中各个元素, 而又无须暴露该对象的内部表示. 主要解决:不同的方式来遍历整个整合对象. 何时使用:遍历一个聚合对象. 如何解决:把在元素之间游走的责任交给迭代器,而不是聚合对象. 关键代码:定义接口:hasNext, next. 应用实例:JAVA 中的

GOF23设计模式之迭代器模式理解与实现

 迭代器模式      场景:          提供一种可以遍历聚合对象的方式.又称为游标cursor模式          聚合对象:存储数据          迭代器模式:遍历数据   聚集抽象类 Aggregate Iterator 迭代抽象类,用于定义得到开始对象,得到下一个对象,判断是否到结尾,当前对象等抽象方法,统一接口 具体聚集类:继承Aggregate 具体迭代器类,继承Iterator,实现开始,下一个,是否结尾,当前对象等方法.   使用场景:      前向迭代器  

设计模式 ( 十四 ) 迭代器模式Iterator(对象行为型)

1.概述 类中的面向对象编程封装应用逻辑.类,就是实例化的对象,每个单独的对象都有一个特定的身份和状态.单独的对象是一种组织代码的有用方法,但通常你会处理一组对象或者集合. 集合不一定是均一的.图形用户界面框架中的 Window 对象可以收集任意数量的控制对象 - Menu.Slider 和 Button.并且,集合的实现可以有多种方式:PHP 数字是一个集合,但也是一个散列表,一个链接列表,一个堆栈以及队列. 例子1:电视遥控器的频道遍历 2.问题 如何操纵任意的对象集合? 如一个列表(Lis

设计模式(行为型)之迭代器模式(Iterator Pattern)

PS一句:最终还是选择CSDN来整理发表这几年的知识点,该文章平行迁移到CSDN.因为CSDN也支持MarkDown语法了,牛逼啊! [工匠若水 http://blog.csdn.net/yanbober] 阅读前一篇<设计模式(行为型)之观察者模式(Observer Pattern)>http://blog.csdn.net/yanbober/article/details/45484749 概述 在软件构建过程中,集合对象内部结构常常变化各异.但对于这些集合对象,我们希望在不暴露其内部结构

深入浅出设计模式——迭代器模式(Iterator Pattern)

模式动机 一个聚合对象,如一个列表(List)或者一个集合(Set),应该提供一种方法来让别人可以访问它的元素,而又不需要暴露它的内部结构.针对不同的需要,可能还要以不同的方式遍历整个聚合对象,但是我们并不希望在聚合对象的抽象层接口中充斥着各种不同遍历的操作.怎样遍历一个聚合对象,又不需要了解聚合对象的内部结构,还能够提供多种不同的遍历方式,这就是迭代器模式所要解决的问题.在迭代器模式中,提供一个外部的迭代器来对聚合对象进行访问和遍历,迭代器定义了一个访问该聚合元素的接口,并且可以跟踪当前遍历的

【设计模式与Android】迭代器模式——容器遍历,细节隐藏

什么是迭代器模式 所谓迭代器模式,就是提供一种方法顺序访问一个容器对象的各个元素,而又不需要暴露该对象的内部表示的设计模式. 迭代器模式的实现方式   在客户访问类与容器体之间插入一个第三者--迭代器,就可以在不暴露该对象的内部表示的同时解决容器类承担提供遍历方法功能造成功能冗余的问题. <水浒传>中"梁山泊全伙受招安"的时候,宋江给梁上好汉造了天罡地煞两个花名册(容器).先定义一个容器接口: public interface Company { Iterator iter