Spring Batch学习(二)架构

Spring Batch的架构

一个Batch Job是指一系列有序的Step的集合,它们作为预定义流程的一部分而被执行;

Step代表一个自定义的工作单元,它是Job的主要构件块;每一个Step由三部分组成:ItemReader、ItemProcessor、ItemWriter;这三个部分将执行在每一条被处理的记录上,ItemReader读取每一条记录,然后传递给ItemProcessor处理,最后交给ItemWriter做持久化;ItemProcessor不是必须的,一个Step可以仅仅包含ItemReader和ItemWriter;如果你不需要去读写任何数据,你可以仅仅在一个Step中包含一个Tasklet(等价于ItemProcessor);

组成Spring Batch的一些相关的类和接口:

  1. org.springframework.batch.core.Job:表示一个Job,同时也提供了执行Job的能力;
  2. org.springframework.batch.core.Step:表示一个step,同时也提供了执行Step的能力;
  3. org.springframework.batch.item.ItemReader<T>:提供了读取数据的能力;
  4. org.springframework.batch.item.ItemProcessor<T>:我们可以通过它应用业务逻辑到每一条要处理的数据;
  5. org.springframework.batch.item.ItemWriter<T>:提供了写数据的能力

Spring Batch通过这种方式构建一个Job的优点在于解耦每一个Step到它自己独立的处理器当中;每一个Step负责得到数据、应用业务逻辑到这些数据、写数据到适当的位置;

一个Tasklet是一种特别的Step类型,在没有ItemReader和ItemWriter的情况下,使用它来执行一个功能;tasklet仅仅能被使用作一个单一的功能,如执行一些初始化、调用一个存储过程、发送一个邮件通知Job已经完成。

运行Job

首先看下面这个图,描述了Job的各个组件及其关系:

你会发现JobRepository这个组件会和多个其它组件发生联系,它代表一个数据存储(内存或者外部数据库),被用来持久化Job或Step执行过程中用到的信息(用JobExecution和StepExecution来表示);

Job通过JobLauncher开始执行,JobLauncher通过检查JobRepository来核实Job在之前是否运行过,并且验证传入到Job的参数,最后执行Job;

Job的执行流程和Step非常相似,Job首先实行每一个它包含的Step,当数据处理完成后,它将执行的结果更新到JobRepository的JobExecution和StepExecution中;Step首先通过ItemReader读取每一个它要处理的数据项,交由StepPrpcessor处理,同时更新JobRepository中的StepExecution数据。一些信息如Commit次数、开始结束时间都会被存储到JobRepository中,当一个Job/Step完成后,在JobRepository中相关的执行信息会被更新至最终状态。

并行运算

在Spring Batch中,并行可以通过以下四种方式实现:

  • 将Step多线程化:在Spring Batch里面,我们把Job被配置去处理的工作块称为Chunk,每一个Chunk被处理完成后,都会执行一次Commit;这些Chunk依次执行,假如有10000条记录,一次处理50条,那么job会在1到50条记录完成后Commit,然后在51到100条记录完成后再次Commit;如果我们在Step中开启3个线程,那么将增加3倍的处理能力:

  • 并行的执行Step:假设我们有两个Step,每一个都负责加载一个输入文件的数据到数据库中,这两个Step之间没有相互的依赖关系,我们则可以让这两个Step并行执行:

  • 远程chunking:前两种方式都是在一个JVM里面去处理,这种方式允许你扩展你的处理跨多个JVM实例,其中一个JVM作为主节点,它通过一个ItemReader读取输入数据,然后通过网络将数据发送到其它的JVM实例上(称之为从节点)进行处理,处理完成后,从节点又将处理的结果发送回主结点,主结点通过ItemWriter输出;
  • 分区:这种方式不需要跨多个JVM实例,因此不需要网络数据传输,但依然使用了主从配置;也就是说一个Step作为主Step,它扮演了其它多个从Step的控制器;它通过一个ItemReader读取输入数据,然后传递给从Step进行处理,处理完成后从Step又将处理的结果传递回主Step:

实例Job

Spring Batch提供了很多简单的Job实例,让你在开发你自定义的批处理应用程序时参考:

  • adhocLoopJob:演示了一个无限循环的Job,通过JMX去暴露元素;
  • beanWrapperMapperSampleJob:演示了如何实现基于文件的输入数据的验证和将文件字段映射到域对象;
  • compositeItemWriterSampleJob:一个Step只能包含一个ItemReader和ItemWriter,这个Job教你如何绕开这个限制;
  • customerFilterJob:演示如何使用一个ItemProcessor过滤无效的Customer;
  • delegatingJob:使用ItemReaderAdapter,将输入数据的读取行为委托给一个POJO的某个方法;
  • footballJob:一个足球赛事统计Job,在加载两个输入文件(一个文件是运动员数据,一个文件是赛事数据)之后,产生一个统计信息并输出到日志文件;
  • groovyJob:演示运行由groovy编写的文件压缩和解压的脚本;
  • headerFooterSample:演示如何使用回调,在输出的时候添加Header和Footer;
  • hibernateJob:Spring Batch Reader和Writer默认不会使用Hibernate,这个Job演示了如何整合Hibernate;
  • infiniteLoopJob:一个无限循环Job,在Job停止后自动重启;
  • ioSampleJob:提供了很多不同IO方式的例子,如读取分隔符文件、固定长度字段的文件、Xml、JDBC、iBATIS集成;
  • jobSampleJob:演示了如何从一个Job中执行另外一个Job;
  • loopFlowSample:演示如何用编程的方式去控制执行流程;
  • mailJob:演示如何使用SimpleMailMessageItemWriter去发送eMail;
时间: 2024-10-06 19:30:16

Spring Batch学习(二)架构的相关文章

Spring Batch学习笔记二

此系列博客皆为学习Spring Batch时的一些笔记: Spring Batch的架构 一个Batch Job是指一系列有序的Step的集合,它们作为预定义流程的一部分而被执行: Step代表一个自定义的工作单元,它是Job的主要构件块:每一个Step由三部分组成:ItemReader.ItemProcessor.ItemWriter:这三个部分将执行在每一条被处理的记录上,ItemReader读取每一条记录,然后传递给ItemProcessor处理,最后交给ItemWriter做持久化:It

Spring Batch学习笔记三:JobRepository

此系列博客皆为学习Spring Batch时的一些笔记: Spring Batch Job在运行时有很多元数据,这些元数据一般会被保存在内存或者数据库中,由于Spring Batch在默认配置是使用HSQLDB,也就是说在Job的运行过程中,所有的元数据都被储存在内存中,在Job结束后会随着进程的结束自动消失:在这里我们推荐配置JobRepository去使用MySQL. 在这种情况下,Spring Batch在单次执行或者从一个执行到另外一个执行的时候会使用数据库去维护状态,Job执行的信息包

Spring Ioc学习(二)

wxWidgets和Codeblocks的编译安装,GUI程序开发平台的搭建具体步骤如下: (1)基本编译环境安装 安装编译工具(gcc之类)sudo apt-get install build-essential 安装X11sudo apt-get install libx11-dev 安装GTK需要的东西sudo apt-get install?gnome-core-devel (2)下载wxWidgets源码包并解压缩到 #{wxdir} (3)创建基于gtk和x11的编译目录${wx}

Spring Batch学习笔记&mdash;&mdash;steps之间共享数据

名词说明: 上下文: 执行: 执行上下文: 案例: 警告:一旦steps共享数据,这些数据就会把这些steps连接起来.努力使steps独立.如果你实在是不能独立他们,才使用下面的技术.你应该把数据共享作为steps不能独立的后备方案. 1 数据共享方式: a step存储共享数据到数据库,receiving step从数据库读取他们 Execution context(执行上下文): 使用Spring  Batch execution context 作为data容器.a step往上下文写数

Spring Batch学习_ItemReaders and ItemWriters

All batch processing can be described in its most simple form as reading in large amounts of data, performing some type of calculation or transformation, and writing the result out. Spring Batch provides three key interfaces to help perform bulk read

Spring Batch学习

今天准备研究下Spring Batch,然后看了一系列资料,如下还是比较好的教程吧. 链接: http://www.cnblogs.com/gulvzhe/archive/2011/12/20/2295090.html 但在进行到 Spring Batch 之 Sample(CSV文件操作)(四) 时,发现了实战中的问题: outputFile.csv死活写不进结果!!! 想来想去,也尝试了n种调试,确定reader和process绝对没问题,那就writer出现问题了. 所以肯定是配置的csv

Spring Batch学习(一)介绍

为什么我们需要批处理? 我们不会总是想要立即得到需要的信息,批处理允许我们在请求处理之前就一个既定的流程开始搜集信息:比如说一个银行对账单,我们可以按月生成,并在用户查询之前开启一个批处理流程进行处理: 有时候它能让生意做得更好:比如说在线购物时,并不是说你买了一个产品零售商就立即发货,而是四五个小时后,统一发货: 更好的利用资源:让应该利用的处理能力闲置起来是一个大的浪费,我们可以定制处理让一个机器一个接一个的运行Job可以更好的利用机器的处理能力: 什么是批处理? 批处理是指在没有与用户进行

Spring Batch学习(三)JobRepository

Spring Batch Job在运行时有很多元数据,这些元数据一般会被保存在内存或者数据库中,由于Spring Batch在默认配置是使用HSQLDB,也就是说在Job的运行过程中,所有的元数据都被储存在内存中,在Job结束后会随着进程的结束自动消失:在这里我们推荐配置JobRepository去使用MySQL. 在这种情况下,Spring Batch在单次执行或者从一个执行到另外一个执行的时候会使用数据库去维护状态,Job执行的信息包括Job实例.传入的参数.执行的结果.每一个Step执行的

陪你解读Spring Batch(二)带你入手Spring Batch

前言 说得多不如show code.上一章简单介绍了一下Spring Batch.本章将从头到尾搭建一套基于Spring Batch(2.1.9).Spring(3.0.5).mybatis(3.4.5).mysql.gradle的批处理简单应用来处理文件中大量交易数据的写入. 那么这里简单定义以下交易文件的格式,一个txnId交易Id,一个amt交易金额.一天比如有100w交易数据过来要落表.文件大概长这样,只是简单定义以下,实际开发肯定不会那么少. 因工作需求没有使用最新版本的Spring