spring batch(一):基础部分

spring batch(一):基础部分

博客分类:

spring batch

官网:

http://www.springsource.org/spring-batch

下载页面:

http://static.springsource.org/spring-batch/downloads.html

文档:

http://static.springsource.org/spring-batch/reference/index.html

数据库表格创建连接:DDL

http://static.springsource.org/spring-batch/reference/html/metaDataSchema.html#exampleDDLScripts

chapter 1、Introducing Spring Batch

spring batch需要依赖关系型数据库才能运行,在它的官方文档中的附录中,有创建它依赖的数据库表结构。

spring batch设计的目标:

1、大数据处理

2、自动化的

3、健壮的

4、可信赖的

5、高性能的

配置文件中 chunk  里面的 commit-interval="100"的大小,就是chunk块的大小。它们是一回事。

chunk 里面有 ItemReader ItemProcessor ItemWriter , ItemReader一次读取一条记录,ItemProcessor一次处理一条记录,ItemWriter一次输入commit-interval="100"指定事物大小的记录数(也就是chunk块的大小)。

推荐的commit-interval的大小是 10 至 200。 如果这个数值太大,如果是输出数据到数据库,会造成数据库的事物数据太大,影响数据库的性能,数据库会记录很多回滚数据的事物内容,造成性能低下。这个值太小,又会造成很多事务的产生,造成spring batch运行缓慢。

可以用SpEL动态配置程序运行的参数,例如:

<property name="resource"value="file:#{jobParameters[‘inputResource‘]}" />

这里需要注意一点,bean的scope必须为 “step”。在spring 3.×中支持 SPEL表达式。

<bean id="reader" class="org.springframework.batch.item.file.FlatFileItemReader" scope="step">

下面是spring batch的元数据表,oracle数据库的DDL

Sql代码  

  1. CREATE TABLE BATCH_JOB_INSTANCE  (
  2. JOB_INSTANCE_ID NUMBER(19,0)  NOT NULL PRIMARY KEY ,
  3. VERSION NUMBER(19,0) ,
  4. JOB_NAME VARCHAR2(100) NOT NULL,
  5. JOB_KEY VARCHAR2(32) NOT NULL,
  6. constraint JOB_INST_UN unique (JOB_NAME, JOB_KEY)
  7. ) ;
  8. CREATE TABLE BATCH_JOB_EXECUTION  (
  9. JOB_EXECUTION_ID NUMBER(19,0)  NOT NULL PRIMARY KEY ,
  10. VERSION NUMBER(19,0)  ,
  11. JOB_INSTANCE_ID NUMBER(19,0) NOT NULL,
  12. CREATE_TIME TIMESTAMP NOT NULL,
  13. START_TIME TIMESTAMP DEFAULT NULL ,
  14. END_TIME TIMESTAMP DEFAULT NULL ,
  15. STATUS VARCHAR2(10) ,
  16. EXIT_CODE VARCHAR2(100) ,
  17. EXIT_MESSAGE VARCHAR2(2500) ,
  18. LAST_UPDATED TIMESTAMP,
  19. constraint JOB_INST_EXEC_FK foreign key (JOB_INSTANCE_ID)
  20. references BATCH_JOB_INSTANCE(JOB_INSTANCE_ID)
  21. ) ;
  22. CREATE TABLE BATCH_JOB_PARAMS  (
  23. JOB_INSTANCE_ID NUMBER(19,0) NOT NULL ,
  24. TYPE_CD VARCHAR2(6) NOT NULL ,
  25. KEY_NAME VARCHAR2(100) NOT NULL ,
  26. STRING_VAL VARCHAR2(250) ,
  27. DATE_VAL TIMESTAMP DEFAULT NULL ,
  28. LONG_VAL NUMBER(19,0) ,
  29. DOUBLE_VAL NUMBER ,
  30. constraint JOB_INST_PARAMS_FK foreign key (JOB_INSTANCE_ID)
  31. references BATCH_JOB_INSTANCE(JOB_INSTANCE_ID)
  32. ) ;
  33. CREATE TABLE BATCH_STEP_EXECUTION  (
  34. STEP_EXECUTION_ID NUMBER(19,0)  NOT NULL PRIMARY KEY ,
  35. VERSION NUMBER(19,0) NOT NULL,
  36. STEP_NAME VARCHAR2(100) NOT NULL,
  37. JOB_EXECUTION_ID NUMBER(19,0) NOT NULL,
  38. START_TIME TIMESTAMP NOT NULL ,
  39. END_TIME TIMESTAMP DEFAULT NULL ,
  40. STATUS VARCHAR2(10) ,
  41. COMMIT_COUNT NUMBER(19,0) ,
  42. READ_COUNT NUMBER(19,0) ,
  43. FILTER_COUNT NUMBER(19,0) ,
  44. WRITE_COUNT NUMBER(19,0) ,
  45. READ_SKIP_COUNT NUMBER(19,0) ,
  46. WRITE_SKIP_COUNT NUMBER(19,0) ,
  47. PROCESS_SKIP_COUNT NUMBER(19,0) ,
  48. ROLLBACK_COUNT NUMBER(19,0) ,
  49. EXIT_CODE VARCHAR2(100) ,
  50. EXIT_MESSAGE VARCHAR2(2500) ,
  51. LAST_UPDATED TIMESTAMP,
  52. constraint JOB_EXEC_STEP_FK foreign key (JOB_EXECUTION_ID)
  53. references BATCH_JOB_EXECUTION(JOB_EXECUTION_ID)
  54. ) ;
  55. CREATE TABLE BATCH_STEP_EXECUTION_CONTEXT  (
  56. STEP_EXECUTION_ID NUMBER(19,0) NOT NULL PRIMARY KEY,
  57. SHORT_CONTEXT VARCHAR2(2500) NOT NULL,
  58. SERIALIZED_CONTEXT CLOB ,
  59. constraint STEP_EXEC_CTX_FK foreign key (STEP_EXECUTION_ID)
  60. references BATCH_STEP_EXECUTION(STEP_EXECUTION_ID)
  61. ) ;
  62. CREATE TABLE BATCH_JOB_EXECUTION_CONTEXT  (
  63. JOB_EXECUTION_ID NUMBER(19,0) NOT NULL PRIMARY KEY,
  64. SHORT_CONTEXT VARCHAR2(2500) NOT NULL,
  65. SERIALIZED_CONTEXT CLOB ,
  66. constraint JOB_EXEC_CTX_FK foreign key (JOB_EXECUTION_ID)
  67. references BATCH_JOB_EXECUTION(JOB_EXECUTION_ID)
  68. ) ;
  69. CREATE SEQUENCE BATCH_STEP_EXECUTION_SEQ START WITH 0 MINVALUE 0 MAXVALUE 9223372036854775807 NOCYCLE;
  70. CREATE SEQUENCE BATCH_JOB_EXECUTION_SEQ START WITH 0 MINVALUE 0 MAXVALUE 9223372036854775807 NOCYCLE;
  71. CREATE SEQUENCE BATCH_JOB_SEQ START WITH 0 MINVALUE 0 MAXVALUE 9223372036854775807 NOCYCLE;

[备注]  SQL 脚本在spring batch的核心jar包中有提供。例如: spring-batch-core-2.1.9.RELEASE.jar的核心包org.springframework.batch.core中,schema-drop-[database].sql 的形式提供了各种主流关系型数据库的sql脚本。

spring batch支持的数据库有:Derby, H2, HSQLDB,MySQL, Oracle, PostgreSQL, SQLServer, and Sybase.

chapter 2、Spring Batch concepts

1、spring batch 的主要组件:

Job Repository持久化job执行元数据的基础组件

Job launcher引导job执行的基础组件

Jobbatch处理的应用组件

Stepjob内部的一个词语,一个job由一系列的step组成
Tasklet在step里面应用事务的,可重复执行的处理步骤

Item从数据源输入或者输出的一条记录

Chunk指定大小的item的列表。

Item reader负责从数据源读取item记录的组件

Item Processor负责处理(转换、验证、过滤等动作)item记录的组件

Item writer负责向数据源输出一个chunk的items,即:向数据源输出指定大小的item的列表的组件

2、spring batch如何和外部交互的

外部的cron,quartz等调度,或者web等,可以调用launch,触发spring batch的运行。

3、spring batch的基础组件包括:job launch和job repository。 它们不需要开发人员进行开发,只需要在配置文件中进行配置。

spring batch 的job是一系列在spring batch XML中的step组成。

4、Tasklet的使用

创建一个步骤(step),包括写一个tasklet执行或使用一个Spring Batch提供的tasklet。

当需要解压文件、调用存储过程、或者删除文件、调用sh脚本的时候,需要自己创建Tasklet的实现。

当实现tasklet的时候,这些需求可以划分为batch的read-process-write模式,那么就应该使用chunk元素配置tasklet,作为chunk processing处理步骤。chunk元素使得你的程序更加有效地读取,处理和写入数据。

小结:工作(job)是一系列的步骤(step),这些内容你可以轻易的在spring batch的xml里面进行定义。而步骤(step)由tasklet组成。tasklet可以由“面向模块”编程的chunk组成,或者tasklet完全来由开发者进行定制。

5、Job的相关概念

a、Job工作

b、Job instance工作实例

c、Job execution执行工作

一个工作(job)可以拥有很多工作实例(job instance),每个工作实例(job instance)可以拥有很多工作执行(job execution)。

在Spring Batch中,工作实例(job instance)包括工作(job)和工作参数(job parameter)。

Java代码  

  1. jobLauncher.run(job, new JobParametersBuilder()
  2. .addString("date", "2010-06-27")
  3. .toJobParameters()
  4. );

工作实例等式:

JobInstance = Job + Job-Parameters.

Job instance和Job execution的生命周期的一些规则:

a、当你第一次运行job的时候,spring batch创建job instance和第一个job execution。

b、当前面的同一个job instance被成功的执行完成之后,你不能再次运行这个job instance。

c、你不能同时执行多个相同的实例。

================ 基础部分结束 ============================

时间: 2024-07-31 12:09:06

spring batch(一):基础部分的相关文章

Spring batch 入门基础

Spring Batch是一个轻量级的,完全面向Spring的批处理框架,可以应用于企业级大量的数据处理系统.Spring Batch以POJO和大家熟知的Spring框架为基础,使开发者更容易的访问和利用企业级服务.Spring Batch可以提供大量的,可重复的数据处理功能,包括日志记录/跟踪,事务管理,作业处理统计工作重新启动.跳过,和资源管理等重要功能. 业务方案: 批处理定期提交. 并行批处理:并行处理工作. 企业消息驱动处理 大规模的并行处理 手动或是有计划的重启 局部处理:跳过记录

Spring Batch示例: 读取CSV文件并写入MySQL数据库

Spring Batch示例: 读取CSV文件并写入MySQL数据库 GitHub版本: https://github.com/kimmking/SpringBatchReferenceCN/blob/master/01_introduction/Spring_Batch_MySQL.md 原文链接: Reading and writing CVS files with Spring Batch and MySQL 原文作者: Steven Haines - 技术架构师 下载本教程的源代码: S

Spring Batch使用示例: 读取CSV文件并写入MySQL数据库

GitHub版本: https://github.com/kimmking/SpringBatchReferenceCN/blob/master/01_introduction/Spring_Batch_MySQL.md ------------ 编写批处理程序来处理GB级别数据量无疑是种海啸般难以面对的任务,但我们可以用Spring Batch将其拆解为小块小块的(chunk). Spring Batch 是Spring框架的一个模块,专门设计来对各种类型的文件进行批量处理. 本文先讲解一个简

spring batch(二):核心部分(1):配置Spring batch

spring batch(二):核心部分(1):配置Spring batch 博客分类: Spring 经验 java chapter 3.Batch configuration 1.spring batch 的命名空间 spring xml中指定batch的前缀作为命名空间. 示例: Xml代码   <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.sprin

【转】大数据批处理框架 Spring Batch全面解析

如今微服务架构讨论的如火如荼.但在企业架构里除了大量的OLTP交易外,还存在海量的批处理交易.在诸如银行的金融机构中,每天有3-4万笔的批处理作业需要处理.针对OLTP,业界有大量的开源框架.优秀的架构设计给予支撑:但批处理领域的框架确凤毛麟角.是时候和我们一起来了解下批处理的世界哪些优秀的框架和设计了,今天我将以Spring Batch为例,和大家一起探秘批处理的世界.初识批处理典型场景探秘领域模型及关键架构实现作业健壮性与扩展性批处理框架的不足与增强批处理典型业务场景对账是典型的批处理业务处

初探Spring Batch

此系列博客皆为阅读<Pro Spring Batch>一书的读书笔记: 为什么我们需要批处理? 我们不会总是想要立即得到需要的信息,批处理允许我们在请求处理之前就一个既定的流程开始搜集信息:比如说一个银行对账单,我们可以按月生成,并在用户查询之前开启一个批处理流程进行处理: 有时候它能让生意做得更好:比如说在线购物时,并不是说你买了一个产品零售商就立即发货,而是四五个小时后,统一发货: 更好的利用资源:让应该利用的处理能力闲置起来是一个大的浪费,我们可以定制处理让一个机器一个接一个的运行Job

Spring Batch系列总括(转载)

最近一个项目在使用SpringBatch框架做一个电子商务平台的批处理.网上资料很有限,尤其是中文资料更是少之又少,官网上的文档也只是讲一些入门的基础知识,大部分高级特性都是一笔带过,讲解的很不彻底,在实际开发中碰到的问题很多.因此,特将自己学习.应用Spring Batch的过程总结成一个个小实例写成随笔.一是备忘,二是抛砖引玉,希望更多的高手能参与进来,指出其中的不足和提出自己的见解,大家共通讨论学习.       写过的关于SpringBatch的随笔主要有以下几篇: Spring Bat

Spring Batch 如何健壮可重启可追溯 SKIP/RETRY/RESTART策略的应用

前提:你已经有了一定的Spring基础 你已经可以跑动一个简单的Spring batch 的实例 参考:http://www.cnblogs.com/gulvzhe/archive/2011/10/25/2224249.html http://www.cnblogs.com/cdutedu/p/3789396.html 先盗几个图 JobLauncher 指定一个 JobRepository JobRepository包含了一些传入JOB的参数,主要有六个表去存储 每个JOB可以对应多个Step

Spring Batch 简介

Spring Batch是一个轻量级的,完全面向Spring的批处理框架,可以应用于企业级大量的数据处理系统.Spring Batch以POJO和大家熟知的Spring框架为基础,使开发者更容易的访问和利用企业级服务.Spring Batch可以提供大量的,可重复的数据处理功能,包括日志记录/跟踪,事务管理,作业处理统计工作重新启动.跳过,和资源管理等重要功能. 业务方案: 1.批处理定期提交. 2.并行批处理:并行处理工作. 3.企业消息驱动处理 4.大规模的并行处理 5.手动或是有计划的重启