微软BI 之SSIS 系列 - 带有 Header 和 Trailer 的不规则的平面文件输出处理技巧

案例背景与需求介绍

之前做过一个美国的医疗保险的项目,保险提供商有大量的文件需要发送给比如像银行,医疗协会,第三方服务商等。比如像与银行交互的 ACH 文件,传送给协会的 ACH Credit 等文件。这些文件格式在美国都是开放的,通用的,可以直接到相关网站下载。也就是说像银行,协会等他们接受这种固定格式的文件,读取数据,读取公司编号进行业务来往或者记录。我当时就是直接在网上搜索到一个 PDF 格式的文件说明,大概有10来页,就是告诉你这个格式是如何定义,应该如何来处理的。

那么这种文件并非像我们通常看到的一个文件所有的行都是遵循一种格式,这种文件分为很多 Section:

  1. File Header/Trailer
  2. Batch Header/Trailer
  3. 还有细节的交易数据等

可以参看 - http://www.treasurysoftware.com/ach.html 或 http://www.treasurysoftware.com/ach-file-format.html

会发现第1,2,3-5,6,7 行它们的格式都不一样,不同于我们之前的平面文件输出,在同一种格式下批量输出。

它们的文件格式说明就明确规定了某一行的输出有多少列,每列应该是什么内容,宽度,格式等等都严格的定义了。

案例演示与讲解

下面我使用 Adventure Works DW 2012 数据中的数据模拟输出类似于这种格式的平面文件。

比如下方是我的一个文件示例,第一行是单独的一个 Section,第二行也是,自第三行起到倒数第二行的格式是相同的,最后一行又是独立的一个输出格式。那么这个文件就是由 4 个 Section 组成。

假设格式的定义如下所示:

一般来说,对于 Header 或者 Trailer 中数据通常以描述性数据为主。比如像 Header 1 中的标题部分 -  ADVENTUREWORKS EMPLOYEE INFORMATION  这些都是固定的长度。但同时也有动态变化的内容,比如 Header 1 中的文件输出日期,以及 Header 2 中的员工数量。像 Trailer 部分,一般也是这种描述性的数据为主。

那么如何来输出这种格式的数据,很显然我们不能直接指定一个数据源表,然后将表中的内容给查询出来然后控制好长度直接输出,因为几个不同 Section 部分的格式是不一样的。我们的做法是,将 Header 1 和 Header 2 这样占少量行的数据拼接成一个整体输出;而对于像 Content 部分细节数据则使用数据库表操作自然输出。

同时,还要解决一个问题,如何让这不同格式的 Section 能够输出到同一个文件?这些在下面的步骤中都将能看到。

下面这三部分的数据将为 OLE DB Source 提供数据查询结果 -

对于 Header 1 和 Header 2 的处理

创建存储过程,此存储过程输出一个两行单列的表数据。

IF OBJECT_ID(‘T006_GET_EMPLOYEE_FILE_HEADERS‘) IS NOT NULL
DROP PROCEDURE T006_GET_EMPLOYEE_FILE_HEADERS
GO

CREATE PROCEDURE T006_GET_EMPLOYEE_FILE_HEADERS
AS
BEGIN
 SET NOCOUNT ON

 DECLARE @EMPLOYEE INT
 SELECT @EMPLOYEE = COUNT(*)
 FROM T006_EMPLOYEE

 SELECT ‘FILE CREATED DATE:‘ + -- Description
   CONVERT(VARCHAR(12),GETDATE(),110) + -- File Created Date
   SPACE(20) + -- 80 spaces
   ‘**********‘ +
   ‘ ADVENTUREWORKS EMPLOYEE INFORMATION ‘ + -- Company Report Name
   ‘**********‘ +
   SPACE(95) AS HEADER
 UNION
 SELECT ‘TOTAL EMPLOYEES:‘ +
   CONVERT(VARCHAR(10),@EMPLOYEE) +
   SPACE(184-LEN(CONVERT(VARCHAR(10),@EMPLOYEE))) AS HEADER
END
GO

对于 Trailer 的数据处理

创建存储过程,输出一个一行一列的表数据。

IF OBJECT_ID(‘T006_GET_EMPLOYEE_FILE_TRAILERS‘) IS NOT NULL
DROP PROCEDURE T006_GET_EMPLOYEE_FILE_TRAILERS
GO
CREATE PROCEDURE T006_GET_EMPLOYEE_FILE_TRAILERS
AS
BEGIN
 SET NOCOUNT ON
 SELECT REPLACE(SPACE(92),‘ ‘,‘*‘) +
   ‘ ADVENTUREWORKS ‘ +
   REPLACE(SPACE(92),‘ ‘,‘*‘) AS TRAILER
END

对于 Content 的数据处理

直接使用查询即可,然后在输出文件的时候确保各列输出的格式与长度。

SELECT FirstName +‘ ‘+LastName AS CustomerName,
 Title,
 HireDate,
 BirthDate,
 EmailAddress,
 Phone,
 MaritalStatus
FROM T006_EMPLOYEE

在控制流中,需要由3个数据流包构成,分别操作 Header 部分的输出,Content 部分的输出以及 Trailer 部分的输出。

连接管理器 CM_FF_EMPLOYEE_HEADER 接受来自于 T006_GET_EMPLOYEE_FILE_HEADERS 存储过程的输出。

连接管理器 CM_FF_EMPLOYEE_CONTENT 接受 SELECT 查询结果,同时要注意控制各列按指定宽度输出。

连接管理器 CM_FF_EMPLOYEE_TRAILER 接受存储过程 T006_GET_EMPLOYEE_FILE_TRAILERS 的输出。

但是要注意,它们指向的都是同一个目标平面文件。当然,马上就会有人问:那么不会出现后一个文件将前一个文件覆盖掉的后果吗?

这就是本案例处理的关键点所在 - 在 CM_FF_EMPLOYEE_HEADER 目标编辑器中选中 Overwrite data in the file - 覆盖已存在的文件。

但是在后面两个输出中将不会选择这个选项,那么后面两个输出 Content 和 Trailer 将会紧接着 Header 写入到同一个文件中形成一个整体。

最终的输出效果如下 -

处理平面文件还需要了解这几篇文章

微软BI 之SSIS 系列 - 对于平面文件中 NULL 值处理过程中容易极易混淆的几个细节

微软BI 之SSIS 系列 - 平面文件格式的区别(Delimited,Fixed width,Ragged Right, Fixed width ...)

更多 BI 文章请参看 BI 系列随笔列表 (SSIS, SSRS, SSAS, MDX, SQL Server)  如果觉得这篇文章看了对您有帮助,请帮助推荐,以方便他人在 BIWORK 博客推荐栏中快速看到这些文章。

时间: 2024-10-12 17:10:04

微软BI 之SSIS 系列 - 带有 Header 和 Trailer 的不规则的平面文件输出处理技巧的相关文章

微软BI 之SSIS 系列 - 使用 Script Component Destination 和 ADO.NET 解析不规则文件并插入数据

开篇介绍 这一篇文章是 微软BI 之SSIS 系列 - 带有 Header 和 Trailer 的不规则的平面文件输出处理技巧 的续篇,在上篇文章中介绍到了对于这种不规则文件输出的处理方式.比如下图中的这种不规则文件,第一行,第二行 Header 部分,第三行的内容 Content 部分,最后一行的 Trailer 部分. 在前几个课程 微软BI SSIS 2012 ETL 控件与案例精讲 第43,44,45,46 课中,我分别讲解了如何使用 .Script Component Source 解

微软BI 之SSIS 系列 - 对于平面文件中 NULL 值处理过程中容易极易混淆的几个细节

最近有人问我 OLE DB Destination 中的 Keep Nulls 如何控制 NULL 值的显示,为什么选中了 Keep Nulls 但是数据库中没有 NULL 值? 为什么在 Flat File Source 中勾选上了 Retain null values from the source as null values in the data flow 但是为什么目标表上显示的是一个当前日期,而不是 NULL 值等等,单开此文来解释这些非常容易混淆的概念. 在比较纯粹的 ETL 项

微软BI 之SSIS 系列 - 在 SSIS 中导入 ACCESS 数据库中的数据

开篇介绍 来自 天善学院 一个学员的问题,如何在 SSIS 中导入 ACCESS 数据表中的数据. 在 SSIS 中导入 ACCESS 数据库数据 ACCESS 实际上是一个轻量级的桌面数据库,直接使用文件形式存储.在国内大量使用 ACCESS 作为 BI 数据源并不多,但是在国外特别是美国使用的还比较多,因为他们的 IT 基础起步比较早.在我的第一个美国的医疗保险项目中,就遇到过大量的 ACCESS 数据源,前后总共有 500 多个 ACCESS 表.而现在从国外一些朋友反馈的情况仍然还有在使

微软BI 之SSIS 系列 - 再谈Lookup 缓存

开篇介绍 关于 Lookup 的缓存其实在之前的一篇文章中已经提到了 微软BI 之SSIS 系列 - Lookup 组件的使用与它的几种缓存模式 - Full Cache, Partial Cache, NO Cache 但是还是可能遗漏的部分内容,因此在这里重新总结并补充一下.这是第一篇,还是从理论的角度来讨论 Lookup 缓存的问题:后面有空还会再写一篇,从后台 SQL 执行的情况来理解 Lookup 的工作过程. 并且关于 Lookup 缓存还有其它比较有意思的话题,比如我的这些帖子,大

微软BI 之SSIS 系列 - MVP 们也不解的 Scrip Task 脚本任务中的一个 Bug

开篇介绍 前些天自己在整理 SSIS 2012 资料的时候发现了一个功能设计上的疑似Bug,在 Script Task 中是可以给只读列表中的变量赋值.我记得以前在 2008 的版本中为了弄明白这个配置,还特意测试过这个细节,获取错误并理解了这个功能.但是现在回去再次测试 2008 的版本时,发现这个功能在 2008 中其实也是错误的,把我印象中的测试结果完全给推翻了,所以到现在已经搞不清楚我当时到底是如果得出这个错误的. 疑似功能 Bug 描述 在 SSIS 包中定义了用户自定义变量 - PV

微软BI 之SSIS 系列 - Lookup 中的字符串比较大小写处理 Case Sensitive or Insensitive

前几天碰到这样的一个问题,在 Lookup 中如何设置大小写不敏感比较,即如何在 Lookup 中的字符串比较时不区分大小写? 实际上就这个问题已经有很多人提给微软了,但是得到的结果就是 Closed and Won’t fix. 说白了,这个就是 By Design,包括到现在的 2012 也没有这个配置选项. https://connect.microsoft.com/SQLServer/feedback/details/339069/ssis-case-sensitive-data-flo

微软BI 之SSIS 系列 - 使用 Script Task 访问非 Windows 验证下的 SMTP 服务器发送邮件

开篇介绍 大多数情况下我们的 SSIS 包都会配置在 SQL Agent Job 中周期性的按计划执行,比如每天晚上调用 SSIS 包刷新数据,处理 Cube 等.一旦 SSIS 包中出现任何异常,报错,那么配置在 SQL Agent Job 中的通知,邮件提醒就会把这些错误信息发邮件到指定的用户或者系统维护者,这样就起到了一个错误监控的作用. 但是在有的情况下,有一些自定义的 SSIS 调度框架的计划调度都不是通过 SQL Agent Job 配置来完成的.比如我以前在一个小项目中设计过一个

微软BI 之SSIS 系列 - Execute SQL Task 中的 Single Row 与 Full Result Set 的处理技巧

开篇介绍 Execute SQL Task 这个控件在微软BI ETL 项目中使用的频率还是非常高的,也是大部分入门 SSIS 初学者最早接触到的几个控制流控件. 我们通常使用 Execute SQL Task 的场景包含但不止于以下几类: 在从源端加载数据到 Staging 表之前使用 Execute SQL Task 执行一些 Truncate 操作. 执行一些 Log 的插入,更新操作. ETL 过程中的 Merge 语句操作. XML 的输出处理. 关于如何使用 Execute SQL

微软BI 之SSIS 系列 - ErrorOutput 错误输出与处理

在实际项目中,特别是从某数据源抽取数据到目标表的时候,我相信大家经常碰到的几种情况有: 1. 加载数据的时候在数据源端控件出现错误. 2. 数据源端的错误解决了,但是在数据目标控件位置又出现了错误. 3. 通过增加 Data Conversion 进行数据类型转换可能解决了错误使得整个流程成功了,但是为什么? 数据源端出现的错误. 目标端出现的错误. 可能存在的需求: 1. 遇到错误就忽略 2. 需要将错误数据导出到错误表以便查看 除了上述可能存在的需要解决的问题和需求,还有以下几个问题: 上图