ETL 循环导入 平面文件

http://blog.csdn.net/zlp321002/article/details/3413365

ETL设计之-Foreach 循环容器

应用场景:

批量导入某一文件夹下的所有文件.就可以用foreach循环容器里面的文件枚举。

   

要求:需要把D:/Temp目录下所有csv导入某一个表。如下图:

步骤:

1、在控制流中拖拽一个Foreach循环容器。如下图:

2、配置Foreach循环容器。

a、编辑Foreach循环容器,配置集合方式和参数参考如下:

说明:选择枚举:Foreach 文件枚举器

选择文件夹: D:/Temp

a、编辑Foreach循环容器,配置变量映射,如下图:

需要新建一个Foreach循环变量,未传递给平面文件的路径。

3、配置平面文件入库。

a、在控制流中拖拽一个数据流任务在Foreach循环容器中,如下图:

b、配置数据流任务的平面文件。双击控制流,进入数据流。

1)选择平面文件管理器,如下图:

2)配置OLDB目标,环境如下图:

4、执行该包,如下图:

5、包成功导入完成,查看数据库数据:

导入数据中间会出现 字段被截断的错误,请参照下面的方法解决。

http://bbs.csdn.net/topics/250056337

1 故障分析: 
理由很简单,默认的平文件,每个字段的宽度是50, 
如果你的平面数据源的字段超过这个,则会出现上面这个错误。

2 解决方案:

也很简单,在数据源的高级里面(也就是文本的高级设置),手工设定每个字段允许的最大宽度就行了.
而不是设置数据库表的这个字段长度。

时间: 2024-11-04 12:49:23

ETL 循环导入 平面文件的相关文章

sql server 导入平面文件源数据,错误 0xc02020a1错误 0xc020902a 错误 0xc02020c5,返回状态值 4 和状态文本“文本被截断,或者一个或多个字符在目标代码页...

使用sql server 导入平面文件源数据时,报错:错误 0xc02020a1: 错误 0xc020902a: 错误 0xc02020c5:错误 0xc0047022: 返回状态值 4 和状态文本"文本被截断,或者一个或多个字符在目标代码页中没有匹配项. 错误 0xc02020a1: 数据流任务 1: 数据转换失败.列"列 6"的数据转换返回状态值 4 和状态文本"文本被截断,或者一个或多个字符在目标代码页中没有匹配项.". (SQL Server 导入

HData——ETL 数据导入/导出工具

HData是一个异构的ETL数据导入/导出工具,致力于使用一个工具解决不同数据源(JDBC.Hive.HDFS.HBase.MongoDB.FTP.Http.CSV.Excel.Kafka等)之间数据交换的问题.HData在设计上同时参考了开源的Sqoop.DataX,却与之有不同的实现.HData采用“框架+插件”的结构,具有较好的扩展性,框架相当于数据缓冲区,插件则为访问不同的数据源提供实现. [HData特性] 1.异构数据源之间高速数据传输: 2.跨平台独立运行: 3.数据传输过程全内存

Python 1-2模块的循环导入问题

run.py文件: import m1 # 第一次导入 # 验证解决方案一: ''' 正在导入m1 正在导入m2 ''' # print(m1.x) # print(m1.y) # 验证解决方案二: import m1 # 第一次导入 ''' 正在导入m1 ''' # print(m1.x) # print(m1.f1) m1.f1() ''' 正在导入m2 m1.f1---->y:m2 m2.f2--->x:m1 ''' m1.py文件: # 错误示范 ''' print('正在导入m1')

模块导入、循环导入、模块查找顺序、相对导入及绝对导入

模块导入 什么是模块 模块:就是一系列功能的结合体 模块的三种来源: 1.内置的(python解释器自带) 2.第三方的(别人写的) 3.自定义的(自己写的) 模块的四种表现形式 1.使用python编写的py文件(也就意味着py文件也可以称之为模块:一个py文件也可以称之为一个模块) 2.已被编译为共享库或DLL的C或C++扩展(了解) 3.把一系列模块组织到一起的文件夹(文件夹下有一个__init__.py文件,该文件夹称之为包) 包:一系列py文件的结合体 4.使用C编写并连接到pytho

1.模块2.循环导入问题及解决思路3.区分py文件的两种类型4.模块的查找顺序5.模块的绝对导入与相对导入6.项目开发的目录规范

一.模块 什么是模块? 模块就是一系列功能的结合体 模块的三种来源: 1.内置的(python解释器自带的) 2.第三方的(别人写的) 3.自定义的(你自己写的) 模块的四种表现形式: 1.使用python编写的py文件(也就是意味着py文件也是可以称之为模块 2.已被编译为共享库或DLL的或C++扩展(了解) 3.把一系列模块组织到一起的文件夹(文件夹下有一个__init__.py文件,该文件夹称之为包) 4.使用C编写并连接到Python解释器的内置模块 模块选择 1.用别人写好的模块(内置

python 循环导入的问题

目录 循环导入的问题 一.什么是循环导入? 二.解决方案 2.1方案一 2.2 方法二 循环导入的问题 一.什么是循环导入? 就像下图一样是一个循环的过程,只要开始就没有结束. #m1.py print('from m1.py') from m2 import x y = 'm1' 创建m2的名称空间 执行m2.py,将执行产生的名字丢到m2.py 在当前执行文件中拿到m2.x #m2.py print('from m2.py') from m1 import y x = 'm2' 创建m1的名

模块,循环导入

目录 模块的四种形式 import和from...import... import 模块 from 模块 import 方法 import与from...import的优缺点 循环导入 解决方法 模块的搜索路径 python文件的两种用途 模块的四种形式 在python中,总共有以下四种形式的模块: 内置模块:python解释器启动自带的模块,random / time -- pip install 安装的模块 自定义模块:如果你自己写一个py文件,在文件内写入一堆函数,则它被称为自定义模块,即

python爬虫循环导入MySql数据库

1.开发环境 操作系统:win10    Python 版本:Python 3.5.2   MySQL:5.5.53 2.用到的模块 没有的话使用pip进行安装:pip install xxx    xxx需要安装的模块 3.分析链接(博客官网:https://www.cnblogs.com/) 这里我们简单分析首页部分 经分析首页的分页系统链接变量是最后一个数字,所以可将访问的链接写成如下模式,这样执行的时候加个循环就能访问需要访问的所有页面内容 4.分析页面内容 整个页面 咱们需要的信息是博

(转)Python中的模块循环导入问题

本文转自: https://wiki.woodpecker.org.cn/moin/MiscItems/2008-11-25 问题 cleven <[email protected]> 回覆至 [email protected] 收件人 [email protected] 日期 2008年11月25日 下午 12:01 主旨 [CPyUG:72341] import嵌套的问题 看了<Python源码剖析>,里面提到的嵌套import的问题还是没有弄明白,各位给看一下吧. [A.py