近期有一个行业项目,需要把较大数据从文件中导入到oracle。
我们使用oracle的sqlldr导入数据,当数据量较大时导入的时间过长:导入一张8千万条记录的表需要2.5个小时,太慢了。
后来采用了sqlldr并行导入的方式将时间缩短到了0.8小时,这里记录一下使用过程。
思路
将要导入的数据文件拆分成10份,然后使用多任务并行执行对应数据份数的sqlldr命令(当然也就需要同样数量的control文件),多个客户端同时往数据库中导入数据。
这里有两点比较重要,1、如何自动生成若干条sqlldr命令和若干个control文件(一个个写有点累);2、如何同时并行执行(一个个去执行就更累了)。
这里借助了集算器这个工具完成自动生成命令和控制文件,再并行执行。
实现步骤
主程序
负责任务控制,任务分配、调用子程序。
子程序
生成具体control文件和sqlldr命令,并执行导入命令完成数据加载
【注】这里使用了集算器的并行机制来同时执行多个sqlldr命令;使用system函数调用系统命令。
实际效果
由于是程序控制的并行任务,所以可以根据实际需要设置并行任务数,将机器性能发挥到最优。
下图记录了不同并行数情况下sqlldr导入速度,总体是呈线性增长的,并发任务越多,导入速度越快。
并行提高oracle数据导入速度
时间: 2024-11-08 04:02:07