[DJANGO] excel十几万行数据快速导入数据库研究

先贴原来的导入数据代码:

8 

import os
os.environ.setdefault("DJANGO_SETTINGS_MODULE", "www.settings") 

‘‘‘
Django 版本大于等于1.7的时候,需要加上下面两句
import django
django.setup()
否则会抛出错误 django.core.exceptions.AppRegistryNotReady: Models aren‘t loaded yet.
‘‘‘
import django

if django.VERSION >= (1, 7):#自动判断版本
    django.setup()

from arrears.models import D072Qf
import xlrd #excel读工具
from datetime import datetime
from xlrd import xldate_as_tuple
import time
import random  

time1 = time.time()
#data= xlrd.open_workbook(‘11.xlsx‘) 打开文件
with xlrd.open_workbook(‘11.xlsx‘) as data:
    print u"读取文件结束,开始导入!"
    time2 = time.time()
    table = data.sheet_by_index(0) #获取工作表
    time3 = time.time()
    n=1
    x = y = z = 0
    WorkList = []
    for line in range(n,table.nrows):#nrows = table.nrows #行数 ncols = table.ncols #列数 print sh.row_values(rownum)
        row = table.row_values(line)
        if row: #查看行值是否为空
            for i in [0,1,2,4,28,30,32]:
                if type(row[i]) == float:
                    row[i] = int(row[i])
            if D072Qf.objects.filter(acct_month = row[0],serv_id=row[1]).exists():#判断该行值是否在数据库中重复
                x = x + 1 #重复值计数
            else:
                WorkList.append(D072Qf(acct_month=row[0],serv_id=row[1],acc_nbr=row[2],user_name=row[3],acct_code=row[4],
                                   acct_name=row[5],product_name=row[6],current_charge=row[7],one_charge=row[8],
                                   two_charge=row[9],three_charge=row[10],four_charge=row[11],five_charge=row[12],
                                   six_charge=row[13],seven_charge=row[14],eight_charge=row[15],nine_charge=row[16],
                                   ten_charge=row[17],eleven_charge=row[18],twelve_charge=row[19],oneyear_charge=row[20],
                                   threeyear_charge=row[21],upthreeyear_charge=row[22],all_qf=row[23],morethree_qf=row[24],
                                   aging=row[25],serv_state_name=row[26],mkt_chnl_name=row[27],mkt_chnl_id=row[28],
                                   mkt_region_name=row[29],mkt_region_id=row[30],mkt_grid_name=row[31],mkt_grid_id=row[32],
                                   prod_addr=row[33]))
                y = y + 1 #非重复计数
        else:
             z = z + 1     #空行值计数
        n = n + 1
        if n % 9999 == 0:
            D072Qf.objects.bulk_create(WorkList)
            WorkList = []
            time.sleep(random.random()) #让Cpu随机休息0 <= n < 1.0 s
            print "导入成功一次!"
            print ‘数据导入成功,导入‘+str(y)+‘条,重复‘+str(x)+‘条,有‘+str(z)+‘行为空!‘
            time4 = time.time()
            print "读取文件耗时"+str(time2-time1)+"秒,导入数据耗时"+str(time4-time3)+"秒!"

这条代码目前未全部将十几万行数据全部导入数据库中,只花了1个小时把5万行数据导入其中后,后面越来越慢,主要慢在excel表到了7万行数据左右后,读取excel中数据很慢了,总体来说影响导入速度有几个原因:

1、一直以来采用xlrd导入xls格式文件,如果文件有十几万行,只是读取文件就会花200秒,若换成csv则几乎不花时间

2、代码中这行语句也会影响速度,特别当数据库中数据很大时:if D072Qf.objects.filter(acct_month = row[0],serv_id=row[1]).exists():#判断该行值是否在数据库中重复

3、若一次性将字典添加十几万行数据,就windows的cpu而已是遭受不住的!所以建议1万条数据导入一次后,清空列表

改善后的代码:

优化部分:采用csv格式;取消掉检查重复数据语句;每5万导入一次数据

#coding:utf-8 

import os
os.environ.setdefault("DJANGO_SETTINGS_MODULE", "www.settings") 

‘‘‘
Django 版本大于等于1.7的时候,需要加上下面两句
import django
django.setup()
否则会抛出错误 django.core.exceptions.AppRegistryNotReady: Models aren‘t loaded yet.
‘‘‘
import django

if django.VERSION >= (1, 7):#自动判断版本
    django.setup()

from arrears.models import D072Qf
import time
import random
time1 = time.time()
f = open(‘11.csv‘)
print u"读取文件结束,开始导入!"
time2 = time.time()
WorkList = []
next(f) #将文件标记移到下一行
y = 0
n = 1
for line in f:
    row = line.replace(‘"‘,‘‘) #将字典中的"替换空
    row = row.split(‘;‘) #按;对字符串进行切片
    y = y + 1
    WorkList.append(D072Qf(acct_month=row[0],serv_id=row[1],acc_nbr=row[2],user_name=row[3],acct_code=row[4],
                                   acct_name=row[5],product_name=row[6],current_charge=row[7],one_charge=row[8],
                                   two_charge=row[9],three_charge=row[10],four_charge=row[11],five_charge=row[12],
                                   six_charge=row[13],seven_charge=row[14],eight_charge=row[15],nine_charge=row[16],
                                   ten_charge=row[17],eleven_charge=row[18],twelve_charge=row[19],oneyear_charge=row[20],
                                   threeyear_charge=row[21],upthreeyear_charge=row[22],all_qf=row[23],morethree_qf=row[24],
                                   aging=row[25],serv_state_name=row[26],mkt_chnl_name=row[27],mkt_chnl_id=row[28],
                                   mkt_region_name=row[29],mkt_region_id=row[30],mkt_grid_name=row[31],mkt_grid_id=row[32],
                                   prod_addr=row[33]))
    n = n + 1
    if n%50000==0:
        print n
        D072Qf.objects.bulk_create(WorkList)
        WorkList = []
        time3 = time.time()
        print "读取文件耗时"+str(time2-time1)+"秒,导入数据耗时"+str(time3-time2)+"秒!"
time3 = time.time()
print n
D072Qf.objects.bulk_create(WorkList)
print "读取文件耗时"+str(time2-time1)+"秒,导入数据耗时"+str(time3-time2)+"秒!"
WorkList = []
print "成功导入数据"+str(y)+"条"
f.close() 

结果让人大吃一惊!!!,只耗时73秒

Python 2.7.10 (default, May 23 2015, 09:40:32) [MSC v.1500 32 bit (Intel)] on win32
Type "copyright", "credits" or "license()" for more information.
>>> ================================ RESTART ================================
>>>
读取文件结束,开始导入!
50000
读取文件耗时0.0秒,导入数据耗时34.3279998302秒!
100000
读取文件耗时0.0秒,导入数据耗时67.3599998951秒!
138400
读取文件耗时0.0秒,导入数据耗时73.4379999638秒!
成功导入数据138399条
>>> 
时间: 2024-10-08 05:11:44

[DJANGO] excel十几万行数据快速导入数据库研究的相关文章

excel十几万行数据快速导入数据库研究(转,下面那个方法看看还是可以的)

先贴原来的导入数据代码: 8 import os os.environ.setdefault("DJANGO_SETTINGS_MODULE", "www.settings") ''' Django 版本大于等于1.7的时候,需要加上下面两句 import django django.setup() 否则会抛出错误 django.core.exceptions.AppRegistryNotReady: Models aren't loaded yet. ''' im

HBase数据快速导入之ImportTsv&amp;Bulkload

导入数据最快的方式,可以略过WAL直接生产底层HFile文件 (环境:centos6.5.Hadoop2.6.0.HBase0.98.9) 1.SHELL方式 1.1 ImportTsv直接导入 命令:bin/hbase org.apache.hadoop.hbase.mapreduce.ImportTsv Usage: importtsv -Dimporttsv.columns=a,b,c <tablename> <inputdir> 测试: 1.1.1在HBase中创建好表 c

用java实现excel数据批量导入数据库

不管是做软件还是做网站,相信很多人在做的时候都要用到数据库,而数据库的数据从何而来呢,可以使手动添加的,但是大多数情况下我们使用的是已有的数据,我们想借助开发的工具管理目前已有的数据,如果是小量的数据,手动录入也无妨,但是对于大量数据呢,手动录入显然已经不显示,而且,更多的时候,我们呢想在软件上增加一个数据的批量导入,这样不管是谁在用这款软件,都可以方便的管理已有数据,那么我们最常用的数据管理器是什么呢,毫无疑问Excel,但是我们做软件是几乎没有人会使用Excel作为DB,所以我们遇到的问题就

使用python,将excel数据批量导入数据库

这是上一篇文章的优化版本,相较于一条一条的执行sql语句,本文中,将excel中所有的数据先写到list列表中 在通过函数 cursor.executemany(sql, list) 一次性写入到数据库中 import pymysql import xlrd ''' 连接数据库 args:db_name(数据库名称) returns:db ''' def mysql_link(de_name): try: db = pymysql.connect(host="127.0.0.1", u

Mysql --学习:大量数据快速导入导出

声明:此文供学习使用,原文:https://blog.csdn.net/xiaobaismiley/article/details/41015783 [实验背景] 项目中需要对数据库中一张表进行重新设计,主要是之前未分区,考虑到数据量大了以后要设计成分区表,同时要对数据库中其他表做好备份恢复的工作. [实验环境] Mysql版本:mysql-5.6.19 操作系统:Ubuntu 12.04 内存:32G CPU:24核  Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00

将Excel上千条数据写入到数据库中

简要说明:因工作需要,需要一张Excel表格中的所有数据导入到数据库中.如下表,当然这只是一部分,一共一千多条. 前期处理: 首先要保证上图中的Excel表格中的数据不能为空,如果有为空的数据,可以稍微进行处理,比如将所有为空的数据替换成加一个空格.(我的这个解析器只能解析Microsoft Excel 97-2003 工作表 (.xls)这个格式的表格,如果不是这个形式的需要进行转化.) 然后就是找一个添加页面,添加一个上传附件的功能,即添加一个type类型为file的input标签.比如 <

将Excel中的数据批量导入数据库表

private boolean import_to_database(String excel_path) throws BiffException, IOException, HsException{ File file = new File(excel_path);//根据文件名创建一个文件对象 Workbook wb = Workbook.getWorkbook(file);//从文件流中取得Excel工作区对象 Sheet sheet = wb.getSheet(0);//从工作区中取得

excel表格中的数据如何放到数据库中(非导入)

平时经常用到excel中的数据,想比较两个excel数据的关联性,数据太多,所以放到数据库中,用脚本查询就会比较方便.这里说一下怎么放到数据库中并查询对比. 这里以PL/SQL为例. 需求:有两张表,其中每个表中有一列与另一表的列相同,如何让他们一一对应.如图两个excel 第二张 红框内的数据为相等的数据,现在想查看一一对应关系 方法是: 1.在数据库中建表asad_t1 对应excel1,并多出一个字段,表2asad_t2对应excel2 2.将excel1中数据复制,在plsql中执行se

读取超大Excel(39万行数据)

有个学长需要处理Excel数据,Excel数据共有39W,将数据读取后处理并导出数据.最开始尝试了 NPOI ,发现NPOI 并不能完成该项任务,随后尝试引用的com组件:Microsoft.Office.Interop.Excel.dll   读取EXCEL文件 . 最终 ,也以失败告终.最终,采用 将Excel 转为CSV 格式读取. 逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文