用python库openpyxl操作excel,从源excel表中提取信息复制到目标excel表中

现代生活中,我们很难不与excel表打交道,excel表有着易学易用的优点,只是当表中数据量很大,我们又需要从其他表册中复制粘贴一些数据(比如身份证号)的时候,我们会越来越倦怠,毕竟我们不是机器,没法长时间做某种重复性的枯燥操作。想象这样一个场景,我们有个几千行的表要填,需要根据姓名输入其对应的身份证号,但之前我们已经做过一个类似的表,同样的一些人的姓名跟身份证号是完整的,那么我们就需要通过一个个查找姓名,然后把身份证号码复制到我们当前要做的表里去。

当我日复一日重复着这些操作的时候,我都很想有一个自动化工具来完成这种操作,把做为人的我从这种非人的折磨里解脱出来,最后还是想到了python,因为这样我能很少的关注语言内部的一些细节,从而专注于解决这个问题。

其安装命令为 pip install openpyxl(在线安装)或者  easy_install openpyxl。

openpyxl的操作可以分四步,第一步载入现有workbook或者创建workbook到内存,分别使用

from openpyxl import load_workbook
from openpyxl import Workbook
#载入现有workbook中
wb1=load_workbook(‘lalala.xlsx‘)
"""
在源表数据量很大的时候,这里我们可以使用openpyxl的read_only模式
载入源表,这样做的好处是不用把整个表都载入内存
"""
wb1=load_workbook(filename=‘lalala.xlsx‘,read_only=True)
#创建workbook
wb2 = Workbook()

第二步就是操作excel表中的sheet了,通过Workbook()创建的workbook默认活动的sheet名称为Sheet,可以通过python交互命令行进行验证。

#获取活动的sheet
ws = wb.active
#设置sheet的标题
ws.title = "range names"
#创建以Pi为标题的sheet
ws = wb.create_sheet(title="Pi")
#获取标题为Sheet1的sheet
ws=wb[‘Sheet1‘]

第三步就是操作sheet中的cell了。需要注意的是,一个cell的位置由它所在的列跟行共同决定,比如一个cell,它在A列,并在第三行,就可以通过ws[‘A3‘]来访问。cell还具有row跟column属性,cell.row跟cell.column的数据类型如下图所示。

特别注意当用read_only模式载入workbook时,cell.row跟cell.column都是int对象。cell.column记录的是cell所在列离第一列的偏移数,并非workbook中真正代表列数的大写字母,比如“A”。

#获取第一行,数据类型为tuplerow=ws[1]#获取A列,数据类型为tuplecolumn=ws[‘A‘]#设置F5的值ws[‘F5‘]=‘sfs‘#设置cell的值ws[‘F5‘].value=‘hello‘#获得cell的行数m=ws[‘F5‘].row#获得cell的列数n=ws[‘F5‘].column#获得特定区域的值,比如从F5到F30,数据类型为tuplek=ws[‘F5‘:‘F30‘]#获得特定区域的值,比如从F5到G30,数据类型为tuplej=ws[‘F5‘:‘G30‘]#获取sheet的最大行数row_count=ws.max_row#获取sheet的最大列数column_count=ws.max_column
最后一步把更改保存,这里要注意,当要保存的表在别的软件(microsoft office或者wps)中打开时,保存操作会报错

wb1.save(‘empty_book.xlsx‘)
wb2.save(filename=‘other_book.xlsx‘)

实现需求

新建一个get_info_from_excel.py文件,用你习惯的编辑器来编辑,首先需要引入openpyxl库中的load_workbook模块。可以使用load_workbook载入已经存在的excel表。

from openpyxl import load_workbook

我们的目的是从源excel表中提取信息并批量复制到目标excel表中,所以我们首先定义一些变量。

#源表名称
source_file_name=‘lalala.xlsx‘
#目标表名称
target_file_name=‘lelele.xlsx‘
#源表中要提取信息的sheet
source_sheet_name=‘Sheet2‘
#目标表中要批量复制信息的sheet
target_sheet_name=‘Sheet2‘
#源表中的标题行在哪一行
source_header_row=3
#目标表中的标题行在哪一行
target_header_row=2
#源表中要根据哪一列数据提取信息,根据源表标题行
source_cell_condition=‘姓名‘
#目标表中要根据哪一列数据复制信息,根据目标表标题行
target_cell_condition=‘姓名‘
#源表中要提取信息的列
source_cell_filled=‘身份证号‘
#目标表中要复制信息的列
target_cell_filling=‘身份证号‘

将源表跟目标表载入内存,方便下一步操作这两个表。

#在源表数据量很大的时候,这里我们可以使用openpyxl的read_only模式载入源表,这样做的好处是不用把整个表都载入内存
#wb_w=load_workbook(source_file_name)
wb_r=load_workbook(filename=source_file_name,read_only=True)
wb_w=load_workbook(target_file_name)

从前面已经定义的sheet名称跟标题行数获取源表跟目标表的标题行:

ws_r=wb_r[source_sheet_name]
ws_w=wb_w[target_sheet_name]

header_row_r=ws_r[source_header_row]
header_row_w=ws_w[target_header_row]

操作源表标题行,获取我们想要的信息:

"""
openpyxl用read_only模式载入workbook时,获取到的cell不是一般的cell,
经过测试cell.column变成偏移了几列的整数,所以这里我们定义一个函数来处理,
把整数转换成excel真正的列数,比如“A”、“BB”等。
"""
def readOnly_offsetColunmNumber_toRealColumn(number):
    column=‘‘
    if number<=26:
       column=chr(number+ord(‘A‘)-1)
    else:
       number1=number//26
       column1=chr(number1+ord(‘A‘)-1)
       number2=number%26
       column2=chr(number2+ord(‘A‘)-1)
       column=column1+column2
    return column

#初始化两个变量,分别是源表的条件列,要复制的列
source_condition_column=‘‘
source_filled_column=‘‘
"""
循环源表的标题列,得到条件列的位置以及要复制列的位置,
再通过内嵌的循环得到条件列的最大行数
"""
for cell in header_row_r:
    if cell.value==source_cell_condition:
       source_condition_column=readOnly_offsetColunmNumber_toRealColumn(cell.column)
    elif cell.value==source_cell_filled:
         source_filled_column=readOnly_offsetColunmNumber_toRealColumn(cell.column)

操作目标表标题行,获取我们想要的信息:

#初始化两个变量,分别是目标表的条件列,要粘贴的列target_condition_column=‘‘target_filling_column=‘‘"""
循环目标表的标题列,得到条件列的位置以及要粘贴列的位置,
再通过内嵌的循环得到条件列的最大行数
"""for cell_j in header_row_w:    if cell_j.value==target_cell_condition:
       target_condition_column=cell_j.column
    elif cell_j.value==target_cell_filling:
         target_filling_column=cell_j.column

现在我们已经得到所有需要的信息,该到实际粘贴数据的时候了。

"""
循环目标表的条件列,内部嵌套循环源表的条件列,一旦目标表条件列的某个cell
与源表条件列某个cell的值相同,我们就把源表要复制列的同一行的cell的值
赋予目标表要粘贴列的同一行的cell。
"""
for cell_m in ws_w[target_condition_column+str(target_header_row+1):target_condition_column+str(ws_w.max_row)]:
    for cell_n in ws_r[source_condition_column+str(source_header_row+1):source_condition_column+str(ws_r.max_row)]:
        if cell_m[0].value==cell_n[0].value:
           ws_w[target_filling_column+str(cell_m[0].row)].value=ws_r[source_filled_column+str(cell_n[0].row)].value

最后保存目标workbook就可以了。

wb_w.save(target_file_name)

 本文转载于https://www.py.cn/toutiao/11131.html

原文地址:https://www.cnblogs.com/jsdd/p/11599321.html

时间: 2024-10-08 09:28:33

用python库openpyxl操作excel,从源excel表中提取信息复制到目标excel表中的相关文章

在excel单元格中提取信息

平时在excel中处理数据的时候,肯定会遇到在单元格提取信息的情况,比如在地址中提取省.市.地区等,如果数据源内容规整的话,可以直接使用left().right().mid()等函数直接提取,但是大多数情况下,数据源的内容比较混乱,这时的就提取需要一些函数的组合,比如下面这种: 上图中是一些地址,我们看到大部分还是按照省.市.区来排列的,但是其中有一些格式并不统一,比如第6行,如何解决,首先我们需要一个辅助列,这个辅助列表就是你希望提取出来的内容,比如我想提取城市,我就弄一个存储城市名的辅助列,

python通过openpyxl操作excel

python 对Excel操作常用的主要有xlwt.xlrd.openpyxl ,前者xlwt主要适合于对后缀为xls比较进行写入,而openpyxl主要是针对于Excel 2007 以上版本进行操作,也就是对后缀为xlsx进行操作. Excel 主要有三大元素,工作簿,Sheet 页,单元格,一个工作簿可以包含多个Sheet页面,而Sheet页由N多个单元格组成,而单元格主要用来存储数据: 一.安装插件 pip install openpyxl 二.创建Excel文件 操作excel之前,首先

python读取excel一例-------从工资表逐行提取信息

在工作中经常要用到python操作excel,比如笔者公司中一个人事MM在发工资单的时候,需要从几百行的excel表中逐条的粘出信息,然后逐个的发送到员工的邮箱中.人事MM对此事不胜其烦,终于在某天请我吃了一碗烩面,于是我给她编写了一个小工具,用python程序读出excel的信息,然后自动发送到员工邮箱中.本着开源分享的原则,我把代码贴出来供有需要的人使用,因为发邮件的部分读取的是公司邮箱的通讯录,所以对程序进行了阉割,只贴出读取excle的部分.如果你用的是类似126或腾讯企业邮箱之类的公共

Python库资源大全【收藏】

本文是一个精心设计的Python框架.库.软件和资源列表,是一个Awesome XXX系列的资源整理,由BigQuant整理加工而成,欢迎扩散.欢迎补充! 对机器学习.深度学习在量化投资中应用感兴趣的朋友可以直接在BigQuant人工智能量化投资平台上开发策略~~~ 本文目录: 算法和设计模型 构建工具 缓存 代码分析 命令行工具 兼容性 计算机视觉 并发和并行 加密 数据分析 数据验证 数据可视化 数据框驱动 数据库 日期和时间 调试工具 深度学习 文档 下载器 电子商务 编辑器插件和IDE

Python库资源大全

转载地址:https://zhuanlan.zhihu.com/p/27350980 本文是一个精心设计的Python框架.库.软件和资源列表,是一个Awesome XXX系列的资源整理,由BigQuant整理加工而成,欢迎扩散.欢迎补充!对机器学习.深度学习在量化投资中应用感兴趣的朋友可以直接在BigQuant人工智能量化投资平台上开发策略~~~ 本文目录: 算法和设计模型 构建工具 缓存 代码分析 命令行工具 兼容性 计算机视觉 并发和并行 加密 数据分析 数据验证 数据可视化 数据框驱动

连续加班一周最终把所有的Python库整理出来了,愿各位早日学会Python!

我们直接开始主题,小伙伴们需要资料的话可以私信我回复01,可以获得大量PDF书籍和视频! Python常用的库简单介绍一下 fuzzywuzzy ,字符串模糊匹配. esmre ,正则表达式的加速器. colorama 主要用来给文本添加各种颜色,并且非常简单易用. Prettytable 主要用于在终端或浏览器端构建格式化的输出. difflib ,[Python]标准库,计算文本差异 . Levenshtein ,快速计算字符串相似度. Chardet 字符编码探测器,可以自动检测文本.网页

Python库整理

库名称简介 Chardet字符编码探测器,可以自动检测文本.网页.xml的编码. colorama主要用来给文本添加各种颜色,并且非常简单易用. Prettytable主要用于在终端或浏览器端构建格式化的输出. difflib,[Python]标准库,计算文本差异 Levenshtein,快速计算字符串相似度. fuzzywuzzy,字符串模糊匹配. esmre,正则表达式的加速器. shortuuid,一组简洁URL/UUID函数库. ftfy,Unicode文本工具7 unidecode,a

转:花了三个月终于把所有的Python库全部整理了!

链接:https://www.jianshu.com/p/2642f9d28f34 库名称简介 Chardet字符编码探测器,可以自动检测文本.网页.xml的编码. colorama主要用来给文本添加各种颜色,并且非常简单易用. Prettytable主要用于在终端或浏览器端构建格式化的输出. difflib,[Python]标准库,计算文本差异 Levenshtein,快速计算字符串相似度. fuzzywuzzy,字符串模糊匹配. esmre,正则表达式的加速器. shortuuid,一组简洁

这几天加班熬夜把所有Python库整理了一遍,非常全面!

库名称简介 Chardet 字符编码探测器,可以自动检测文本.网页.xml的编码.colorama 主要用来给文本添加各种颜色,并且非常简单易用.Prettytable 主要用于在终端或浏览器端构建格式化的输出.difflib,[Python]标准库,计算文本差异Levenshtein,快速计算字符串相似度.fuzzywuzzy 字符串模糊匹配.esmre 正则表达式的加速器.shortuuid 一组简洁URL/UUID函数库.ftfy,Unicode文本工具7unidecode,ascii和U