Python 使用 win32com 模块对word文件进行操作

what‘s the win32com 模块

  win32com 模块主要为 Python 提供调用 windows 底层组件对 word 、Excel、PPT 等进行操作的功能,只能在 Windows 环境下使用,并且需要安装 office 相关软件才行(WPS也行)。

  使用 win32com 模块主要是因为 Python 针对 word 文档操作的第三方库相对较少并且功能较弱,Python 有针对 .docx 后缀文件的第三方库如 python-docx、pydocx等等,但是没有针对 .doc 和 .wps 的第三方库,所以这里就只能使用 win32com 模块。 相对而言 Python 针对 Excel文档操作的第三方库就非常友好

pip install pywin32
import win32com
# 最常用的模块其实是win32com.client

基本操作

模拟打开 office

word = win32com.client.Dispatch(‘Word.Application‘)
# 或者使用下面的方法,使用启动独立的进程:
# word = win32com.client.DispatchEx(‘Word.Application‘)

声明属性

word.Visible = 0 # 后台运行
word.DisplayAlerts = 0 # 不显示,不警告
# 如果不声明上述属性,运行的时候会显示的打开office软件操作文档

打开文件

doc = word.Documents.Open(‘xxx.doc) # 打开一个已有的word文档
# new_doc = word.Documents.Add() # 创建新的word文档

读取内容

data = doc.paragraphs[0].text

插入文字

 # 在文档开头添加内容
myRange1 = doc.Range(0,0)
myRange1.InsertBefore(‘Hello word‘)

# 在文档末尾添加内容
myRange2 = doc.Range()
myRange2.InsertAfter(‘Bye word‘) 

# 在文档i指定位置添加内容
myRange3= doc.Range(0, insertPos) # insertPos为数字
myRange3.InsertAfter(‘what‘s up, bro?‘) 

针对关键词的操作

  应用场景:搜索关键字,将目标关键字替换为指定文字,或者更改关键字颜色、背景色等等

  • 文字替换

    word.Selection.Find.ClearFormatting()
    word.Selection.Find.Replacement.ClearFormatting()
    word.Selection.Find.Execute(OldStr, False, False, False, False, False, True, 1, True, NewStr, 2)
    ‘‘‘
    上面涉及的 11 个参数说明
             (OldStr--搜索的关键字,
             True--区分大小写,
             True--完全匹配的单词,并非单词中的部分(全字匹配),
             True--使用通配符,
             True--同音,
             True--查找单词的各种形式,
             True--向文档尾部搜索,
             1,
             True--带格式的文本,
             NewStr--替换文本,
             2--替换个数(0表示不替换,1表示只替换匹配到的第一个,2表示全部替换)
    ‘‘‘
  • 更改文字颜色、背景色

    self.xlApp.Selection.Find.ClearFormatting()
    self.xlApp.Selection.Find.Replacement.ClearFormatting()
    
    # 循环操作,将每个匹配到的关键词进行换色
    while self.xlApp.Selection.Find.Execute(str, False, False, False, False, False, True, 0, True, "", 0):
        word.Selection.Range.HighlightColorIndex  = 11 # 替换背景颜色为绿色
        word.Selection.Font.Color= 255 # 替换文字颜色为红色

    ‘‘‘
    wdAuto    0    Automatic color. Default; usually black.
    wdBlack    1    Black color.
    wdBlue    2    Blue color.
    wdBrightGreen    4    Bright green color.
    wdByAuthor    -1    Color defined by document author.
    wdDarkBlue    9    Dark blue color.
    wdDarkRed    13    Dark red color.
    wdDarkYellow    14    Dark yellow color.
    wdGray25    16    Shade 25 of gray color.
    wdGray50    15    Shade 50 of gray color.
    wdGreen    11    Green color.
    wdNoHighlight    0    Removes highlighting that has been applied.
    wdPink    5    Pink color.
    wdRed    6    Red color.
    wdTeal    10    Teal color.
    wdTurquoise    3    Turquoise color.
    wdViolet    12    Violet color.
    wdWhite    8    White color.
    wdYellow    7    Yellow color.
    ‘‘‘

    更多背景颜色的值

  • 更多其他属性,请查阅 microsoft 网站提供的信息:https://docs.microsoft.com/en-us/dotnet/api/microsoft.office.interop.word?view=word-pia

页眉文字替换

word.ActiveDocument.Sections[0].Headers[0].Range.Find.ClearFormatting()
word.ActiveDocument.Sections[0].Headers[0].Range.Find.Replacement.ClearFormatting()
word.ActiveDocument.Sections[0].Headers[0].Range.Find.Execute(OldStr, False, False, False, False, False, True, 1, False, NewStr, 2)

打印

doc.PrintOut()

保存

doc.Save() # 保存
doc.SaveAs(‘asdasd.doc‘) # 另存为

退出

  退出操作必须得做,不然进程就会一直占据着这个文件,下次操作相同文件的时候就会报错

doc.Close() # 关闭 word 文档
word.Documents.Close(wc.wdDoNotSaveChanges) # 保存并关闭 word 文档
word.Quit() # 关闭 office

注意事项

  对文档的操作理论上支持多线程,但是会有大概率报错。建议开启多线程时全局声明一个 word 然后每一个线程声明一个 doc 进行操作,而不是每一个线程都声明一个 word 和 doc。并且,在每一个线程中,doc 声明之前+doc关闭之后,需要加入以下两行代码

import pythoncom

pythoncom.CoInitialize() # 声明 doc 之前要加入的代码

doc = wordhandle.Documents.Open(‘xxx.doc‘’)
# 各种骚操作
doc.Save()
doc.Close()

pythoncom.CoUninitialize() # 关闭 doc 之后加入的代码

转码操作

  win32com 模块支持对文档进行各种转码操作,如 doc 转 docx,docx 转 doc,wps 转 pdf,pdf 转 docx 等等

下面举个 docx 转 pdf 例子

from win32com import client as wc

word = wc.Dispatch("Word.Application")
wordhandle.Visible = 0 # 后台运行,不显示
wordhandle.DisplayAlerts = 0  #不警告
doc = wordhandle.Documents.Open(‘xxx.docx‘)
doc.SaveAs(‘xxx.pdf‘, 17) #  txt=4, html=10, docx=16, pdf=17
doc.Close()
word.Quit()

‘‘‘
            wdFormatDocument = 0
            wdFormatDocument97 = 0
            wdFormatDocumentDefault = 16
            wdFormatDOSText = 4
            wdFormatDOSTextLineBreaks = 5
            wdFormatEncodedText = 7
            wdFormatFilteredHTML = 10
            wdFormatFlatXML = 19
            wdFormatFlatXMLMacroEnabled = 20
            wdFormatFlatXMLTemplate = 21
            wdFormatFlatXMLTemplateMacroEnabled = 22
            wdFormatHTML = 8
            wdFormatPDF = 17
            wdFormatRTF = 6
            wdFormatTemplate = 1
            wdFormatTemplate97 = 1
            wdFormatText = 2
            wdFormatTextLineBreaks = 3
            wdFormatUnicodeText = 7
            wdFormatWebArchive = 9
            wdFormatXML = 11
            wdFormatXMLDocument = 12
            wdFormatXMLDocumentMacroEnabled = 13
            wdFormatXMLTemplate = 14
            wdFormatXMLTemplateMacroEnabled = 15
        ‘‘‘

转码的码

原文地址:https://www.cnblogs.com/zhuminghui/p/11765401.html

时间: 2024-08-13 11:28:31

Python 使用 win32com 模块对word文件进行操作的相关文章

python之OS模块(对文件or目录操作)

OS模块 os,语义为操作系统,包含普遍的操作系统功能,与具体的平台无关.python编程时,处理文件和目录这些操作,就比如说:显示当前目录下所有文件/删除某个文件/获取文件大小-- os模块不受平台限制,也就是说:当我们要在linux中显示当前命令时就要用到pwd命令,而Windows中cmd命令行下就要用到这个,例如:这时候我们使用python中os模块的os.path.abspath(name)功能,甭管是linux或者Windows都可以获取当前的绝对路径. 常见函数列表 os.name

关于python包,模块,.pyc文件和文件导入理解

参考文献 一.包 包是一个文件夹,用来存放模块和子包. 包里一般会有一个__init__.py的文件(也可以没有). 包里会有一个__pycache__文件夹,存放.py文件经解释器解释后的中间字节码(二进制文件). 二.模块 可以作为模块的文件有.py..pyc..pyo..pyd..so..dll文件. 三..pyc文件与.pyo文件 这两个文件都是二进制文件,由python解释器将.py文件转化成的二进制文件,目的是加快解释速度且可以隐藏源代码. python解释器在解释.py文件时,会优

Python——函数,模块,简单文件读写

函数(function)定义原则: 最大化代码重用,最小化代码冗余,流程符合思维逻辑,少用递归; 函数的定义方法: def function_name(param_1, param_2): ..... return output  #输出,结束函数 注意: 函数要在使用之前定义函数的使用方法以print()函数为例形式参数和实际参数在函数内定义的变量为本地变量,在函数外无法访问 参数传递: 实际参数通过赋值运算传递给形式参数注意:如果参数是列表,在函数内可以被修改 (列表可以原位传递) 1 de

Python——函数,模块,简单文件读写(python programming)

函数(function)定义原则: 最大化代码重用,最小化代码冗余,流程符合思维逻辑,少用递归; 函数的定义方法: def function_name(param_1, param_2): ..... return output  #输出,结束函数 注意: 函数要在使用之前定义函数的使用方法以print()函数为例形式参数和实际参数在函数内定义的变量为本地变量,在函数外无法访问 参数传递: 实际参数通过赋值运算传递给形式参数注意:如果参数是列表,在函数内可以被修改 (列表可以原位传递) 1 de

python使用ftplib模块实现FTP文件的上传下载

python已经默认安装了ftplib模块,用其中的FTP类可以实现FTP文件的上传下载 FTP文件上传下载 # coding:utf8 from ftplib import FTP def upload(f, remote_path, local_path): fp = open(local_path, "rb") buf_size = 1024 f.storbinary("STOR {}".format(remote_path), fp, buf_size) f

python之ConfigParser模块处理ini文件

ini文件 [global]      #######global为session  IPADDR为option    115.182.1.157为值 IPADDR = 115.182.1.157        ######为键值对 IPADDR2 = 10.0.3.157 [7192] mysql = 3306 port = 80 mem = 90% load = 2 inode = 90% disk = 90% 详细介绍 >>> import ConfigParser     ###

python自带模块模拟鼠标和键盘操作

复制自:https://www.cnblogs.com/wumac/p/5994923.html import win32api import win32con import win32gui from ctypes import * import time VK_CODE = { 'backspace':0x08, 'tab':0x09, 'clear':0x0C, 'enter':0x0D, 'shift':0x10, 'ctrl':0x11, 'alt':0x12, 'pause':0x1

python(九)re模块

python中re模块提供了正则表达式相关操作. 1. 字符串匹配: .    匹配除换行符以外的任意字符 \w 匹配字符或数字或下划线或汉字 \s  匹配任意空白字符 \d 匹配数字 \b 匹配单词的开始或结束 ^  匹配字符串的开始 $   匹配字符串的结束 2.字符串次数匹配: * 重复0次或多次 + 重复1次或多次 ?  重复0次或1次 {n} 重复n次 {n,} 重复n次或更多次 {n,m} 重复n到m次 3.re模块的方法 方法一:match match:从起始位置开始匹配,匹配成功

php如何利用python实现对pdf文件的操作(读写、合并分割)

php如何利用python实现对pdf文件的操作 需求:在PHP里实现了把8.pdf的前4页pdf文件截取出来生成新的pdf文件. 详细步骤如下: 1. 安装python第三方库PyPDF2 前提:python必须是3.x版本以上,必要时需要升级pip3,命令如下:pip3 install --upgrade pipPyPDF 自 2010年 12月开始就不在更新了,PyPDF2 接棒 PyPDF, 在此使用PyPDF2. 安装命令:pip install PyPDF2 2.编写python脚本