python读取word文档中的表格内容

import docx

fn = r‘D:\长恨歌.docx‘
doc = docx.Document(fn)

# 按段落读取全部数据
for paragraph in doc.paragraphs:
    print(paragraph.text)

# 按表格读取全部数据
for table in doc.tables:
    for row in table.rows:
        for cell in row.cells:
            print(cell.text)

table_num = len(doc.tables)
# 获取文档的表格个数
print(table_num)

table_0 = doc.tables[0]
# 选取第一个表
table_rows = len(table_0.rows)
# 获取第一个表的行数
print(table_rows)

tab = doc.tables[0].rows[0].cells[0]
# 获取第一张表第一行第一列数据
print(tab.text)

par = doc.paragraphs[2]
# 读取第三段数据
print(par.text)

原文地址：https://www.cnblogs.com/zhouyxh/p/12309139.html

时间： 2024-11-05 11:33:55

python读取word文档中的表格内容的相关文章

使用Java POI来选择提取Word文档中的表格信息

通过使用Java POI来提取Word(1992)文档中的表格信息,其中POI支持不同的ms文档类型,在具体操作中需要注意.本文主要是通过POI来提取微软2003文档中的表格信息,具体code如下(事先需要导入POI的jar包): public static void testWord2() { try { FileInputStream in = new FileInputStream("july 2005 1.doc");// 载入文档 // FileInputStream in

python读取word文档，插入mysql数据库实例

表格内容如下: 1.实现批量导入word文档,取文档标题中的数字作为编号 2.除取上面打钩的内容需要匹配出来入库入库,其他内容全部直接入库mysql # wuyanfeng# -*- coding:utf-8 -*-# 读取docx中的文本代码示例import docximport pymysqlimport reimport os # 创建数据库链接conn = pymysql.connect( host='rm-bp1vu5d84dg12c6d59o.mysql.rds.aliyuncs.c

C# 在word文档中复制表格并粘帖到下一页中

object oMissing = System.Reflection.Missing.Value; Microsoft.Office.Interop.Word._Application oWord; Microsoft.Office.Interop.Word._Document oDoc; oWord = new Microsoft.Office.Interop.Word.Application(); //

C#读取word文档中的内容

原文地址 http://blog.csdn.net/yhrun/article/details/7674540 在使用前需要添加引用巨硬的com组件:Microsoft Word 12.0 object library ^^^^^2007对应的是12.0的添加引用→COM→选择Microsoft Word 12.0 object library 然后在namespace上面写下:using Word = Microsoft.Office.Interop.Word; 这样,添加引用就算OK

python处理word文档中run的详解

#一个run对象是相同样式文本的延续(只要文本的格式没有改变,那么就是一个run,一旦改变了就是列外一个run了)import docxdoc=docx.Document('example.docx')#run 就是runs的列表print(len(doc.paragraphs[1].runs))print(doc.paragraphs[1].runs[1].text)#显示第二个run的文本内容原文地址:https://www.cnblogs.com/shunguo/p/11399310.h

用Aspose.Words for .NET动态生成word文档中的数据表格

1.概述最近项目中有一个这样的需求:导出word 文档,要求这个文档的格式不是固定的,用户可以随便的调整,导出内容中的数据表格列是动态的,例如要求导出姓名和性别,你就要导出这两列的数据,而且这个文档不是导出来之后再调整而是导出来后已经是调整过了的.看到这里,您也许马上想到用模板导出!而且.NET中自带有这个组件:Microsoft.Office.Interop.Word,暂且可以满足需求吧.但这个组件也是有局限性的,例如客户端必须装 office组件,而且编码复杂度高.最麻烦的需求是后面那个-

python3在word文档中查找多行文字是否存在

工作中碰到这样一个情况:有多个关键词存在文本文档txt中,想查找下在某个较大的word文档中,这些关键词是否都含有,没有关键词的显示出来. 因为关键词比较多,并且这个工作还是经常会有的,这个情况我试着用Python3写代码解决. 分析后,需要用到的模块有:docx,另外还有txt文档的读取和字符串的匹配. 首先是安装docx模块 pip install python-docx 具体实现代码如下: import docxpath = "F:\\check\\source.docx" d

利用POI操作不同版本word文档中的图片以及创建word文档

我们都知道要想利用java对office操作最常用的技术就应该是POI了,在这里本人就不多说究竟POI是什么和怎么用了.先说本人遇到的问题,不同于利用POI去向word文档以及excel文档去写入数据和向外导出数据并且保存到数据库中这些类似的操作,由于业务上的需要需要利用POI去读取word中的图片,并且去把图片去保存为一个file文件.查了Apache公司提供的api帮助文档,再网友的一些线索,本人也总结了几中对不同word版本(.doc或者是.docx结尾)对于文件中所含图片的操作方式,希望

利用POI操作不同版本号word文档中的图片以及创建word文档

我们都知道要想利用java对office操作最经常使用的技术就应该是POI了,在这里本人就不多说到底POI是什么和怎么用了. 先说本人遇到的问题,不同于利用POI去向word文档以及excel文档去写入数据和向外导出数据而且保存到数据库中这些类似的操作,因为业务上的须要须要利用POI去读取word中的图片,而且去把图片去保存为一个file文件.查了Apache公司提供的api帮助文档,再网友的一些线索,本人也总结了几中对不同word版本号(.doc或者是.docx结尾)对于文件里所含图片的操作方