从一个word文件中读取所有的表格和标题(1)

首先讲需求:

从word文件中读表格里的数据,然后插入数据库中。word文件中的表格是带有标题的,把标题读出来,进行匹配数据库。

需求分析:

word2007底层是以xml文件存储的,所以分析xml的格式,进行读取相应数据。

表格数据如下:

表 1 分类统计表


分类


总计


1类


2类


软件


4


3


7


硬件


5


6


11

word底层xml组成如下分析:

<w:p w:rsidRDefault="009F1A99" w:rsidR="009F1A99" w:rsidP="009F1A99">
<w:pPr>
<w:pStyle w:val="a4"/>
<w:numPr>
<w:ilvl w:val="0"/>
<w:numId w:val="1"/>
</w:numPr>
<w:ind w:firstLineChars="0"/>
<w:jc w:val="center"/>
</w:pPr>
<w:r>
<w:rPr>
<w:rFonts w:hint="eastAsia"/>
</w:rPr>
<w:t>分类统计表</w:t>
</w:r>
</w:p>

<w:tbl>
<w:tblPr>
<w:tblStyle w:val="a3"/>
<w:tblW w:w="0" w:type="auto"/>
<w:jc w:val="center"/>
<w:tblBorders>
<w:left w:val="none" w:color="auto" w:space="0" w:sz="0"/>
<w:right w:val="none" w:color="auto" w:space="0" w:sz="0"/>
</w:tblBorders>
<w:tblLook w:val="04A0" w:noVBand="1" w:noHBand="0" w:lastColumn="0" w:firstColumn="1" w:lastRow="0" w:firstRow="1"/>
</w:tblPr>
<w:tblGrid>
<w:gridCol w:w="2074"/>
<w:gridCol w:w="2074"/>
<w:gridCol w:w="2074"/>
<w:gridCol w:w="2074"/>
</w:tblGrid>
<w:tr w:rsidR="009F1A99" w:rsidTr="009F1A99">
<w:trPr>
<w:jc w:val="center"/>
</w:trPr>
<w:tc>
<w:tcPr>
<w:tcW w:w="2074" w:type="dxa"/>
<w:vMerge w:val="restart"/>
<w:vAlign w:val="center"/>
</w:tcPr>
<w:p w:rsidRDefault="009F1A99" w:rsidR="009F1A99" w:rsidP="009F1A99">
<w:pPr>
<w:jc w:val="center"/>
</w:pPr>
</w:p>
</w:tc>
<w:tc>
<w:tcPr>
<w:tcW w:w="4148" w:type="dxa"/>
<w:gridSpan w:val="2"/>
<w:vAlign w:val="center"/>
</w:tcPr>
<w:p w:rsidRDefault="009F1A99" w:rsidR="009F1A99" w:rsidP="009F1A99">
<w:pPr>
<w:jc w:val="center"/>
</w:pPr>
<w:r>
<w:rPr>
<w:rFonts w:hint="eastAsia"/>
</w:rPr>
<w:t>分类</w:t>
</w:r>
</w:p>
</w:tc>
<w:tc>
<w:tcPr>
<w:tcW w:w="2074" w:type="dxa"/>
<w:vMerge w:val="restart"/>
<w:vAlign w:val="center"/>
</w:tcPr>
<w:p w:rsidRDefault="009F1A99" w:rsidR="009F1A99" w:rsidP="009F1A99">
<w:pPr>
<w:jc w:val="center"/>
</w:pPr>
<w:r>
<w:rPr>
<w:rFonts w:hint="eastAsia"/>
</w:rPr>
<w:t>总计</w:t>
</w:r>
</w:p>
</w:tc>
</w:tr>
<w:tr w:rsidR="009F1A99" w:rsidTr="009F1A99">
<w:trPr>
<w:jc w:val="center"/>
</w:trPr>
<w:tc>
<w:tcPr>
<w:tcW w:w="2074" w:type="dxa"/>
<w:vMerge/>
<w:vAlign w:val="center"/>
</w:tcPr>
<w:p w:rsidRDefault="009F1A99" w:rsidR="009F1A99" w:rsidP="009F1A99">
<w:pPr>
<w:jc w:val="center"/>
</w:pPr>
</w:p>
</w:tc>
<w:tc>
<w:tcPr>
<w:tcW w:w="2074" w:type="dxa"/>
<w:vAlign w:val="center"/>
</w:tcPr>
<w:p w:rsidRDefault="009F1A99" w:rsidR="009F1A99" w:rsidP="009F1A99">
<w:pPr>
<w:jc w:val="center"/>
</w:pPr>
<w:r>
<w:rPr>
<w:rFonts w:hint="eastAsia"/>
</w:rPr>
<w:t>1类</w:t>
</w:r>
</w:p>
</w:tc>
<w:tc>
<w:tcPr>
<w:tcW w:w="2074" w:type="dxa"/>
<w:vAlign w:val="center"/>
</w:tcPr>
<w:p w:rsidRDefault="009F1A99" w:rsidR="009F1A99" w:rsidP="009F1A99">
<w:pPr>
<w:jc w:val="center"/>
</w:pPr>
<w:r>
<w:rPr>
<w:rFonts w:hint="eastAsia"/>
</w:rPr>
<w:t>2类</w:t>
</w:r>
</w:p>
</w:tc>
<w:tc>
<w:tcPr>
<w:tcW w:w="2074" w:type="dxa"/>
<w:vMerge/>
<w:vAlign w:val="center"/>
</w:tcPr>
<w:p w:rsidRDefault="009F1A99" w:rsidR="009F1A99" w:rsidP="009F1A99">
<w:pPr>
<w:jc w:val="center"/>
</w:pPr>
</w:p>
</w:tc>
</w:tr>
<w:tr w:rsidR="009F1A99" w:rsidTr="009F1A99">
<w:trPr>
<w:jc w:val="center"/>
</w:trPr>
<w:tc>
<w:tcPr>
<w:tcW w:w="2074" w:type="dxa"/>
<w:vAlign w:val="center"/>
</w:tcPr>
<w:p w:rsidRDefault="009F1A99" w:rsidR="009F1A99" w:rsidP="009F1A99">
<w:pPr>
<w:jc w:val="center"/>
</w:pPr>
<w:r>
<w:rPr>
<w:rFonts w:hint="eastAsia"/>
</w:rPr>
<w:t>软件</w:t>
</w:r>
</w:p>
</w:tc>
<w:tc>
<w:tcPr>
<w:tcW w:w="2074" w:type="dxa"/>
<w:vAlign w:val="center"/>
</w:tcPr>
<w:p w:rsidRDefault="009F1A99" w:rsidR="009F1A99" w:rsidP="009F1A99">
<w:pPr>
<w:jc w:val="center"/>
</w:pPr>
<w:r>
<w:rPr>
<w:rFonts w:hint="eastAsia"/>
</w:rPr>
<w:t>4</w:t>
</w:r>
</w:p>
</w:tc>
<w:tc>
<w:tcPr>
<w:tcW w:w="2074" w:type="dxa"/>
<w:vAlign w:val="center"/>
</w:tcPr>
<w:p w:rsidRDefault="009F1A99" w:rsidR="009F1A99" w:rsidP="009F1A99">
<w:pPr>
<w:jc w:val="center"/>
</w:pPr>
<w:r>
<w:rPr>
<w:rFonts w:hint="eastAsia"/>
</w:rPr>
<w:t>3</w:t>
</w:r>
</w:p>
</w:tc>
<w:tc>
<w:tcPr>
<w:tcW w:w="2074" w:type="dxa"/>
<w:vAlign w:val="center"/>
</w:tcPr>
<w:p w:rsidRDefault="009F1A99" w:rsidR="009F1A99" w:rsidP="009F1A99">
<w:pPr>
<w:jc w:val="center"/>
</w:pPr>
<w:r>
<w:rPr>
<w:rFonts w:hint="eastAsia"/>
</w:rPr>
<w:t>7</w:t>
</w:r>
</w:p>
</w:tc>
</w:tr>
<w:tr w:rsidR="009F1A99" w:rsidTr="009F1A99">
<w:trPr>
<w:jc w:val="center"/>
</w:trPr>
<w:tc>
<w:tcPr>
<w:tcW w:w="2074" w:type="dxa"/>
<w:vAlign w:val="center"/>
</w:tcPr>
<w:p w:rsidRDefault="009F1A99" w:rsidR="009F1A99" w:rsidP="009F1A99">
<w:pPr>
<w:jc w:val="center"/>
</w:pPr>
<w:r>
<w:rPr>
<w:rFonts w:hint="eastAsia"/>
</w:rPr>
<w:t>硬件</w:t>
</w:r>
</w:p>
</w:tc>
<w:tc>
<w:tcPr>
<w:tcW w:w="2074" w:type="dxa"/>
<w:vAlign w:val="center"/>
</w:tcPr>
<w:p w:rsidRDefault="009F1A99" w:rsidR="009F1A99" w:rsidP="009F1A99">
<w:pPr>
<w:jc w:val="center"/>
</w:pPr>
<w:r>
<w:rPr>
<w:rFonts w:hint="eastAsia"/>
</w:rPr>
<w:t>5</w:t>
</w:r>
</w:p>
</w:tc>
<w:tc>
<w:tcPr>
<w:tcW w:w="2074" w:type="dxa"/>
<w:vAlign w:val="center"/>
</w:tcPr>
<w:p w:rsidRDefault="009F1A99" w:rsidR="009F1A99" w:rsidP="009F1A99">
<w:pPr>
<w:jc w:val="center"/>
</w:pPr>
<w:r>
<w:rPr>
<w:rFonts w:hint="eastAsia"/>
</w:rPr>
<w:t>6</w:t>
</w:r>
</w:p>
</w:tc>
<w:tc>
<w:tcPr>
<w:tcW w:w="2074" w:type="dxa"/>
<w:vAlign w:val="center"/>
</w:tcPr>
<w:p w:rsidRDefault="009F1A99" w:rsidR="009F1A99" w:rsidP="009F1A99">
<w:pPr>
<w:jc w:val="center"/>
</w:pPr>
<w:r>
<w:rPr>
<w:rFonts w:hint="eastAsia"/>
</w:rPr>
<w:t>11</w:t>
</w:r>
</w:p>
</w:tc>
</w:tr>
</w:tbl>

分析上面的表格标签可以得出如下结论:

段落标签:p

段落内容:t

表格标签:tbl

表格行标签:tr

表格标签:tc

水平合并标签:gridSpan  属性:w:val等于合并项

垂直合并标签:vMerge 属性:w:val等于restart表示垂直合并的开始

下面是读取代码:

头文件:

#ifndef READERXML_H
#define READERXML_H

//定义一个单元格属性
class Cell
{
public:
    Cell() : m_value(""), m_hSpan(1), m_vSpan(false)
    {

    }

    QString m_value;                    //表格内容
    int m_hSpan;                        //水平合并数
    bool m_vSpan;                        //是否垂直合并
    QList<QList<Cell *> > m_subTable;    //是否存在子表格
};

class ReaderXml
{
public:

    //对外接口 参数1:xml文件名 参数2:表格标题 参数3:表格数据
    void reader(const QString &filename, QStringList &tableHeader, QList<QList<QStringList> > &tableData);

private:
    void getParagraph(QString &header);                //获取段落
    void getTableData(QList<QStringList> &data);    //读取表格数据
    void getTableLine(QList<Cell> &tableLine);        //读取表格一行
    void getCell(Cell &cell);                        //读取一个单元格

private:
    QXmlStreamReader m_reader;
};

#endif // READERXML_H

头文件

源文件

#include "StdAfx.h"
#include "ReaderXml.h"

void ReaderXml::reader( const QString &filename, QStringList &tableHeader, QList<QList<QStringList> > &tableData )
{
    QFile file(filename);
    if(!file.open(QIODevice::ReadOnly | QIODevice::Text))
    {
        return ;
    }
    m_reader.setDevice(&file);

    QStringList strList;
    m_reader.readNext();
    while(!m_reader.atEnd())
    {
        if(m_reader.isStartElement())
        {
            if(m_reader.name() == "p") //段落标签
            {
                QString str;
                getParagraph(str);
                strList.append(str);
            }
            else if(m_reader.name() == "tbl") //表格标签
            {
                QList<QStringList> data;
                getTableData(data);
                tableData.append(data);
                tableHeader.append(strList.last()); //表格上的段落是表格的标题
            }
        }
        m_reader.readNext();
    }

    m_reader.clear();
    file.close();
}

void ReaderXml::getParagraph( QString &header )
{
    m_reader.readNext();
    while(!m_reader.atEnd())
    {
        if(m_reader.isStartElement())
        {
            if(m_reader.name() == "t") //数据
            {
                header += m_reader.readElementText();
            }
        }
        else
        {
            if(m_reader.name() == "p")
            {
                return ;
            }
        }
        m_reader.readNext();
    }
}

void ReaderXml::getTableData( QList<QStringList> &data )
{
    m_reader.readNext();
    while(!m_reader.atEnd())
    {
        if(m_reader.isStartElement())
        {
            if(m_reader.name() == "tr") //表格行标签
            {
                QList<Cell> lineData;
                QStringList strList;
                getTableLine(lineData);
                for(int i = 0, len = lineData.size(); i != len; ++i)
                {
                    if(lineData[i].m_vSpan && !data.isEmpty())        //表格是否存在垂直合并的情况
                        lineData[i].m_value = data.last().at(i);

                    for(int j = 0; j != lineData[i].m_hSpan; ++j)    //表格是否存在水平合并的情况
                        strList.append(lineData[i].m_value);
                }
                data.append(strList);
            }
        }
        else
        {
            if(m_reader.name() == "tbl")
            {
                return ;
            }
        }
        m_reader.readNext();
    }
}

void ReaderXml::getTableLine( QList<Cell> &tableLine )
{
    m_reader.readNext();
    while(!m_reader.atEnd())
    {
        if(m_reader.isStartElement())
        {
            if(m_reader.name() == "tc") //单元格标签
            {
                Cell cell;
                getCell(cell);
                tableLine.push_back(cell);
            }
        }
        else
        {
            if(m_reader.name() == "tr")
            {
                return ;
            }
        }
        m_reader.readNext();
    }
}

void ReaderXml::getCell( Cell &cell )
{
    m_reader.readNext();
    while(!m_reader.atEnd())
    {
        if(m_reader.isStartElement())
        {
            if(m_reader.name() == "t") //数据标签
            {
                cell.m_value += m_reader.readElementText();
            }
            else if(m_reader.name() == "gridSpan") //水平合并标签
            {
                cell.m_hSpan = m_reader.attributes().value("w:val").toString().toInt(); //合并数
            }
            else if(m_reader.name() == "vMerge") //垂直合并标签
            {
                cell.m_vSpan = true;
            }
        }
        else
        {
            if(m_reader.name() == "tc")
            {
                return ;
            }
        }
        m_reader.readNext();
    }
}

源文件

时间: 2024-10-06 13:54:45

从一个word文件中读取所有的表格和标题(1)的相关文章

java如何在文件中读取一个字符串并创建以这个字符为名字的类的对象

<span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">我们一般用properties或者XML文件作为资源存储的文件,现在主要介绍一下对properties的操作</span> 1.我们在src文件下新建一个名称为config的包 2.在config下新建一个file,把它命名为demo.properties 3. 把下面的几段

JMeter接口测试——参数化(从文件中读取参数)

从文件中读取,三个步骤 1.读取文件 2.取文件内容里面的参数,给它一个名字 3.使用值 从文件读取的话,需要在线程组里面添加一个CSV Data Set Config,它就是做前面两步的操作的 参数说明: Filename: 文件的完整路径 Variable Names(comma-delimited):储存参数的变量名 Delimiter(use '\t' for tab): 分隔多个参数的分隔符 Recycle on EOF ?:文件读取完后是否继续读取 Stop thread on EO

从Matlab .fig文件中读取数据,并重新绘图

Matlab提供了强大的函数集合,可以从.fig文件中读取图中的数据,并重新绘制图形.如果原始数据丢失,我们可以从.fig文件中恢复原始数据,并基于原始数据做进一步的处理. 以下是一个从两个不同文件中读取原始数据,并重新绘制图形的例子. h1 = openfig('1.fig','reuse'); % open figure D1=get(gca,'Children'); %get the handle of the line object XData1=get(D1,'XData'); %ge

在文件中读取、存储Json格式的字符串

public class Weather { static readonly string FilePath = System.Environment.CurrentDirectory + @"\Area.txt"; public static Models.Area GetCurrentArea() { var file = new FileInfo(FilePath); Models.Area result; if (!file.Exists) { //文件不存在就返回一个默认值,

【jacob word】使用jacob,合并多个word为一个word文件

将几个word文件合并到一个word文件,使用注意点: 1.后面附项目运用的jar包jacob-1.9, 2.并且jacob运用中,需要将附件内的jacob.dll放到windows/system32下 语法介绍: 将一个关于JACOB的代码分成下面几个步骤: 1) ActiveXComponent ax = new ActiveXComponent("a1")://构建ActiveX组件实例 其中的a1的值和你需要调用的ActiveX控件有关 MS控件名 a1的值 InternetE

VB.NET 从XML文件中读取内容到JSON

一.关于本文 本文承接了上一篇博客的内容.在上篇博客中,通过函数WriteJsonToXml将一个JSON格式的文件写入了一个对应的XML文件中.本文中则给出了函数RecoverJsonFromXml的代码,可以将XML恢复成JSON格式的文本. 运行本文中代码的环境与上篇博客相同. 待读取的XML文档内容如下: <?xml version="1.0" encoding="gb2312"?> <!--这个XML文档中存储了一个JSON格式的信息--

IOS中将对象属性列表归档成一个plist文件中

归档步骤: 1.将一个NSDictionary对象归档到一个plist属性列表中 <1> 首先要将数据封装成字典: NSMutableDictionary * dict = [NSMutableDctionary dictionary]; [dict setObject:@"烟灰" forKey:@"name"]; [dict setObject:@"1234567" forKey:@"phoneNumber"];

【Python】从文件中读取数据

从文件中读取数据 1.1 读取整个文件 要读取文件,需要一个包含几行文本的文件(文件PI_DESC.txt与file_reader.py在同一目录下) PI_DESC.txt 3.1415926535 8979323846 2643383279 5028841971 file_reader.py with open("PI_DESC.txt") as file_object: contents = file_object.read() print(contents) 我们可以看出,读取

从属性文件中读取配置

本章是关于如何在Selenium Cucumber Framework 或任何框架中从属性文件中读取配置的.在项目中存储硬编码值是危险的,也违反了编码原则.到目前为止,我们在代码中使用了大量的硬编码值.在属性文件的帮助下,我们将逐一消除这些硬编码值. 什么是Java中的Property文件 .properties  文件主要用于Java程序,以维护项目配置数据,数据库配置或项目设置等.属性文件中的每个参数都以键值对格式存储为一对字符串,其中每个键都在一行上.您可以使用 Properties类型的