PDF数据提取------1.介绍

1.关于PDF文件

    PDFPortable Document Format的简称,意为“便携式文件格式”)是由Adobe Systems在1993年用于文件交换所发展出的文件格式。它的优点在于跨平台、能保留文件原有格式(Layout)、开放标准,能自由授权(Royalty-free)自由开发PDF兼容软件。(PDF - 维基百科)

2.关于解析PDF

就像大神灵感之源的博文关于PDF的代码,真是多得不得了。。。,由于现在实习公司需要从大量文档中提取金融数据.对于网页解析我们有强大的HtmlAgilityPackScrapySharp等.对于office家族里excel、word等 直接用.net里类库就行了。唯独对处理PDF没有一个统一方案。当然,我也没有把全部pdf工具研究一遍,感觉大多数工具对于解析pdf功能确实不是很完美。(可能我的见识短浅,只不过还没遇到像解析网页那样解析pdf的工具),现在公司有个系统中有个一个关于pdf数据解析模块。这个模块也是先将PDF转换Html格式文件,然后解析html文件。解析标记语言html已经有很多完美办法,但是问题是由于PDF文件特点,解析PDF本来就是无法保证正确性的事情,而现在却要解析转换后的HTML岂不是更加没有保证了。经过询问得知这个方法在解析PDF中表现确实不是很好。

3.我的方案

公司里需要解析PDF种类和数量有很多,对于Analyst来说每天从大量PDF中手动提取信息是无比痛苦的事情,也是对眼睛和身心巨大考验。对于每种PDF解析策略当然也是不一样的。我打算根据每种不同PDF文件分别介绍下我的处理方案。我的方案是基于PDFNet.dll封装了一个针对公司业务的解析方案。当然了这个DLL并不是开源的,但是在Debug版本中没问题了,一次意外的忘记导入license在内部发布了release产品中只有一台电脑出现无法使用问题。当然,公司也不会在乎这点小钱,我们是有license的。废话不多说,也希望园子里的大神们能给小码农点建议或者能提出更好的方案来!

4.分类介绍

根据不同需求我打算分成系列来介绍这个PDF解析方案。

1.PDF中文本字符串格式中关键值信息抓取(已完成)

简介:这种解析比较传统最简单主要熟练使用Regular Expression做语义识别和验证.

2.PDF类似表格形式关键值数据抓取。(已完成)

简介:这种格式需要用的封装数据结构PdfString类和PdfAnalyzer类,根据给定关键词在指定范围提取数据

3.需要PDF中大量数据转换到Excel中去 (已完成)

简介:基与2的延伸,加入一个自动模糊匹配到行和列边界范围,根据位置坐标排序提取正确数据信息。

4.PDF中数据保存图片格式(未完成)

想法:这种PDF文件我目前还没好的处理办法,应该需要用到图像识别方面的算法。

时间: 2024-08-02 23:06:27

PDF数据提取------1.介绍的相关文章

PDF数据提取------3.解析Demo

1.PDF中文本字符串格式中关键值信息抓取(已完成) 简介:这种解析比较传统最简单主要熟练使用Regular Expression做语义识别和验证.例如抓取下面红色圈内关键信息 string mettingData=GetMeetingData(); public string GetMeetingData() { string patternAll = @"(?<NDAandCAMDate>会\s*议\s*.{2,15}\d{2,4}\s*年\s*\d{1,2}\s*月\s*\d{

PDF数据提取------2.相关类介绍

1.简介 构造数据类型PdfString封装Rect类,PdfAnalyzer类中定义一些PDF解析方法. 2.PdfString类与Rect类 public class PdfString : IComparable<PdfString> { public string Words { get; set; } public Rect Position { get; set; } public int PageNumber { get; set; } public PdfString(stri

R、Python、Open Refine采集pdf数据,清理数据和格式化数据

原文链接:http://tecdat.cn/?p=8076 获取,清理和格式化数据 在本文中,我们将介绍一些技巧和窍门,这些技巧和窍门用于在线查找所需数据,将其存储到计算机上以及如何识别和清除“脏”数据.我们还将回顾一些常见的数据格式,以及如何从一种转换为另一种. 我们今天将使用的数据  gdp_percap.csv 世界银行关于1990年至2016年国家和国家集团人均国内生产总值(GDP)的数据,以当前国际美元计价,并根据不同地区的购买力进行了校正. ucb_stanford_2014.csv

PDF数据防扩散系统介绍

在企业信息化过程中,大量的企业重要图纸和资料都是以电子文件的方式存在.为了避免内部重要数据的外泄,采取了多种方式:设计部门的门禁管制.防火墙.禁止计算机的USB接口等等.但是泄密问题还是时有发生,原因是电子文档的外泄途径太多,解决了外部人员非法访问的问题,但不能根本解决电子文档内部人员造成的二次传播问题,靠"堵"的方法是难以保护数据安全的. 针对客户的需求我们开发了一套PDF数据防扩散系统软件,它是一个对PDF文件设定阅读次数.阅读期限.打印次数的软件系统.在系统部署上,分服务器端文档

PDF数据防扩散系统方案

在企业信息化过程中,大量的企业重要图纸和资料都是以电子文件的方式存在.为了避免内部重要数据的外泄,采取了多种方式:设计部门的门禁管制.防火墙.禁止计算机的USB接口等等.但是泄密问题还是时有发生,原因是电子文档的外泄途径太多,解决了外部人员非法访问的问题,但不能根本解决电子文档内部人员造成的二次传播问题,靠"堵"的方法是难以保护数据安全的. 针对客户的需求我们开发了一套PDF数据防扩散系统软件,它是一个对PDF文件设定阅读次数.阅读期限.打印次数的软件系统.在系统部署上,分服务器端文档

转:SQL SERVER数据库中实现快速的数据提取和数据分页

探讨如何在有着1000万条数据的MS SQL SERVER数据库中实现快速的数据提取和数据分页.以下代码说明了我们实例中数据库的“红头文件”一表的部分数据结构: CREATE TABLE [dbo].[TGongwen] (    --TGongwen是红头文件表名 [Gid] [int] IDENTITY (1, 1) NOT NULL , --本表的id号,也是主键 [title] [varchar] (80) COLLATE Chinese_PRC_CI_AS NULL ,  --红头文件

PDF怎么提取页面?分享PDF页面提取方法

在我们的工作中可能会碰到将排版好的PDF文件中的图像或是某个页面批量的提取出来,在PDF文件很多的情况下会需要将PDF文件其中一个页面提取出来就会比较的麻烦了,今天小编给你介绍一个小工具,简单方便的批量提取页面. 一.PDF shaper Professional推荐指数:★★★☆☆软件功能介绍: pdf shaper professional是一款功能超丰富的PDF工具箱,支持pdf页面提取.pdf转word.pdf转图像.pdf转txt.图像转pdf等. 操作步骤说明: 1.首先我们需要进行

PDF怎么提取图片,这三个方法你肯定不知道

在工作中保存一个文件,会发现文件比图片要占内存,而现在办公中大多数都是比较喜欢保存为PDF格式,PDF格式便携式文件,安全性高,为了更加节内存和方便使用图片,人们就会想把PDF文件中的图片提取出来,那么PDF怎么提取图片?下面就来给大家分享三个好用的方法吧,这三个方法你肯定不知道.方法一:PS软件帮助具体操作方法:1.首先鼠标双击打开PS,之后点击软件左上角的"文件"之后点击"打开"把PDF文件在PS中打开.2.在弹出的导入PDF窗口中,鼠标点击选中[图像]选项,然

PHP实例————表单数据插入数据库及数据提取

网站在进行新用户注册时,都会将用户的注册信息存入数据库中,需要的时候再进行提取.今天写了一个简单的实例. 主要完成以下几点功能: (1)用户进行注册,实现密码重复确认,验证码校对功能. (2)注册成功后,将用户进行插入数据库中进行保存. (3)将数据库表中数据进行提取,并打印. 1.注册表单 在以前的几篇博客中,分享过注册及登录表单的代码.这次的代码,大致相同,只是略有变化.仅作为实例探讨 <html> <head> <title>注册页面</title>