PDF文本内容批量提取到Excel

QQ:231469242,版权所有

作用:pdf内容批量提取到excel

各位亲朋好友,我才上班时候有个鼓噪乏味工作,就是把一个个PDF内容复制粘贴到Excel表格里面,方便以后数据库全文搜索。

举个例子,此Excel有两个字段

A列是pdf文件名

B列用于存放pdf提取的内容

当所有PDF内容复制到Excel后,数据库就可以实现全文搜索功能。

几十上百个PDF复制粘贴工作也许一天就搞定了,但成千上万个PDF,你是不是要抓狂?为此,我专门用Python开发了PDF批量提取机器人,名字叫pdf_data_extract3

程序放入文件夹,双击就完成自动提取

检查错误数据

提取失败的excel文件名保持在extract_failed_File.txt文档中

如果任务百分之百成功,会显示:恭喜主人,干的漂亮

给大家展示最后提取的结果,B列就是自动提取的内容。

有了PDF自动提取机器人,大家工作就没这么辛苦了。只需要双击一下鼠标,然后泡杯咖啡,坐等机器人完成任务。

时间: 2024-11-02 12:05:57

PDF文本内容批量提取到Excel的相关文章

如何把PDF文件内容转换成TXT

PDF格式文档的兴起使得现在很多文档都用PDF格式进行传递一些文档资料内容,如果拿到这种格式的文档,需要用到里面的一些文本内容,有些人就会进行复制粘贴了,但是如果需要的文本内容比较多,显然一页一页的复制操作是很浪费时间的,如果要将PDF文本内容提取出来可以直接将文件转换为txt格式就可以了. 一般我们查看PDF文件都会用的Adobe Reader,这个不仅可以查看PDF文档的内容,也能将里面的文本内容单独提取出来.所以在需要里面文本内容的时候就不需要再用复制粘贴的方法了. 首先用Adobe Re

深入学习python解析并读取PDF文件内容的方法

这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应用.主要参考了一些已有的博客内容,代码. 主要思路是首先利用一个做项目的形式,描述所做的问题,运行环境,和需要安装的库,然后写代码,此代码是在python2.7中运行,然后写出在python3.6中运行的代码,并详细解释python2.7和python3.6中python库的一些不同之处,最后详细的

PDFBox的使用——分页提取PDF文本

需求:用java分页提取PDF文本. PDFBox是一个很好的可以满足上述需求的开源工具. 1.PDF文档结构 要解析PDF文本,我们首先要了解PDF文件的结构. 关于PDF文档,最重要的几点: 一,PDF文档内容比较复杂,比如有纯文本(可以提取出其中的文字,可以用PDF软件中的“复制”功能).图片(无法使用PDF软件中的“复制”功能).表单.视频.音频等,总之形式比较复杂: 二,PDF文件采用二进制流与纯文字混合的编码模式,并且没有采用 Unicode 等标准字符编码方式,其字符编码采用 Ad

利用lucene对PDF文本进行内容的解析

/* * 这段代码的功能是利用PDFBox.zip的包 * 利用lucene对PDF文本进行内容的解析 * 读取pdf文件的内容.然后重新的写入到同名的.txt文件中  * */ 结果截图: package pdfbox; import java.io.File; import java.io.FileOutputStream; import java.io.OutputStreamWriter; import java.io.Writer; import java.net.MalformedU

C# 提取PDF文本和图片

任务要求: 提取PDF文档中的文本 提取PDF文档中的图片 所需工具: Free Spire.PDF for .NET 4.3 (免费版) 实现代码: [示例 1 ]提取文本 using Spire.Pdf; using System; using System.IO; using System.Text; namespace ExtractText { class Program { static void Main(string[] args) { //加载文档 PdfDocument do

利用lucene和pdfBox对PDF文本进行内容的解析

/*  * 这段代码的功能是利用PDFBox.zip的包  * 利用lucene对PDF文本进行内容的解析  * 读取pdf文件的内容.然后重新的写入到同名的.txt文件中  * */ 结果截图: package pdfbox; import java.io.File; import java.io.FileOut... songtaste.com/user/10335914/infosongtaste.com/user/10335923/infosongtaste.com/user/10335

linux下批量查找/替换文本内容

一般在本地电脑上批量替换文本有许多工具可以做到,比如sublime text ,但大多服务器上都是无图形界面的,为此收集了几条针对linux命令行 实现批量替换文本内容的命令: 1.批量查找某个目下文件的包含的内容,例如: #   grep -rn "要找查找的文本" ./ 2.批量查找并替换文件内容. #   sed -i "s/要找查找的文本/替换后的文本/g" `grep -rl "要找查找的文本" ./` linux下批量查找/替换文本内

C# udp 文本内容提取

using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.IO; using System.Linq; using System.Net; using System.Net.Sockets; using System.Text; using System.Threading; using Sys

PDF的文本内容怎么编辑设置

处理文档的时候如果遇到PDF格式的文件需要修改的话就很头疼,文字的编辑也没有word那样方便,而且PDF文件在阅读浏览和编辑上都是由不同软件来进行操作的,这让许多人以为PDF文件是不能编辑的,其实不然,PDF文档的文字也是可以编辑的. PDF文件可以直接进行编辑,用pdf的编辑工具打开文件就可以进行相应的操作.加密的文档只需要输入密码就可以正常操作. 文件打开后一般会有左右两个窗格,页面缩略图和页面编辑区,页面缩略图是用来方便切换当前编辑的页面的.如果没有显示缩略图窗格的话可以通过“视图-页面缩