对扫描的pdf文件生成目录

很多pdf文件是直接扫描生成的,于是它的内容都是一张张的图片,当然就更没有目录索引了。

有的时候想找某些内容,只能一点点的移动滚动条,非常不方便。

那么有什么方法能生成目录呢?

方法一:使用福昕pdf编辑器

福昕pdf编辑器使用PRC识别pdf文件,能将pdf文件转换为office文件,更是有目录制作的功能。

但是,亲测后发现:

  1. 也是最关键的问题,他需要money,也就是得升级为会员,才能使用图片识别功能。
  2. 目录制作倒是免费的,但它的目录主要是设置标签,对于目录没有分级功能,且需要一页一页翻的去添加,非常麻烦

总之,最后的制作非常不理想。

方法二:使用FreePic2Pdf

先看一下最终效果图:

我使用的是《同济大学高等数学第六版上册.pdf》,打开pdf的软件是2345看图王,也可以用chrome打开。

怎么样,效果是不是非常良好。

FreePic2Pdf这是一个图片转pdf文件,但主要使用的是它的更改pdf的功能。

至于下载地址就不提供了(因为没找到它的官网),网上一搜一堆,第三方下载地址很多的。

软件打开是这样子的:

这些功能都不需要,主要使用的是右下角的更改pdf,点开之后:

主要使用的就是这一部分的功能。

现在开始目录制作。

先解释一下上述标签的意思:

  1. 往PDF挂书签:就是为pdf文件添加目录。不过需要目录文件,下面会有介绍制作的方式。
  2. 从PDF取书签:就是从有目录的pdf文件中提取出目录文件。
  3. 需要操作的目录文件:就是需要添加目录的PDF文件。
  4. 存放接口的文件夹:就是目录文件,需要制作。

其他的按键一般没什么需要使用的。

制作目录需要一个目录文件,使用的是txt格式。

一、选择一个存放接口的文件夹

这个文件夹可以自己创建。

二,创建配置文件

选定文件夹之后,再点击创建文件夹右边的那个按钮,输入以下模板内容:

[Images]

[Font]
Language=GBK
FontSize=7
Margin=0.5

[Bkmk]
File=FreePic2Pdf_bkmk.txt
AddAsText=0
ShowBkmk=1
ShowAll=1
BasePage=1

[Main]
ContentsPage=
TextPage=

保存。之后他就会在选定的文件夹下创建一个名为 FreePic2Pdf.itf 的文件。

三、创建目录文件

在这个文件夹下新建一个 FreePic2Pdf_bkmk.txt 文件。

这个文件就是目录文件,这里的目录需要自定义,它需要按照一定的格式:

一级目录\t页码
\t二级目录\t页码
\t\t三级目录\t页码
。。。

\t表示制表符,也就是TAB键。

例如:

这个文件可以用记事本写,也可以用notepad等等。

那么这些内容具体怎么去写呢?

这个就得看自己的电脑技能了。不过总的来说是以下几步:

1、识别目录文字

  • 可以使用ABBYY软件识别,但是不建议,具体原因请自行入坑。
  • 推荐的:使用网页百度翻译。没错,就是百度翻译,将目录图片粘贴上去,他就自动识别并将中文和英文翻译显示出来了。

  至于目录的图片,你可以截图,也可以使用2345看图王软件,如下图:

直接就复制目录了,这样复制的目录完整一点。

2、目录制作

百度翻译的识别效果如下:

呃,没有换行,内容也有部分缺失,这些都是需要自己去修改。

那么如何将这些内容制作成需要的格式呢,这个。。。要么靠自己手动编辑,如果会正则表达式,可以节省一点时间。

注意:目录的页码是pdf文件的真实页码,而不是书上标志的那些页码,为了方便,可以将接口文件中 BasePage 字段修改为书中第一页对应的pdf页数。

如:BasePage=12

制作成功后,选择相应的文件,如下图:

再点击开始,没问题的话瞬间制作完成。制作前记得先保存副本。

接着再点开pdf文件,就会发现目录有了:

到此,制作完成!!!

原文地址:https://www.cnblogs.com/twoice/p/10574668.html

时间: 2024-10-11 12:42:44

对扫描的pdf文件生成目录的相关文章

怎么将扫描版pdf文件怎么转换成word文件

由于PDF是一种复杂多样的文档格式,有的时候我们遇到的PDF文件不是纯文字源的内容的,而是一页页扫描版PDF文件,此时如何想得到文本或Word文档?如何还未找到合适的解决方法,可以使用迅捷PDF转换器全新v6.0版进行转换. pdf转换成word转换器是一款功能强大的文件转换工具,可以把纸张.PDF文件.图片文件扫描成可以编辑的Office文档,目前PDF转换器发展至今主要推出4.0.5.0.6.0三个版本.经过几年的发展,它的功能不断完善.性能不断提高,此次更新,修正或增加了以下功能:1.PD

扫描的pdf文件怎么转换成word

Kevinw向我请教一个问题:“我手头上有一个PDF格式的文件,是由扫描仪扫描进入的文字文 档,我用过Adobe Acrobat 7.0 Professional 的“另存为”,可是转化后的Word仍是图片格式的文字,仍不能进行编辑.因此我用的是键盘上的“Print Screen”截图然后用OCR进行文字识别,由于原本的PDF文件的扫描很不清晰,所以一页要截图两次,否则识别率极低.我这个文档有五百多页,这样进 行了3天也才搞了60多页.针对批量的PDF文件转换,他曾请教过电脑高手,他们给出的回答

QT生成PDF文件

QString temp=""; //m_File_Content_Text_Edit->selectAll(); QString t_File_Content = m_File_Content_Text_Edit->toPlainText(); // pdf文件生成 QPrinter printer; printer.setOutputFormat(QPrinter::PdfFormat); printer.setOutputFileName(filename); QPa

JAVA输入/输出流程序例题(文件和目录、字节流、字符流)

一.文件和目录 1.显示文件的基本信息. 2.显示目录的基本信息. 3.在指定目录下创建单个文件. 4.指定目录下创建多个临时文件. 二.字节流 1.生成ZIP压缩文件 2.解压缩zip文件 3.生成Excel文件 4.读取excel文件 5.生成PDF文件 6.读取PDF文件中的内容 7.利用poi读取Word文件中的内容. 三.字符流 1.追加文件内容 2.读取jar包内容 3文件的加密/解密操作 JAVA加包+++右键项目+BuildPath+Add External Achievees.

.NET平台开源项目速览(16)C#写PDF文件类库PDF File Writer介绍

1年前,我在文章:这些.NET开源项目你知道吗?.NET平台开源文档与报表处理组件集合(三)中(第9个项目),给大家推荐了一个开源免费的PDF读写组件 PDFSharp,PDFSharp我2年前就看过,用过简单的例子,不过代码没有写成专门的文章.最近在查找资料的时候,又发现一款小巧的写PDF文件的C#组件:PDF File Writer.该开源组件是在codeproject,还没有托管到其他地方,所以花了点时间了解了一下,分享给大家. .NET开源目录:[目录]本博客其他.NET开源项目文章目录

C#写PDF文件类库PDF File Writer介绍

.NET平台开源项目速览(16)C#写PDF文件类库PDF File Writer介绍 阅读目录 1.PDF File Writer基本介绍 2.一个简单的使用案例 3.资源 1年前,我在文章:这些.NET开源项目你知道吗?.NET平台开源文档与报表处理组件集合(三)中(第9个项目),给大家推荐了一个开源免费的PDF读写组件 PDFSharp,PDFSharp我2年前就看过,用过简单的例子,不过代码没有写成专门的文章.最近在查找资料的时候,又发现一款小巧的写PDF文件的C#组件:PDF File

使用Python批量合并PDF文件(带书签功能)

网上找了几个合并pdf的软件,发现不是很好用,一般都没有添加书签的功能. 在网上查找了python合并pdf的脚本,发现也没有添加书签的功能.于是自己动手编写了一个小工具,代码如下: 1 #!/usr/bin/env python3 2 # -*- coding: utf-8 -*- 3 ''' 4 #文件名:pdfmerge.py 5 本脚本用来合并pdf文件,输出的pdf文件按输入的pdf文件名生成书签 6 使用示例如下: 7 python pdfmerge.py -p "D:\pdf-fi

如何将扫描的pdf图片转换成文字,方法竟然如此简单?

提问:word.ppt.txt.pdf等常见办公文档格式那个最难编辑.回答肯定是pdf啦,因为pdf文件不能直接打开进行编辑,所以编辑pdf文件比较麻烦,下面就一起来看看实现pdf文件的编辑的方法. 有的朋友会问,编辑pdf文件需不需要进行文字识别呢?小编的回答这不是绝对的.因为pdf文件有很多的格式,有的是纯文字,有的是图文格式,最麻烦的是扫描的pdf文件.根据pdf文件的属性不同,编辑的方法也不同. 针对文字版的pdf文件我们可以通过迅捷pdf编辑器来实现对pdf文件的编辑. 我们要做的就是

如何将PDF文件转换为能编辑的Word文档

近几年PDF文档越来越普遍化,原因就是word文档保存的文件有可能会因为电脑的差异而打不开,或者在显示上会有差异,给使用者造成不必要的麻烦.PDF能保存写作者想要的效果,将word文档储存为PDF是一个不错的选择.但是在需要编辑的时候又怎么把PDF文档转换成能编辑的word文档呢? 不是所有PDF文件都可以转换为能编辑的word文档,对于扫描的PDF文件只能转为图片内容的word文档,被加密的PDF文件如果不去除密码那么转换为word后也是图片内容. 方法A:要转换PDF文档的格式可以用在线的方