Python3.x：pdf2htmlEX（解析pdf）安装和使用

简介

pdf2htmlEX是一款优秀的pdf转换成html的工具；

下载

windows下载地址：http://soft.rubypdf.com/software/pdf2htmlex-windows-version

安装

下载pdf2htmlEX-win32-0.14.6-with-poppler-data.zip后，直接解压，即可用；

测试

在dos窗口中切换到解压目录：

cd /d D:\pdf2htmlEX-win32-0.14.6

输入测试命令：

pdf2htmlex -v

结果如下图，表示安装成功；

pdf2html命令用法

用法: pdf2htmlEX [options] <input.pdf> [<output.html>]
  -f,--first-page <int>         需要转换的起始页 (默认: 1)
  -l,--last-page <int>          需要转换的最后一页 (默认: 2147483647)
  --zoom <fp>                   缩放比例
  --fit-width <fp>              适合宽度 <fp> 像素
  --fit-height <fp>             适合高度 <fp> 像素
  --use-cropbox <int>           使用剪切框 (default: 1)
  --hdpi <fp>                   图像水平分辨率 (default: 144)
  --vdpi <fp>                   图像垂直分辨率 (default: 144)
  --embed <string>              指定哪些元素应该被嵌入到输出
  --embed-css <int>             将CSS文件嵌入到输出中 (default: 1)
  --embed-font <int>            将字体文件嵌入到输出中 (default: 1)
  --embed-image <int>           将图片文件嵌入到输出中 (default: 1)
  --embed-javascript <int>      将javascript文件嵌入到输出中 (default: 1)
  --embed-outline <int>         将链接嵌入到输出中 (default: 1)
  --split-pages <int>           将页面分割为单独的文件 (default: 0)
  --dest-dir <string>           指定目标目录 (default: ".")
  --css-filename <string>       生成的css文件的文件名 (default: "")
  --page-filename <string>      分割的网页名称  (default:"")
  --outline-filename <string>   生成的链接文件名称 (default:"")
  --process-nontext <int>       渲染图行，文字除外 (default: 1)
  --process-outline <int>       在html中显示链接 (default: 1)
  --printing <int>              支持打印 (default: 1)
  --fallback <int>              在备用模式下输出 (default: 0)
  --embed-external-font <int>   嵌入局部匹配的外部字体 (default: 1)
  --font-format <string>        嵌入的字体文件后缀 (ttf,otf,woff,svg) (default: "woff")
  --decompose-ligature <int>    分解连字-> fi (default:0)
  --auto-hint <int>             使用fontforge的autohint上的字体时不提示 (default: 0)
  --external-hint-tool <string> 字体外部提示工具 (overrides --auto-hint) (default: "")
  --stretch-narrow-glyph <int>  伸展狭窄的字形，而不是填充 (default: 0)
  --squeeze-wide-glyph <int>    收缩较宽的字形，而不是截断 (default: 1)
  --override-fstype <int>       clear the fstype bits in TTF/OTF fonts (default:0)
  --process-type3 <int>         convert Type 3 fonts for web (experimental) (default: 0)
  --heps <fp>                   合并文本的水平临界值，单位：像素(default: 1)
  --veps <fp>                   vertical threshold for merging text, in pixels (default: 1)
  --space-threshold <fp>        断字临界值 (临界值 * em) (default:0.125)
  --font-size-multiplier <fp>   一个大于1的值增加渲染精度 (default: 4)
  --space-as-offset <int>       把空格字符作为偏移量 (default: 0)
  --tounicode <int>             如何处理ToUnicode的CMap (0=auto, 1=force,-1=ignore) (default: 0)
  --optimize-text <int>         尽量减少用于文本的HTML元素的数目 (default: 0)
  --bg-format <string>          指定背景图像格式 (default: "png")
  -o,--owner-password <string>  所有者密码 (为了加密文件)
  -u,--user-password <string>   用户密码 (为了加密文件)
  --no-drm <int>                覆盖文档的 DRM 设置 (default: 0)
  --clean-tmp <int>             转换后删除临时文件 (default: 1)
  --data-dir <string>           指定的数据目录 (default: ".\share\pdf2htmlEX")
  --debug <int>                 打印调试信息 (default: 0)
  -v,--version                  打印版权和版本信息
  -h,--help                     打印使用帮助信息

python3中调用pdf2htmlex示例

原文地址：https://www.cnblogs.com/lizm166/p/8453584.html

时间： 2024-10-07 10:08:55

Python3.x：pdf2htmlEX（解析pdf）安装和使用的相关文章

[转]Python 解析 PDF 文本和表格的四大方法介绍

Python 解析 PDF 文本和表格的四大方法介绍看到一个不错的知识文章,和大家分享一下: 很多文件为了安全都会存成 PDF 格式,比如有的论文.技术文档.书籍等等,程序读取这些文档内容带来了很多麻烦.Python 目前解析 PDF 的扩展包有很多,这里将对比介绍 PyPDF2.pdfplumber.pdfminer3k 以及 Camelot,告诉你哪个是好用的 PDF 解析工具. 本文使用的案例 PDF 文档下载链接: 链接: https://pan.baidu.com/s/1zH7vY4

python解析PDF文档

1.安装 pip install pdfminer3k 2. python读取PDF文档代码分析 PDF格式不是规范格式. 尽管它被叫做"PDF文档", 但并不像word或者html文档.PDF的表现更像一张图片.PDF更像是在一张纸的各个准确的位置上把内容都摆放出来.大部分情况下,没有逻辑结构,比如句子或段落,并且不能自适应页面大小的调整.PDFMiner尝试通过猜测它们的布局来重建它们的结构,但是不保证一定能工作.我知道这样很难看,但是,PDF确实不够规范. 下面这个图片是使用流

代码片段，使用TIKA来解析PDF,WORD和EMAIL

/** * com.jiaoyiping.pdstest.TestTika.java * Copyright (c) 2009 Hewlett-Packard Development Company, L.P. * All rights reserved. */ package com.jiaoyiping.pdstest; import java.io.BufferedInputStream; import java.io.BufferedOutputStream; import java.i

C#解析PDF

C#解析PDF的方式有很多,比较好用的有ITestSharp和PdfBox. PDF内容页如果是图片类型,例如扫描件,则需要进行OCR(光学字符识别). 文本内容的PDF文档,解析的过程中,我目前仅发现能以字符串的形式读取的,不能够读取其中的表格.据说PDF文档结构中是没有表格概念的,因此这个自然是读不到的,如果果真如此,则PDF中表格内容的解析,只能对获取到的字符串按照一定的逻辑自行解析了. ITestSharp是一C#开源项目,PdfBox为Java开源项目,借助于IKVM在.Net平台下有

Python3、setuptools、Pip3安装详解

Python3.setuptools.Pip3安装详解 2017年08月19日 18:58:47 安静的技术控阅读数:26002 版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/a2011480169/article/details/77414500 博客核心内容: 1.Python3安装 2.setuptools安装 3.Pip3安装 1 2 3 之所以写这篇博客,也是有很多原因了,每次安装都要从网上各种百度,网上的答案也是各种各样,于是决定

win64位系统+Anacond(python3.6)避坑快速安装Dlib+Face_recognition

最近对人脸识别感兴趣,于是入坑安装Face_recognition,花一天功夫没装下来,我的系统和Python版本是win64+Anacond(python3.7.1). 一天下来搞明白了想安装face_recongnition的必需配置好Dlib, 配置好dlib的必要条件是:自己安装一次dlib,并且编译,还要安装巨大的VS,安装Dlib的配置好boost和cmake,一直在摸索不安装VS就想把其他都安装好,一直都是出错.终于在睡觉前微信搜索到一篇博文在python3.6下可成功安装Face

Python基础入门一文通 | Python2 与Python3及VSCode下载和安装、PyCharm激活与安装、Python在线IDE、Python视频教程 򘳕

原文: http://blog.gqylpy.com/gqy/481 置顶:来自一名75后老程序员的武林秘籍--必读(博主推荐) 来,先呈上武林秘籍链接:http://blog.gqylpy.com/gqy/401/ 你好,我是一名极客!一个 75 后的老工程师! 我将花两分钟,表述清楚我让你读这段文字的目的! 如果你看过武侠小说,你可以把这个经历理解为,你失足落入一个山洞遇到了一位垂暮的老者!而这位老者打算传你一套武功秘籍! 没错,我就是这个老者! 干研发 20 多年了!我也年轻过,奋斗过!我

python3的linux环境编译安装

python3的linux环境编译安装 1.linux下安装软件的方式选则yum工具,方便,自行解决软件之间的依赖关系,自动下载且安装 1.配置yum源可以选择阿里云源,清华源等配置第一个仓库,里面有大量系统常用软件 wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo 配置第二个仓库,携带大量第三方软件(nginx,redis,mongodb,mairadb等) wge

Ubuntu系统Python3相关环境或模块安装

前提:一般用户安装都命令前都需要sudo ,或者在root用户下 1.Ubuntu 16.04 安装PyCharm Ubuntu 16.04 安装PyCharm 本文通过第三方源安装PyCharm,好处是升级方便. 添加源: $ sudo add-apt-repository ppa:mystic-mirage/pycharm 安装收费的专业版: $ sudo apt-get update $ sudo apt-get install pycharm 安装免费的社区版: $ su