shell下office、html、pdf文档互转方法

 分类:

后台开发

版权声明:本文为博主原创文章,未经博主允许不得转载。

OFFICE 文档在线预览方案很多:

  • 服务器先转换为PDF,再转换为SWF,最后通过网页加载Flash预览,比如flexpaper
  • Office文档直接转换为SWF,通过网页加载Flash预览
  • 微软的Office365
  • 在浏览器中直接打开
  • 转换为html

今天,我们要用的方案是转换为html来预览。

技术方案: 
- office文档转换为pdf:使用libreoffice 
- pdf转html,使用pdf2htmlex

测试环境: 
操作系统:ubuntu 12.04

1. office文档转pdf

1.1 安装libreoffice

apt-get install libreoffice-common
  • 1

1.2 启动转换服务

soffice --accept="socket,host=127.0.0.1,port=2002;urp;" --nofirststartwizard
  • 1

1.3 文档转换

网上一般介绍的都是使用JODConverter ,通过java来调用转换服务,其实还有一种替代方案,就是使用pyodconverter,python版本的转换脚本https://github.com/mirkonasato/pyodconverter/

下载后,进行测试:

python DocumentConverter.py Website_Information_Form.doc new.pdf
  • 1

soffice 可以正常转换为pdf,但是中文显示为乱码

1.4 中文乱码问题修复

google一下,乱码问题大概是字体缺失的问题,于是尝试将windows下的字体拷贝过去,复制windows下的字体到/usr/share/fonts下,然后刷新字体缓存

sudo fc-cache -fv 2>&1 | grep failed | cut -f1 -d":" | xargs -i sudo touch {} && sudo fc-cache -fv
  • 1

再重启转换服务,再次测试,已经OK了!

2.pdf转html

pdf转html,使用国人开源的pdf2htmlex,一开始尝试通过源码编译安装,依赖组件太多,安装非常麻烦!感兴趣的可以执行编译安装,参见(https://github.com/coolwanglu/pdf2htmlEX/wiki/Building)

下面介绍简单安装方式:

2.1 通过apt安装

sudo add-apt-repository ppa:coolwanglu/pdf2htmlex
sudo apt-get update
sudo apt-get install pdf2htmlex
  • 1
  • 2
  • 3

2.2 测试pdf2htmlex

pdf2htmlEX --zoom 1.3 xiaoshujiang.pdf
  • 1

可以看到,当前目录生成了xiaoshujiang.html

2.3 转换脚本

写一个脚本,将两次转换放到一起,方便调用:

#convert2html.sh
temp=$(date +%Y%m%d%H%m%s)
python DocumentConverter.py $1 ${temp}.pdf
pdf2htmlEX --zoom 1.3 $temp.pdf
mv $temp.html $2
rm $temp.pdf
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

3. 测试

3.1 word (doc.docx)测试

convert2html.sh imo云办公室-私有云用户使用手册V2.0.doc imo-doc.html
  • 1

效果:

3.2 表格 (xls)测试

convert2html.sh xxx.xlsx xxx.html
  • 1

3.3 PPT (pptx)测试

./convert.sh xxx.pptx xxx.html
  • 1

4. 总结

本文介绍了一种在服务端将office文档转换为html以方便预览的方法。

实际使用时,可以将生成好的html放到网站路径下,通过拦截器,设置访问权限。

时间: 2024-12-10 22:17:33

shell下office、html、pdf文档互转方法的相关文章

PDF文档的拆分方法,这个方法你了解吗?

PDF文档的拆分方法你知道吗?现在PDF文档使用的较多,但是对于怎么拆分PDF文档还是不清楚,其实想要拆分PDF文档就可以使用迅捷PDF编辑器来进行操作,下面小编就为大家操作一下PDF文档的拆分方法. 操作使用工具:迅捷PDF编辑器 具体操作方法如下: 1:首先我们将PDF编辑器安装到自己的电脑中,打开软件找到打开更多文件,将需要拆分的PDF文件添加到软件中. 2:在软件的顶部可以找到文档,点击文档就会在下面看到拆分文档,点击拆分文档,在软件的界面就会出现一个弹窗. 3:在弹窗中可以找到拆分方式

WPS在线转PDF文档的简单方法

WPS转PDF简单的方法有哪些?我们是怎么在线将WPS文档在线转换成PDF文档的呢?下面小编就来给大家简单的介绍一下.1. 首先我们需要在线转换,打开我们的电脑,在浏览器上搜索迅捷PDF在线转换器.2. 搜索到之后我们就开始点击进入到网站中,我们进入的是PDF在线转换器的网站首页面,我们选择点击文档处理中的WPS在线转PDF.3. 在选择文件进行上传之前我们需要自定义设置,设置原文件格式,页码的选择文件是否被公开,设置好了之后我们进入到文件的选择,我们选择文件进行上传.4. 文件进行选择好之后我

java操作office和pdf文件java读取word,excel和pdf文档内容

在平常应用程序中,对office和pdf文档进行读取数据是比较常见的功能,尤其在很多web应用程序中.所以今天我们就简单来看一下Java对word.excel.pdf文件的读取.本篇博客只是讲解简单应用.如果想深入了解原理.请读者自行研究一些相关源码. 首先我们来认识一下读取相关文档的jar包: 1. 引用POI包读取word文档内容 poi.jar 下载地址 http://apache.freelamp.com/poi/release/bin/poi-bin-3.6-20091214.zip 

Java 加密、解密PDF文档

本篇文章将介绍通过Java编程来设置PDF文档保护的方法.我们可以设置仅用于查阅文档的密码,即该通过该密码打开文档时仅用于文档阅读,无法编辑:也可以设置文档编辑权限的密码,即通过该密码打开文档时,文档为可编辑状态.使用工具:Free Spire.PDF for Java V2.0.0(免费版)关于jar文件引用步骤1:在Java程序中新建一个文件夹可命名为Lib.下载安装包后,解压,将解压后的文件夹下的子文件夹lib中的Spire.Pdf.jar和Spire.Common.jar两个文件复制到新

PDF文档太大如何压缩变小,一分钟解决

PDF文档太大如何压缩变小?现在很多人在使用PDF文档,毕竟PDF文档的便携性还是比较好的,但是PDF文档也会比较难压缩,下面小编为大家介绍一种压缩PDF文档大小的方法.操作软件选用:迅捷压缩软件1:将压缩软件安装到自己的电脑中,打开软件找到PDF压缩,点击PDF压缩进入到压缩的页面.2:在压缩的页面找到添加文件和添加文件夹,将需要压缩的PDF文件添加到压缩的页面,也可以直接将文件拖进压缩的页面.3:在下面找到压缩选项,将压缩软件设置到自己需要的选项.4:在底部找到保存至,将文件压缩完成的保存路

你想知道如何修改PDF文档吗?

PDF文档是文档格式的一种,全程是Portable Document Format,意为Portable Document Format,中文翻译是便携式文档格式.由大名鼎鼎的Adobe公司研发.为什么越来越多的公司开始使用PDF文件,是因为PDF文件是一种编程形式的文档格式,它所有显示的内容,都是通过相对应的操作符进行绘制.正因如此,它无论在任何机器上打开,都会展示相同的效果,而不会出现段落错乱.文字属性不一样的问题. 操作软件:迅捷PDF编辑器 软件地址:https://www.xunjie

PDF办公技巧:怎么拆分PDF文档

怎么拆分PDF文档呢?我们想要将一个PDF文档拆分成多个PDF文档需要怎么操作呢?想要拆分PDF文档需要使用到专业的PDF编辑器来进行操作,下面小编就为大家操作一下拆分PDF文档的方法步骤.操作软件:迅捷PDF编辑器具体操作方法如下:1:首先将迅捷PDF编辑器安装到自己电脑中.双击打开PDF编辑器,将需要拆分的PDF文件添加到软件中.2:在软件的顶部找到文档,点击文档在下面可以找到拆分文档,点击拆分文档在软件中会出现一个选择框.3:在软件的选择框中可以设置拆分的方式,拆分方式可以是根据顶层书签拆

Java实现web在线预览office文档与pdf文档实例

https://yq.aliyun.com/ziliao/1768?spm=5176.8246799.blogcont.24.1PxYoX 摘要: 本文讲的是Java实现web在线预览office文档与pdf文档实例, 1.首先我们需要找到可以把office转换成pdf的方法,查找资料发现有openoffice这一软件可以把office转换成pdf,这一软件先下载下来,然后记住自己安装的在那个位置.然后在cmd环境下进入安装目录的program目 云计算 云服务器ECS 大数据 建站 备案 文档

java将office文档pdf文档转换成swf文件在线预览

java将office文档pdf文档转换成swf文件在线预览 第一步,安装openoffice.org   openoffice.org是一套sun的开源office办公套件,能在widows,linux,solaris等操作系统上执行. 主要模块有writer(文本文档),impress(演示文稿),Calc(电子表格),Draw(绘图),Math(公式),base(数据库) 笔者下载的是openoffice.org 3.3.0.下载完直接安装即可.      但是,我们还需要启动openof