linux 下 pdf 转换成txt

pdf有转换,如果是非扫描的,转换很快,识别率100%,很多软件可以转;如果是扫描的,就比较麻烦需要用到OCR技术(文字识别)。

在linux下:

依赖包  poppler-utils  tesseract tesseract-ocr-chi-sim

情况一:pdftotxt 命令 可以转换非扫描版,免费又方便,只是格式、字体都没了

情况二:pdftoppm + tesseracr 可以实现扫面版的转换

情况一操作 pdftotxt  name.pdf   new.txt

情况二操作 第一步:pdftoppm name.pdf new   会生成new-1.ppm new-2.ppm 每页一个;

第二步: tesseracr new-1.ppm  result    会生成result.txt;可通过写脚本逐个转换,最后合到一个txt里

我的脚本如下:

第一步:pdftoppm test.pdf b -r 450 -freetype yes   ;经过我测试 当DPI为450是识别效果较好,ppm文件也不是很大,单个在60M左右

第二步:脚本

for i in `ls b-*.ppm`  #注意路径
do
n=1
    while [ $n -eq 1 ]   #监测任务
    do
    num=`ps aux|grep tesser|wc -l`  #并发任务不超过四个,可自行修改,注意内存和CPU
        if  [ $num -le 4 ]
        then
            tesseract $i $i -l chi_sim &   #任务  -l chi_sim是指定内容是中文,会生成很多txt,最后不要忘了合并。
            n=0
        else
            sleep 3
        fi
    done
done

时间: 2024-11-05 22:47:06

linux 下 pdf 转换成txt的相关文章

Python 将pdf转换成txt(不处理图片)

上一篇文章中已经介绍了简单的python爬网页下载文档,但下载后的文档多为doc或pdf,对于数据处理仍然有很多限制,所以将doc/pdf转换成txt显得尤为重要.查找了很多资料,在linux下要将doc转换成txt确实有难度,所以考虑先将pdf转换成txt. 师兄推荐使用PDFMiner来处理,尝试了一番,确实效果不错,在此和大家分享. PDFMiner 的简介:PDFMiner is a tool for extracting information from PDF documents.

Linux下批量转换成pdf文档

利用ubuntu,ubuntu 12.04是有libreoffice的. 把文档放到某个位置,方便得场景一是: 文档在winxp下写. Linux下类似于smbmount -o rw,username=tangjian,password=bbs //192.168.27.141/d$ /mnt/tjx 利用Makefile格式 设法把下列类似的命令放进去. libreoffice --invisible -convert-to pdf -outdir . Linux系统命令及其使用详解.doc

如何将PDF文件转换成TXT文档

相信大家都知道什么是PDF文件,可是在使用PDF文件的时候我们常常会碰到一个难题,就是将PDF文件转换成TXT或者Word文档进行编辑,今天就给大家分享一种简单的转换方法. 1.先打开手机,可借助手机上的工具--PDF转换器,可在应用市场上搜索下载. 2.打开PDF转换器,以PDF转TXT为例,点击"PDF转换"此页面,点击"PDF转换TXT". 3.再添加需要转换的PDF文件,点击"全部文件",可在这里找到手机里保存的PDF文件,然后进行添加.

pdf转换成可编辑的word转换器

头条号:近期有不少网友向我咨询有关PDF转换成可编辑的Word文档的软件,小Q认为网上虽然有很多类似的PDF转换成Word转换器,但是从性能以及转换效果来看,迅捷PDF转换成Word转换器免费版v6.0算是比较理想的选择,有需要的童鞋不妨尝试看看. pdf转换成word转换器是一款专业的PDF转Word工具软件,它能快速准确的将您PDF文档中的文字及图片提取出来,转换保存成Word格式,同时很好的让原有PDF中的文字/字体/大小/行间距等保持不变,图片也按照原始的排版布局还原,最大程度的还原原始

PDF如何在线转换成TXT

PDF如何在线转换成TXT免费版的,在如今的学习和工作中,PDF便携式文档使用的非常广泛,但是其不能剪切和编辑的毛病也很是让人头疼,今天在这里给大家介绍下PDF如何在线转换成TXT免费的方法,大家认真听哦. 搜索关键词迅捷PDF在线转换器,点开界面. 点开转换器首页,点击文档转换,在下拉框中找到PDF转TXT. 点击选择文件,弹出文件夹选项,选择你需要转换的PDF文件添加. 选择完文件后,点击开始转换. 文件转换需要一些时间,耐心等待转换进度完成. 转换完成后,可点选择直接打开,也可以立即下载在

如何把PDF文件内容转换成TXT

PDF格式文档的兴起使得现在很多文档都用PDF格式进行传递一些文档资料内容,如果拿到这种格式的文档,需要用到里面的一些文本内容,有些人就会进行复制粘贴了,但是如果需要的文本内容比较多,显然一页一页的复制操作是很浪费时间的,如果要将PDF文本内容提取出来可以直接将文件转换为txt格式就可以了. 一般我们查看PDF文件都会用的Adobe Reader,这个不仅可以查看PDF文档的内容,也能将里面的文本内容单独提取出来.所以在需要里面文本内容的时候就不需要再用复制粘贴的方法了. 首先用Adobe Re

怎样把PDF转换成PPT?迅捷PDF转换器来助力

PDF文件因它的安全性和保密性而被广泛的使用,不管是什么格式文件,只要文件内容太长看起来都会烦躁,但是把PDF转换成PPT就会好很多,看完一张滑动一下鼠标就可以看下一张了.那么怎样把PDF转换成PPT呢?迅捷PDF转换器:PDF转PPT图文教程一.下载安装并运行PDF转换器--点击软件界面中的[文件转PPT]--添加需要转换的PDF文件(这里提供三种添加方式:直接拖拽.添加文件.添加文件夹): 二.添加PDF文件后,软件展示出相关的属性设置,包括:排列方式:缩略图.列表,输出目录:原文件夹.自定

财务必备技能 如何将pdf转换成excel

虽然pdf文件有各种的优点,但是编辑权限也是事实,将pdf转换成其他格式文件是不可避免的,之前小编给大家讲解过很多使用迅捷pdf转换器将pdf转换成word或是word转换成pdf的方法.今天就不局限于pdf和word的转换了,这里给大家一个新的转换形式,那就是pdf表格文件转换成excel,这可是财务必备技能之一,不会这种转换怎么看怎么亏. 如何将pdf转换成excel,pdf转excel操作步骤详解: 1.在迅捷pdf转换器的界面当中选择"文件转excel",之前我们在很多的文章中

pdf转换器手机版如何将pdf转换成word

pdf转换器如何将pdf转换成word,难吗?--不难! pdf转换器手机版如何将pdf转换成word,难吗?--难! 下面就让大家看一下,小编是如何在手机上将pdf转换成word的! 工具/原料 手机(建议连接wifi) pdf文件 方法/步骤 1.打开手机上的浏览器,找到"百度",点击进入百度搜索页面: 2.在搜索框中输入"pdf转word在线",再点击"百度一下": 3.展现出比较多的页面,点击其中任意一个进入转换界面: 4.默认就是&qu