网页转文字版pdf

因为想把网页转化成文字版pdf供注释,高亮等操作,我尝试了很多的方法,现总结于此:

(1)adobe,福昕阅读器等虚拟打印生成pdf:

这种方法是我最先想到的,但是打印出来的是图片版本的pdf,不可编辑及注释,其实虚拟打印我早预料到不是文字版pdf可能性很大。

(2)网页另存为pdf:

这个根据浏览器和操作系统的不同操作稍微有些差异,不过大同小异。保存的确实是文字版pdf,但是对于充斥着大量数学公式的网页(维基百科),生成的pdf效果及其糟糕,基本上公式都挂掉了,在pdf中是空置的区域。不过我注意到图表在生成的pdf中还算凑合,显示正常,分辨率略低。这种方法,似乎对于一般的文字+普通图片的网页都够用了,如维基百科这样的网页相关的公式应该都是用类似LaTex的引擎生成的吧,所以普通图片生成成功,而它(公式)不可以。

(3)html 在线转化pdf:

我尝试了几个搜索引擎排在前面的网站,要么是页眉页脚打广告(文字版超级链接),要么是对于数学公式处理算不上完美(我用www.htmlpdf.com有一处,公式没有成功,出现马赛克)

PS: www.htmlpdf.com 这个网站还是不错的~,生成速度快,效果也还可以,没有推广广告的页眉页脚,不用软件~~~

(4)adobe acrobat:

我用的是adobe acrobat Pro DC,通过创建pdf(用网页链接来创建).用默认的设置,我的例子(维基百科)中,会出现一些问题:

  i)图片的公式过大,矢量的文字过小,这个可以在acrobat软件中:在创建pdf前的html的高级设置里通过调整文字的相关属性来解决。

PS:此处还没有预览功能,“预览”只在最后决定要不要这个效果的pdf时才可见,这个文字调节大小只能是摸石头过河了,而且这个一般默认就得啦,我尝试了,这个调节大小也只是调节acrobatic它所认定的部分,和我们所想的还不是一回事,如果贸然调节,可能会出现参差不齐的文字效果!!!在这一点上,还是www.htmlpdf.com这个网站的效果好!!

  2)每一页pdf的页眉页脚会给出“源网页”的“文字”超链接,这个效果就和(3)中的有些软件给出的推广文字链接一样,这个也可以在acrobat高级设置里进行设置!!

时间: 2024-10-23 21:09:59

网页转文字版pdf的相关文章

HTML&XML网页设计 (曾鸿) pdf扫描版

HTML&XML网页设计循序渐进地介绍了HTML.CSS.XML.XSL.XLL(XLink+XPointer),并通过诸多实例让读者了解了HTML和XML标记的用法,掌握了网页设计的原理.方法和技巧.全书共分为13章,主要包括:文档结构.文字修饰.超链接.表格.框架.表单.列表.多媒体效果.CSS.XML.XSL.XLL. 本书层次分明.实例丰富.图文并茂,理论联系实际,可作为高职高专计算机类的教材,也可供从事网页设计的人员参考使用. 教程地址:HTML&XML网页设计 (曾鸿) pdf

pdf转换成word文字版

最近很多朋友一直在问我怎么才能把pdf转换成word文字版.其实这个教程我前面也有提及的.但是没有说的那么明确.今天就在和大家说一次. 工具/原料 捷速OCR文字识别软件 电脑 方法/步骤 1 首先在电脑上打开我们要转换成word的文字PDF,对于图片的格式没有什么要求,基本上能够清晰点就可以了. 2 然后启动图像word转换工具,把我们需要转换的PDF直接拖进软件.操作方法如下图: 3 然后点击开始那个选项软件会自动开始工作.我们要做的就是等待. 4 最后大家看到有处理完成这个提示就证明已经转

中文版Dreamweaver+Flash+Photoshop网页制作从入门到精通(CS4版) PDF扫描版

中文版Dreamweaver+Flash+Photoshop网页制作从入门到精通(CS4版)内容丰富.实用,讲解循序渐进,每章都安排有丰富的应用实例.练习实例和知识问答,在每一页的下方还提供了与所讲解知识相关的操作技巧.注意事项和经验之谈,尽可能多地解决学习中的疑问,以满足不同学习阶段的读者对学习内容的不同要求. 中文版Dreamweaver+Flash+Photoshop网页制作从入门到精通(CS4版)适合于从未接触过网页制作的初级读者,以及有一定网页制作基础但想灵活使用dreamweaver

怎么将扫描版pdf文件怎么转换成word文件

由于PDF是一种复杂多样的文档格式,有的时候我们遇到的PDF文件不是纯文字源的内容的,而是一页页扫描版PDF文件,此时如何想得到文本或Word文档?如何还未找到合适的解决方法,可以使用迅捷PDF转换器全新v6.0版进行转换. pdf转换成word转换器是一款功能强大的文件转换工具,可以把纸张.PDF文件.图片文件扫描成可以编辑的Office文档,目前PDF转换器发展至今主要推出4.0.5.0.6.0三个版本.经过几年的发展,它的功能不断完善.性能不断提高,此次更新,修正或增加了以下功能:1.PD

电子书 html5与css3基础教程第8版.pdf

内容简介 <HTML5与CSS3基础教程(第8版)>自第1版至今,一直是讲解HTML和CSS入门知识的经典畅销书,全面系统地阐述HTML5和CSS3基础知识以及实际运用技术,通过大量实例深入浅出地分析了网页制作的方方面面.全新第8版不仅介绍了文本.图像.链接.列表.表格.表单等网页元素,还介绍了如何为网页设计布局.添加动态效果等,另外还涉及调试和发布. <HTML5与CSS3基础教程(第8版)>提供了一个强大的配套网站,上面列出了书中的完整代码示例以及更多优秀实例及进阶参考资料,以

在线迅捷绿色版PDF转JPG转换器

很少使用df文件的人都会这么问怎么打开df文件,这是因为电脑上没有安装df文件阅读软件,如主流的 adoereader等等,但是安装软件又很耗时间.所以到底要怎么办呢?其实可以选择迅捷的PDF转JPG的转换 器. PDF是由Adobe公司开发的电子文件格式,这种文件格式便携性很高并且与操作系统平台无关,也就是说 ,PDF文件不管是在Windows,Unix还是在苹果公司的Mac OS操作系统中都是通用的.这一特性使PDF格式 成为互联网上进行电子文档发行和数字化信息传播的理想文档格式.越来越多的

Erlang / OTP并发编程实战 Erlang程序设计.第2版 PDF分享

图灵官方图书: 完整PDF.文字版.非扫描版,字迹清晰,目录完整.体积小.无任何广告. 获取资源 原文地址:https://www.cnblogs.com/nexts/p/11701009.html

Android基础教程 第4版 PDF分享

图灵官方图书: 完整PDF.文字版.非扫描版,字迹清晰,目录完整.体积小.无任何广告. 获取资源 原文地址:https://www.cnblogs.com/nexts/p/11700744.html

Elasticsearch服务器开发.第2版 PDF分享

图灵官方图书: 完整PDF.文字版.非扫描版,字迹清晰,目录完整.体积小.无任何广告. 获取资源 原文地址:https://www.cnblogs.com/nexts/p/11700857.html