个人永久性免费-Excel催化剂功能第115波-word、pdf、Excel、ppt、html等文件互转

2020年第一波更新,再来个重量级的刚需场景,文件互转。有Excel催化剂后,不再需要频繁到处找寻各种网页在线版的转换操作,数据安全很重要,不要轻易将自己文件上传到网上,哪天出事了,没人可怜!

做最有价值的文件转换而非为转换而转换

文件转换的确是一个非常刚需的功能,滋生了大量的网页在线转换应用,当然也有不少是收费性质的,至于免费的也是有功能限制的如文件大小限制或转换页数限制。

因着没有过硬的数据管理能力,大量的本该在Excel上做结构化存储的数据,被分散地存储在pdf、word、甚至ppt上,这些数据的回收再加工,就有了非常刚需的场景。

同样地在人员往来过程中,为了文档的保护和查阅方便,也催生了大量的pdf版本的文件数据。pdf文件,其致命之处是,已经失去了日常我们文档中的结构化信息,如一、二级标题、正文、图片、表格等。除非用非常专业的Adobe软件才能做一些的还原。同样最大的痛点是可编辑能力几乎为0。

在一些系统导出的报表文件中,可能就出现有pdf格式的数据,对程序输出来说容易,但输出后,再加工的余地非常少。

所以pdf文件的转换,可以说是文件转换中的刚需中的刚需,为了能拿到可重新编辑的数据,重中之重,可不能让人工去一遍又一遍的复制粘贴的操作。

Excel催化剂倡导从源头解决问题,如本该使用Excel来整理数据,存储数据源的,最大可能性地培训教导一线人员做好此工作,其他各式各样的用于展现、打印、查看需求的,可灵活应用在pdf、word、ppt、html等不同场景需求的文件上。数据源是根本,务必管理好自己的数据源。

挽救现实中的各种文件转换问题

当然理想很丰满,现实很骨感,企业运作过程中,生产出大量不规范的数据及不规范的数据存储方式,也需要有一些工具功能来亡羊补牢一下。

Excel催化剂也对其做了一些补充,让数据转换过程更流畅,更重要的是转换后,能够再次轻松地从其中重新采集到所需的数据,作二次加工整理。

具体的功能实现有如下几种

更佳的找寻菜单方式,使用搜索。

一、Pdf转Word功能

此功能对文档类型的数据非常刚需,只有数据回到Word中,才能重新有编辑的余地。此功能使用Word原生的功能,在Word2013及之后的版本中,可以直接在Word中打开pdf文件,在Excel催化剂的场景中,仅对其做了批量性操作处理,一次性处理多个Word文档。

二、pdf转jpg,提取文本、图片等

此转换已经在2019年的功能中作了实现,可轻松完成pdf的文本信息、图片信息提取及pdf图片化保护操作。但有可能在数据提取后的再加工上,仍然不是最佳的方式,特别是需要在pdf文件中获取结构化信息时,一些表格类数据获取能力较弱。

三、Word转Excel的xlsx格式

此功能将是本篇的一大亮点功能,虽然实现起来,很不起眼, 只是很粗爆地将Word文件的数据全选后,再粘贴到Excel中。为何将其抬举到如此重要的环节?

最开始想做这个转换的动机是,因前面pdf提取表格信息有缺陷,识别率有限,若要将pdf的表格信息拿到Excel中使用,想到的迂回方式是将其转换成Word,再通过Word作中间桥梁,Word里有表格的结构化信息,可轻松提取。

后来在朋友的公众号推文中认识了Doc2Xls这款小工具,由Excel加载宏开发而成,如下图所示。

了解了一翻后,发现其实现的原理,类似于笔者之前开发过的报表结构数据源转换标准数据源的逻辑,思维定性地往此作者的实现方式的方向去思考,直到某一天一个灵光出现,直接将Word文档复制粘贴到Excel文档中,最符合笔者对此功能的期待。

Doc2xls工具,也迭代了好多年,但总体看回来,功能还是非常单薄,只能处理一对一关系的数据结构(可能未深入学习了解全面,有不对的地方请指正)。

在Excel催化剂的报表结构数据源转换标准数据源功能中,实现的效果是可以满足一对多的数据源,也是最为常见的订单、发货单、采购单等样式,符合实际的业务场景。

由Word直接转为Excel,数据到了Excel环境,在Excel催化剂过往的大量文本处理、格式处理、数据转换的功能支持下,比起Doc2Xls很机械地作一些简单配置,必然要通用强大得多。

Excel环境下采集指定内容及转换的功能大概会有以下几个大的功能支持,日后有好的示例将通过视频的方式给大家展示其强大及灵活之处。

同样地配合之前所提到的场景,对Word中的表格数据,进行额外的提取操作,方便数据更合理地被Excel环境所识别和提取到。一个表格占用一个工作表,若是规范性的文档,表格结构一致,位置顺序一致,将非常方便将Word的数据输出到Excel中重新利用。

四、Word转Pdf功能

此功能个人理解,仅仅用于数据保护和数据查阅需要,可能的场景只是手中大量的Word文档,想一次性转换为Pdf格式,Word的原生功能可以轻松对Word文档转Pdf,只是一次只转换一个文档,本功能也只是调用Word的转换接口,进行循环批量操作而已。

 五、PPT转Pdf功能

和第四点完全一致的场景,功能实现也没特别之处,仍然是内部原生功能即可完成。

六、Word转Html

基于前期的网页采集功能的开发,将Word转换为Html,就比较有场景需求了,若在前面第3点上直接转Xlsx文件,不能很好地拿到想要的数据(会丢失一些格式、标题、层级等信息或字段名和内容不分离等问题),将其转换为Html,再使用xPath的提取方式来重新提取,未尝不是一个非常好的方式,类似使用网页采集的原理,采集一些结构化的数据。

同时另一刚需场景为,可以轻松地提取到Word里面的图片,转换成Html后,图片将会在一个文件夹中存放,更多的技能是如何将这些文件夹里的无意义的命名图片,重新快速地进行筛选,拿到自己最终所需的图片子集。

在此给出大概的操作步骤及用到的功能:

  • 使用文件遍历功能,将图片信息汇总到Excel表中
  • 用xPath找出原始图片的清单(转换html后,会出现两套图,一个为缩略图一个为原图)。
  • 使用插入图片的方式,重新将图片插入到Excel中,手动判断图片所属及对其手动在对应行单元格上重命名。
  • 使用批量重命名、批量移动图片等方式,最终将原来无意义名字图片命名后转移到最终所需的文件夹中存放。

七、Excel转Pdf功能

Excel文件结构,类似数据库结构,有多个工作表,所以更科学的转换方式是按指定工作表转换,此功能也在过往的功能中得以实现,详见文章:

结语

源头没摆正,最终衍生出大量稀奇古怪的各种神操作,当然文件转换过程,也必然很大原因归咎于没有规范科学的数据管理,没有树立科学的数据管理方法论,最终只能是无穷无尽地各种问题各种低效。

Excel催化剂倡导,从源头中处理,正确地理解好数据源与报表的两者关系,并在实际工作中加以应用,将减少非常多这些文件转换的工作。

还是那句话,你足够优秀,但你不能阻碍你的队友拖你大大的后腿,此篇一系列的转换功能,相信每个人都有不同程度的使用机会。

文字太苍白,后续有机会将以视频的方式给大家演示其威力所在。欢迎提供脱敏的原始示例数据,以便更有针对性地讲解。

原文地址:https://www.cnblogs.com/ExcelCuiHuaJi/p/12133123.html

时间: 2024-11-08 05:56:43

个人永久性免费-Excel催化剂功能第115波-word、pdf、Excel、ppt、html等文件互转的相关文章

个人永久性免费-Excel催化剂功能第20波-Excel与Sqlserver零门槛交互-数据上传篇

Excel作为众多数据存储的交换介质,在不同的系统内的数据很少可以很连贯地进行整合分析,一般的业务系统都会提供导出Excel作为标配功能供用户使用系统内生成的数据. 此时最大的问题是,Excel很维去成为各个数据源的整合方,其数据存储能力和运算能力一直是众多深度Excel用户们一大头痛的事情,当数据量一大,做什么操作都会慢下来. 今天Excel催化剂将给大家带来全新的解决方案,Excel与Sqlserver深度集成,在Excel上的数据源能轻松上传至Sqlserver中,实现以Sqlserver

个人永久性免费-Excel催化剂功能第19波-Excel与Sqlserver零门槛交互-查询篇

对频繁使用Excel的高级应用的尝试用户来说,绕不过的一个问题Excel的性能问题,对于几万条数据还说得过去,上了10万行的数据量,随便一个函数公式的运算都是一个不小的负荷,有些上进一点的用户会往Access桌面数据库去进深,试图通过一些数据库的技术解决下数据性能问题. 但毕竟要学习SQL查询,学习许多数据库的技术,也把许多人挡在通往美妙的数据之旅上.而且另一问题是Access其实也是很鸡肋的一个东西,特别是它的SQL语法支持和多人共享查询上. [Excel催化剂]拿出私藏很久的秘密武器,老规距

个人用户永久免费,可自动升级版Excel插件,使用VSTO开发,Excel催化剂功能第12波-快速生成、读取、导出条形码二维码

根据指定的内容生成对应的条形码或二维码,在如今移动互联网时代,并不是一件什么新鲜事,随便百度一下,都能找到好多的软件或在线网站可以帮我们做到,但细想一下,如果很偶然地只是生成一个两这样的图形,百度一下找个在线网站生成一下下载到本地,再复制粘贴一下,并不是什么多大问题的事情,但如果要批量处理,又如何呢?如果生成的二维码条形码,先进行排版一下打印出来,类似一个个标签或用作相应的产品说明的一部分,那又是怎样一种现成的解决方案呢?本次Excel催化剂再次刷新大家对Excel的认识,所有大家想做的事情,全

个人永久性免费-Excel催化剂功能第36波-新增序列函数用于生成规律性的循环重复或间隔序列

啃过Excel函数的表哥表姐们,一定对函数的嵌套.数组公式等高级的应用有很深的体会,威力是大,但也烧死不少脑细胞,不少人就在这样的绕函数中光荣地牺牲了,走向从入门到放弃.Excel催化剂的创立,初衷就是为了让普通用户,借助类似化学催化剂的作用,让平常难以有反应的常规使用,能够瞬间被点燃,借力完成过去很难完成的事情.此篇给大家介绍一些过往用函数潜逃较为复杂完成的事情,如今仅通过简单的一个自定义函数即可完成. 文章出处说明 原文在简书上发表,再同步到Excel催化剂微信公众号或其他平台上,文章后续有

个人永久性免费-Excel催化剂功能第46波-区域集合函数,超乎所求所想

在常规自定义函数的世界中,一般情况下,仅会输入一堆的参数,最终输出一个结果值,在以往Excel催化剂的自定义函数,已经大量出现输入一堆参数返回多个结果值并自动输出到多个单元格区域内.此项技术可运用的场景太多太多,以致于今天给大家推出的集合类函数,相信大多数就算是高级用户,都是耳目一新的应用. 文章出处说明 原文在简书上发表,再同步到Excel催化剂微信公众号或其他平台上,文章后续有修改和更新将在简书上操作, 其他平台不作同步修改更新,因此建议阅读其他出处的文章时,尽可能跳转回简书平台上查看. 使

个人永久性免费-Excel催化剂功能第47波-VBA开发者喜爱的加密函数类

VBA的确是个很不错的编程工具,寄生在OFFICE内,无需安装庞大的开发环境,即开即用,方便灵活,能实现的事情也很多,但毕竟VBA是微软停止更新维护将近20年的一种语言,计算机的世界发展速度有多快大家有目睹,今天抛砖引玉,拿几个加密类函数来讲说一下VSTO较VBA开发的一些优势所在. 文章出处说明 原文在简书上发表,再同步到Excel催化剂微信公众号或其他平台上,文章后续有修改和更新将在简书上操作, 其他平台不作同步修改更新,因此建议阅读其他出处的文章时,尽可能跳转回简书平台上查看. 题外话 本

个人永久性免费-Excel催化剂功能第50波-批量打印、导出PDF、双面打印功能

在倡导无纸化办公的今天,是否打印是一个碍眼的功能呢,某些时候的确是,但对于数据的留存,在现在鼓吹区块链技术的今天,仍然不失它的核心价值,数据报表.单据打印出来留存,仍然是一种不可或缺的数据存档和防篡改功能.听说Excel最好用的功能是打印功能,在此谨借第50波功能的重大里程碑,献给打印这一最古老且长存的功能,推出批量打印功能. 视频演示 Excel催化剂已正式在千聊上发布视频,如查阅文章有理解障碍,不妨查看下视频,视频不定期更新,内容丰富,干货满满,有术亦有道! 推广期间有砍价购活动,白菜价59

个人永久性免费-Excel催化剂功能第53波-无比期待的合并工作薄功能

合并工作薄.工作表功能,几乎每一款Excel插件都提供,而且系列衍生功能甚至有多达10多个.今天Excel催化剂重拾武器,在现有众多插件没提供到位的部分场景中,给予支持和补充,做到人有我优,人无我有的境地,重新定义怎样才算是一个精品级功能. 背景介绍 Excel催化剂一直留空没开发工作薄功能,并非因其太复杂或无需求.正是因为需求很大,而现有的插件都有提供. 最重要的是连微软官方都提供了此功能,使用PowerQuery的ETL功能,无论从易用性还是功能强大性来说,秒杀市面一切的第3方开发的功能.

个人永久性免费-Excel催化剂功能第44波-可见区域复制粘贴不覆盖隐藏内容

Excel的复制粘贴操作,每天都在进行,若其中稍能提升一点效率,长久来说,实在是很可观的效率提升. Excel自带的复制粘贴功能,若复制的数据源或粘贴的目标位置中有隐藏的行列内容,简单一个复制粘贴充满许多的坑坑哇哇.Excel催化剂今天为你全部解决,填满所有的坑! 文章出处说明 原文在简书上发表,再同步到Excel催化剂微信公众号或其他平台上,文章后续有修改和更新将在简书上操作, 其他平台不作同步修改更新,因此建议阅读其他出处的文章时,尽可能跳转回简书平台上查看. 使用场景 在数据临时加工处理过