如何把online OCR的结果转换成word文档

要把string保存到word文档里,最简单的方法就是用Open XML SDK。这里分享下如何结合Dynamic .NET TWAIN OCR SDK和Open XML SDK,把online OCR的结果转换成word文档。

参考原文:

Online OCR – Convert Images to Word, Text and PDF

下载

如何集成Open XML SDK到Online OCR应用

这里使用的OpenXML SDK 2.5是从NuGet获得的,官方下载可以访问Open XML SDK 2.5 for Microsoft Office

添加Open XML引用:

打开,DoOCR.aspx.cs找到代码:

byte
[] content = OCRMode.OCR(inputBuffer, strLanguage, Convert.ToInt32(strFormat));

结果是byte array,把它转换成string:

System.Text.Encoding.ASCII.GetString(content)

创建函数SaveToWord,传入文件路径和OCR结果:

private void SaveToWord(string filepath, string ocrResult)
        {
            using (WordprocessingDocument doc = WordprocessingDocument.Create(filepath, DocumentFormat.OpenXml.WordprocessingDocumentType.Document))
            {
                MainDocumentPart mainPart = doc.AddMainDocumentPart();
                mainPart.Document = new Document();
                Body body = mainPart.Document.AppendChild(new Body());
                Paragraph para = body.AppendChild(new Paragraph());
                Run run = para.AppendChild(new Run());
 
                string returnValue = FilterInvalidXmlChars(ocrResult);
                run.AppendChild(new Text(returnValue));
            }
        }

这样OCR结果就可以保存到word文档里了。要注意的是,结果里可能包含了无效的XML字符,所以还需要对结果做过滤处理:

public static string FilterInvalidXmlChars(string text)
        {
            // answer from http://stackoverflow.com/questions/397250/unicode-regex-invalid-xml-characters/961504#961504
            string re = @"(?<![\uD800-\uDBFF])[\uDC00-\uDFFF]|[\uD800-\uDBFF](?![\uDC00-\uDFFF])|[\x00-\x08\x0B\x0C\x0E-\x1F\x7F-\x9F\uFEFF\uFFFE\uFFFF]";
            return Regex.Replace(text, re, "");
        }

看下视频demo:

更多信息可以参考Word processing (Open XML SDK)

源码

https://github.com/DynamsoftRD/online-ocr

git clone https://github.com/DynamsoftRD/online-ocr.git
时间: 2024-10-17 09:59:27

如何把online OCR的结果转换成word文档的相关文章

ABBYY将JPEG文件转换成Word文档的方法

日常工作中处理JPEG格式的图像文件时,有时需要转换成Word文档进行编辑,市场上应用而生了很多转换工具,相信不少人听说过OCR(光学字符识别)软件,可以用来转换图像文件,而在OCR软件中, ABBYY FineReader 12已被越来越多的企业和个人熟知,在日常工作中的应用范围也越来月广泛,本文主要教大家使用ABBYY FineReader 12将JPEG文件转换成Word文档. ABBYY FineReader 12是一款OCR图文识别软件,可快速方便地将扫描纸质文档.PDF文件和数码相机

如何将扫描件转换成word文档

年关将至各种宴会聚餐接踵而至,平时大家都很忙,就借着这种机会给大家一个聚会的理由.聚餐就少不了少酌几杯或是豪饮,这个没有严格的规定,正所谓喝多忘事,我就是这种人,上周五急着赶去聚会,秘书将一份文件发给我,心里是计划着晚上回去看,然后整理 好周一就要用.但是几杯酒下肚,什么文件全到九霄云外去了,甚至连自己怎么回家的都不知道.ocr识别软件 第二天醒来就只知道头很痛,席间发生了什么一概不知,就像失去记忆一样.心宽的我才懒得去在意这些呢,踏踏实实的享受着我的周末时光.甚至到周一上班还没有想起扫描文件这

扫描PDF转换成word文档如何操作

扫描PDF文件转换成word文档如何进行操作呢?作为一般的PDF文件介于它的文件大小都不够大,普通的转换功能都能进行操作,文件过大的话就需要用到扫描PDF转word这种操作,那么关于它的操作是怎样的呢?不妨看下小编的方法来了解一下!1.针对以上提出PDF转word文档的问题,首先大家可以在电脑上安装一个PDF转换器,这个可以到浏览器或电脑的应用商店进行搜索下载.2.在桌面上双击打开PDF转换器,进入到页面中可以选择到"特色功能"中的扫描PDF转word(OCR).最大支持50M以内的P

转换专家教你怎样把pdf转换成word文档

将pdf转换成word文档是让我们非常头疼的转换问题,由于在工作中出现的频率越来越多,不得不被重视起来,随之而来的是一系列的文本格式转换工具,主要是pdf格式转换工具.虽然很多工具都能够将pdf转换成word,但效果就不能保证了,小编在工作上还是比较敬业的,当即寻找文件格式转换专家来帮忙,想要把pdf转word的效果变成更好,转换的更加舒心,就让转换专家教怎样把pdf转换成word文档吧. 转换专家表示:在工作中接触pdf文件的朋友都知道,我们常常需要导出pdf中的图片.将pdf转换成offic

C# : 操作Word文件的API - (将C# source中的xml注释转换成word文档)

这篇博客将要讨论的是关于: 如何从C#的source以及注释, 生成一份Word格式的关于各个类,函数以及成员变量的说明文档. 他的大背景如下...... 最近的一个项目使用C#, 分N个模块, 在项目的里程碑的时候, 日本的总公司要检查我们的成果物. 成果物包括源代码, 概要设计式样书(SD,System Design), 详细设计式样书(PD, Program Design), 自动化测试等等. 源代码必须要符合编码规范(每个函数都要有注释, 方法变量的命名规则等...) 这些检查都很正常,

PDF如何转换成word文档

PDF如何转换成word文档 工作闲暇之际想将报刊.纸质文件这些文本资料上的文字变成自己的“东西”,但苦于文字资料太长,工作时间又紧,加上自己的打字速度太慢而不像花钱找专业打字员,有没有更好的方法来解决?答案是肯定的,那就是在网上下载一个迅捷PDF转换器软件,只需几分钟就能搞定,为你的编辑文档省钱又省力. 这里运用迅捷PDF转换器正式版本(当前最新版PDF文件转换软件)为例,利用软件内置的识别技术来解析PDF转Word.Excel.TXT等文本,希望对感兴趣的朋友有所帮助. 第一步,选择形式,勾

怎样可以把excel表格转换成word文档

在处理一些文档时,有时会遇到需要将excel表格内容全部放到word文档中,通常只是需要excel的部分数据内容时,直接通过复制,然后粘贴到word文档中即可,但是如果需要将excel表格所以内容都转换成word,那么复制操作就比较麻烦了,那么怎样可以快速将excel表格转换成word文档呢? 通过文档的转换工具,可以将excel格式直接转为word文档,而且是将excel工作簿中的所有表格同时进行转换. 首先在转换器中选择文件转word的转换类型,通过这个选项可以把我们常见的excel,ppt

怎么把PDF转换成word文档编辑

很多办公类的文档都是用word编辑的,而现在很多场合都需要用到PDF文件,所以在发送文件时都会以PDF文件格式方式发送,如果接收到这种格式文件需要对文档内容进行编辑调整又或是需要运用到里面的一些内容信息,直接编辑还是有些麻烦的,但是可以把PDF文件转换成word文档,然后再对word文件编辑利用就简单多了. 想要将PDF转成word得使文件内容没有大的变动,最好和原PDF文件保存一致,直接复制粘贴的方法是不行的,需要直接转换文档的格式.如果文档有编辑限制或者是加密的,则需要先去除这些限制. 转换

怎样将pdf转换成word文档

怎样将pdf转换成word文档 从事办公文书的同学唠叨最近一段时间都在烦恼同一个问题,就是有大量的PDF文档需要操 作,工作量大的时候,忙得焦头烂额,甚至要还得加班才能赶完.当面对数量大的文档需要转换时,你该怎么办?小编给你推荐一款叫迅捷PDF转换成Word转 换器,简单的操作,就可以把文档完美转换哦,一起来看看怎么转换吧! PC版迅捷PDF转换成Word转换器: 这是一款操作简单,使用方便,效果极好的PDF转换成Word转换器工具,使用它,您可以将一个或多个文件PDF文件转换成想要的文本格式,