Imaging Techniques in Document Analysis Processes(文档分析过程中的图像技术)

4. Imaging Techniques in Document Analysis Processes(文档分析过程中的图像技术)

Contents
Introduction. ....................................................................................... 74
Basic Image Processing Algorithms. ............................................................. 74
  Morphological Operations. ................................................................... 75
  Skeletonization. ............................................................................... 75
  Connected Component Labeling.............................................................. 76
  Run-Length Smoothing Algorithm (RLSA). ................................................ 76
  Distance Transform. ........................................................................... 76
  Hough Transform ............................................................................. 77
  Projection Profiles. ............................................................................ 77
Document Image Binarization. ................................................................... 77
  Global Thresholding Techniques. ............................................................ 79
  Local Thresholding Techniques. ............................................................. 86
  Hybrid Thresholding Techniques. ............................................................ 90
  Combining Different Binarization Techniques. .............................................. 91
  Using Training Samples....................................................................... 92
  Binarization of Color Documents. ............................................................ 94
Document Image Enhancement. .................................................................. 95
  Low Contrast and Uneven Background Illumination........................................ 95
  Bleed-Through, Shining, or Shadow-Through Effects. .......... ........... ............ .... 97
  Damaged Characters or Noisy Background. ................................................. 101
  Borders or Parts of Adjacent Page. ........................................................... 102
Document Image Normalization.................................................................. 104
  Page Orientation............................................................................... 104
  Deskew and Deslant. .......................................................................... 112
  Dewarping. .................................................................................... 123
Conclusion. ........................................................................................ 127
Cross-References. ................................................................................. 127
References. ........................................................................................ 128
  Further Reading. .............................................................................. 131

原文地址:https://www.cnblogs.com/2008nmj/p/12216453.html

时间: 2024-11-08 13:59:38

Imaging Techniques in Document Analysis Processes(文档分析过程中的图像技术)的相关文章

Procwatcher: Script to Monitor and Examine Oracle DB and Clusterware Processes (文档 ID 459694.1)

Applies to: Oracle Database - Enterprise Edition - Version 10.2.0.2 to 12.1.0.1 [Release 10.2 to 12.1] Linux x86 HP-UX PA-RISC (64-bit) IBM AIX on POWER Systems (64-bit) Oracle Solaris on SPARC (64-bit) HP-UX Itanium Linux x86-64 Oracle Server Enterp

Document Object Model 文档对象模型

===DOM==== 一组API. 作用: 1.修改标签属性 2.增加删除html文本中的标签 操作: 1.查找 方式1:使用id或者标签名,查找节点 document.getElementById("id值"); document.getElementsByTagName("标签名"); 方式2:遍历 parentNode:父节点 previousSibling:前一个兄弟节点 nextSibling:后一个兄弟节点 childNodes:孩子节点,返回数组 fi

WPF-两份excel文档列自动匹配导入工具-技术&分享

WPF-两份excel文档列自动匹配导入工具-技术&分享 A文档中包含两列x,y(x与y对应):B文档包含一列y,需要将A文档的y匹配B文档的y,将A文档的x内容匹配到B文档中,与B文档中的y列对应. using System; using System.Collections.Generic; using System.IO; using System.Linq; using System.Windows; using System.Windows.Forms; using Mysoft.Co

小讲堂:在线编辑在Mobox文档管理软件中的意义

今天我们来讨论一下,mobox文档管理软件中的在线编辑的这个功能,相信这个功能是用户在日常的文档维护中非常需要的. 文档管理软件的诸多功能中,在线编辑是一块很重要的功能点,因为在线编辑可以说是提高工作效率的最主要的功能点,没有之一. 很多文档是需要及时更新,做内容的增加或者删减,如果下载修改再上传,这是一个很繁琐的过程.所以在线编辑是一个非常必要的提高工作效率的功能. Mobox文档管理软件的在线编辑分为三个部分:个人网盘,协同区,单位部门文档柜. 在个人网盘中,选择文件双击,则该文件下载并被打

记一次项目中yaml文档引发的惨案 (#yaml文档格式#yaml中'-'的作用)

项目已经在收尾阶段了,然后老大让我去把dockerCompose.yaml文件中公用配置给抽取一下,就是说以后改配置啊什么的就可以直接在抽出来的公用变量里面改就行了, 不用一个模块一个模块地去改(我们这个项目是微服务项目,十多个模块),本来是个很没技术含量的活儿,但是呢,引发了一场切(diao)尸吊的话题,来看下原始的配置 文件: 看下官网的语法: 我抽取的: 然后当然就是报错啦, 再然后就是各种检查顺序啊,检查有没有空格的尝试,然后无果,我就和老大汇报说抽不了,如果能抽我切尸吊俩厘米,然后我老

document.write 向文档中写内容,包括文本、脚本、元素之类的,但是它在什么时候执行不会覆盖当前页面内容尼?

当你打开一个页面,浏览器会 调用 document.open() 打开文档 document.write(...) 将下载到的网页内容写入文档 所有内容写完了,就调用 document.close() 触发 dom ready 事件(DOMContentReady) 所以你如果在第3步之前 document.write(1) 那么你就直接追加内容到当前位置,如果你在第3步之后 document.write(),那么由于 document 已经 close 了,所以必须重新 document.op

JS--dom对象:document object model文档对象模型

dom对象:document object model文档对象模型 文档:超文本标记文档 html xml 对象:提供了属性和方法 模型:使用属性和方法操作超文本标记性文档 可以使用js里面的DOM提供的对象,使用这些对象的属性和方法,对标记性文档进行操作 想要对标记性文档进行操作,首先需要对标记性文档里面的所有内容封装成对象 对HTML 标签 属性 文本内容都封装为对象 要想对标记性文档进行操作,解析标记性文档 --使用DOM解析HTML过程 根据HTML的层级结构,在内存中分配一个树形结构,

DOM(document object model)文档对象模型

DOM是文档对象,它是把整个页面封装成一个对象.页面是由很多节点组成的,节点又包括元素,属性,文本.获取页面元素的方式有三种. 第一: getElementById,通过Id值来获取整个标签的所有属性. 第二:  getElementsByTagName,通过标签名值来获取整个标签的所有属性,它获得元素会以数组方式存在,你要取用时,要用数组的方法取. 第三: getElementsByClassName,通过类名来获取整个标签的所有属性,它获得元素会以数组方式存在,你要取用时,要用数组的方法取,

wsdl文档分析

<?xml version="1.0" encoding="UTF-8"?> <definitions xmlns:wsu="http://docs.oasis-open.org/wss/2004/01/oasis-200401-wss-wssecurity-utility-1.0.xsd" xmlns:wsp="http://www.w3.org/ns/ws-policy" xmlns:wsp1_2=&qu