论文阅读（BaiXiang——【CVPR2012】Detecting Texts of Arbitrary Orientations in Natural Images）

BaiXiang——【CVPR2012】Detecting Texts of Arbitrary Orientations in Natural Images

如上图所示，(a)为两种模板。上面是只有一种半径，一个扇形区域（整个圆），下面是有两种半径，共八个扇形区域（4个小的，4个大的）。每个扇形区域单独计算直方图（边缘，轮廓，占比），然后把每个区域的直方图串起来作为整个图的特征。(b)为在一个原图上叠加一种模板的示例图。(c)图为轮廓图上叠加两种模板的示例图。(d)为边缘图上叠加两种模板的示例图。(e)为二值图上叠加模板的示例图。
实际计算特征（比如，边缘特征）的时候，第一，先利用Camshift计算出每个连通分量的质心，尺度（最大轴与最小轴的和），方向（角度）；第二，各种梯度方向都按照第一步求出的方向进行旋转（为了和模板对齐），并归一到[0,Π]上；第三，将模板中心固定在质心上，模板半径为尺度的大小，统计模板上每个sector的（轮廓形状，边缘形状，占比）直方图，并把每个sector的直方图串起来形成特征向量。

图4. 组件级噪声过滤（组件分析）的效果，(e)图为规则过滤，(f)为分类器过滤，经过两层过滤后大部分非文字的组件都被过滤掉了

- 候选区域连接
  - 两两组队pair（相似性度量：笔画宽度，大小，颜色，距离；设定阈值范围）
  - 聚类
    1. 至少包含一个公共组件
    2. 相似性度量：方向一致，群体一致（组件个数差异小）

- - - - 公式(1)中的S_o表示的是方向一致性，C₁和C₂是两个不同的chain，初始每个chain就是由两个相似组件得到的一个pair，γ(C₁,C₂)表示的是C1和C2之间的夹角（每条chain利用线性最小二乘法拟合出一条直线。两个chain的夹角就表示这两条直线间的夹角）。S_o是保证要聚类的两个chain的方向尽可能一致。
      - 公式(2)中的S_p表示的是群体一致性，n_C1是C₁中组件的个数。S_p是保证要聚类的两个chain的个数差异不要太大。
      - 公式(3)中的S是总的相似性度量的标准，是S_o和S_p的加权求和。每次要聚类时都是选择使得S最大的两个chain进行合并，这样采用自底向上进行合并的方式可以适用于任意方向，而不单纯是水平（或近似水平），甚至可以处理竖直，斜线的，更重要一点是，把在阈值范围内可能形成直线的组合都找的出来。如图5所示。

图5. 候选区域连接的效果，不但找到了PRIVATE，CAR等水平的，还找出了PCO，PRL这样的潜在的组合

- 链分析（链级噪声过滤）
  - 链级特征：11种特征
    1. 链中候选区域个数
    2. 平均概率（组件级分类器打分）
    3. 平均转角（每个组件与左右相邻组件形成的直线的夹角）
    4. 大小方差（每个组件的尺度）
    5. 距离方差（质心的欧氏距离）
    6. 平均角度偏差（每个组件的最大轴方向与拟合出的链的直线方向的垂直方向间的角度偏差）
    7. 平均轴比
    8. 平均密度
    9. 平均宽度方差
    10. 平均颜色自相似性（颜色直方图的cosine相似性）
    11. 平均结构自相似性（边缘形状描述子的cosine相似性）
  - 分类器：随机森林
- 新的数据库和评价标准
  - MSRA-TD数据库
  - 样本数：train-300，test-200
  - 语言：中文，英文，中英混合
  - 标注粒度：文本线（无字符，单词级标注）
  - 图像大小：1296*864~1920*1280
  - 标注矩形类别：最小面积矩形（mini area rectangle）
  - 评价标准：

- - - 上图中(c)所示，G和D分别为groundTruth和detection的bounding box。由于两个都是斜的，直接计算交并比意义不大，故先求出两个box的角度（相对于水平方向的旋转角度），并将其转至水平，如图中的虚线图G‘和D‘，再通过计算G‘和D‘的交并比来判断。
    - 检测正确的标准是：（1） G和D的旋转角度差的绝对值小于Π/8；（2）G‘和D‘的交并比大于0.5；

创新点和贡献
- 解决的问题角度新：从一般的水平或近水平文字检测到任意方向的文字检测（直线）
- 提出了两级分类机制，尤其是其中的字符特征：组件级特征与链级特征
- 介绍了专门用来检测任意方向的文字的新的MSRA-TD数据库：针对任意方向的文字检测的数据库，切提出了新的评价标准
实验结果
- ICDAR03, detection：

- MSRA-TD, detection：

- ICDAR03：

问题讨论
- 为什么文中的方法可以用来检测各种方向的文字？
  - 特征的旋转不变性，尺度不变性；
  - 字符链形成算法比较通用，适用于各种方向，不一定是水平或者竖直。
- 组件级分类器正样本怎么获得？（MSRA-TD库上只有链级的标注）
- 链级分类器的正样本怎么获得？（ICDAR03库上最多只有单词级标注，没有包含多个单词的链级样本，是否采用简单规则先把groundTruth进行合并？）
- mini area rectangle的原理？（如何从四个点得到一个包含这四个点的最小面积矩形？）
- 长轴和短轴指的是字符的竖直和水平？（不是对角线？）
- 如何用Camshift得到质心，方向，和长短轴？
总结与收获点
- 这篇做文字检测的方法思路很传统，从字符到字符串，然后给字符和字符串分别用一个分类器过滤噪声。比较有用的有三点，第一，整理的这些字符特征都是人工，经验得到的，简单有效；第二，字符链的形成算法有一定借鉴意义；第三，新的数据库和评价标准成为了后来检测多方向的主流。

时间： 2024-08-05 22:22:08

论文阅读（BaiXiang——【CVPR2012】Detecting Texts of Arbitrary Orientations in Natural Images）的相关文章

论文阅读总结：UniLM(Unified Language Model Pre-training for Natural Language Understanding and Generation)

概述: UniLM是微软研究院在Bert的基础上,最新产出的预训练语言模型,被称为统一预训练语言模型.它可以完成单向.序列到序列和双向预测任务,可以说是结合了AR和AE两种语言模型的优点,Unilm在抽象摘要.生成式问题回答和语言生成数据集的抽样领域取得了最优秀的成绩. 一.AR与AE语言模型 AR: Aotoregressive Lanuage Modeling,又叫自回归语言模型.它指的是,依据前面(或后面)出现的tokens来预测当前时刻的token,代表模型有ELMO.GTP等. AE:

论文阅读（Xiang Bai——【TIP2014】A Unified Framework for Multi-Oriented Text Detection and Recognition）

Xiang Bai--[TIP2014]A Unified Framework for Multi-Oriented Text Detection and Recognition 目录作者和相关链接方法概括创新点和贡献方法细节实验结果问题讨论总结与收获点参考文献作者和相关链接作者论文下载白翔主页, 刘文予方法概括方法简述这篇文章是作者CVPR2012(参考文献1,专门做检测,可以看看我之前的这篇博客)的方法的扩展,本文做的是端到端的问题(检测+识别). 采用的框架是

论文阅读（Weilin Huang——【TIP2016】Text-Attentional Convolutional Neural Network for Scene Text Detection）

Weilin Huang--[TIP2015]Text-Attentional Convolutional Neural Network for Scene Text Detection) 目录作者和相关链接方法概括创新点和贡献方法细节实验结果问题讨论作者和相关链接总结与收获点作者补充信息参考文献作者和相关链接论文下载作者: tong he, 黄伟林,乔宇,姚剑方法概括使用改进版的MSER(CE-MSERs,contrast-enhancement)提取候选字符区域

深度学习论文阅读笔记--Deep Learning Face Representation from Predicting 10,000 Classes

来自:CVPR 2014 作者:Yi Sun ,Xiaogang Wang,Xiaoao Tang 题目:Deep Learning Face Representation from Predicting 10,000 Classes 主要内容:通过深度学习来进行图像高级特征表示(DeepID),进而进行人脸的分类. 优点:在人脸验证上面做,可以很好的扩展到其他的应用,并且夸数据库有效性:在数据库中的类别越多时,其泛化能力越强,特征比较少,不像其他特征好几K甚至上M,好的泛化能力+不过拟合于

论文阅读方法

论文阅读方法别先读摘要,从导言部分入手找出大问题这个领域正在设法解决什么问题? 以不超过5句话的篇幅总结背景为解决这一"大问题",这一领域做过什么努力?之前的工作有什么局限?在作者看来,下一步需要做什么?简洁地解释为什么要进行这项研究. 找出具体问题作者在他们的研究中究竟想回答什么问题?把这些问题(不一定是一个)写下来.如果是那种研究一个或者多个零假设的研究,把零假设辨别出来. 弄清解决手段为了回答这些具体的问题,作者要怎么做? 阅读方法部分为每一个实验画出一个图表,画出

Google File System 论文阅读笔记

核心目标:Google File System是一个面向密集应用的,可伸缩的大规模分布式文件系统.GFS运行在廉价的设备上,提供给了灾难冗余的能力,为大量客户机提供了高性能的服务. 1．一系列前提 GFS的系统构建针对其自身使用的特点在传统的分布式系统的基础上又进行了一些创新,基于的前提假设主要包括以下方面: 1.由于系统由廉价的商用机构成,组件失效被认为是一种常态,系统必须可以持续监控自身的状态. 2.系统存储以大文件为主,小文件也支持,但是没有进行特别的优化处理. 3.系统的工作负载主要包含

论文阅读--Scalable Object Detection using Deep Neural Networks

Scalable Object Detection using Deep Neural Networks 作者: Dumitru Erhan, Christian Szegedy, Alexander Toshev, and Dragomir Anguelov 引用: Erhan, Dumitru, et al. "Scalable object detection using deep neural networks." Proceedings of the IEEE Confere

论文阅读记录: Automatic Image Colorization sig16

sig论文阅读记录 Let there be Color!: Joint End-to-end Learning of Global and Local Image Priorsfor Automatic Image Colorization with Simultaneous Classification ( siggraph 2016 ) 论文简介论文主页:http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/en/ 作者是来自Wa

Shangbang Long_ECCV2018_TextSnake_A Flexible Representation for Detecting Text of Arbitrary Shapes

Shangbang Long_ECCV2018_TextSnake_A Flexible Representation for Detecting Text of Arbitrary Shapes 作者关键词文字检测,曲线文本,多方向,multi-stage,圆盘表示法方法亮点提出一个新的曲线文本表示方法TextSnake(由圆盘序列组成) 提出了一个新的曲文检测方法,并且精度比之前的高40%+(Total-Text数据集) 方法概述本文方法基于一个新的曲线文本表示方法TextSnak