论文速读(Yongchao Xu——【2018】TextField_Learning A Deep Direction Field for Irregular Scene Text)

Yongchao Xu——【2018】TextField_Learning A Deep Direction Field for Irregular Scene Text Detection

论文

Yongchao Xu——【2018】TextField_Learning A Deep Direction Field for Irregular Scene Text Detection

作者

亮点
  1. 提出的TextField方法非常新颖,用点到最近boundary点的向量来区分不同instance
方法概述

针对曲文检测,采用Instance-segmentation思路,提出一种对于分割点的新的表示方法TextField,旨在解决text instance的黏连问题。

TextField是一个二维的向量v,用来表示分割score map上的每一个点,它的含义是:每个text像素点到离自己最近的boundary点的向量。它的属性包括:

  • 非text像素点=(0, 0),text像素点 $\ne$ (0,0)
  • 向量的magnitude,可以用来区分是文字/非文字像素点
  • 向量的direction,可以用来进行后处理帮助形成文本块

具体检测流程是:用一个VGG+FPN网络学习TextField的两张score map图,然后这两张图上做关于超像素、合并、形态学等后处理来得到text instance。

Fig. 3: Pipeline of the proposed method. Given an image, the network learns a novel direction field in terms of a two-channel map, which can be regarded as an image of two-dimensional vectors. To better show the predicted direction field, we calculate and visualize its magnitude and direction information. Text instances are then obtained based on these information via the proposed post-processing using some morphological tools.

方法细节
  • Direction Field示例图

Fig. 1: Different text representations. Classical relatively simple text representations in (a-c) fail to accurately delimit irregular texts. The text instances in (e) stick together using binary text mask representation in (d), requiring heavy postprocessing to extract text instances. The proposed direction field in (f) is able to precisely describe irregular text instances.

  • 网络结构

    VGG16+FPN

Fig. 5: Network architecture. We adopt the pre-trained VGG16 [52] as the backbone network and multi-level feature fusion to capture multi-scale text instances. The network is trained to predict dense per-pixel direction field

  • TextField向量定义

For each pixel p inside a text instance T , let Np be the nearest pixel to p lying outside the text instance T , we then define a two-dimensional unit vector Vgt(p) that points away from Np to the underlying text pixel p. This unit vector Vgt(p) directly encodes approximately relative location of p inside T and highlights the boundary between adjacent text instances.

where |NpP| denotes length of the vector starting from pixel Np to p, and T stands for all the text instances in an image. In practice, for each text pixel p, it is simple to compute its nearest pixel Np outside the text instance containing p by distance transform algorithm.

Fig. 4: Illustration of the proposed direction field. Given an image and its text annotation, a binary text mask can be easily generated. For each text pixel p, we find its nearest non-text pixel Np. Then, a two-dimensional unit vector that points away from N p to p is defined as the direction field on p. For non-text pixels, the direction field is set to (0;0). On the right, we visualize the direction information of the text direction field.

  • 损失函数

    欧式距离+带权(按text instance的面积)

  • 后处理流程

Fig. 6: Illustration of the proposed post-processing. (a): Directions on candidate text pixels; (b): Text superpixels (in different color) and their representatives (in white); (c): Dilated and grouped representatives of text superpixels; (d): Labels of filtered representatives; (e): Candidate text instances; (f) Final segmented text instances.

实验结果
  • SCUT-CTW1500

  • Total-Text

  • ICDAR2015

  • MSRA-TD500

收获点与问题
  1. 没有说清楚的点:怎么算最近boundary点距离,还有后处理的那么多方法都没办法说清
  2. 方法非常新颖,但是,后处理太复杂了,速度上就占了1/4,向量表示方法也不太直观,不是特别通用的方法。

原文地址:https://www.cnblogs.com/lillylin/p/10408573.html

时间: 2024-10-10 07:22:21

论文速读(Yongchao Xu——【2018】TextField_Learning A Deep Direction Field for Irregular Scene Text)的相关文章

论文阅读(Weilin Huang——【TIP2016】Text-Attentional Convolutional Neural Network for Scene Text Detection)

Weilin Huang--[TIP2015]Text-Attentional Convolutional Neural Network for Scene Text Detection) 目录 作者和相关链接 方法概括 创新点和贡献 方法细节 实验结果 问题讨论 作者和相关链接 总结与收获点 作者补充信息 参考文献 作者和相关链接 论文下载 作者: tong he, 黄伟林,乔宇,姚剑 方法概括 使用改进版的MSER(CE-MSERs,contrast-enhancement)提取候选字符区域

《Semantic Sentence Matching with Densely-connected Recurrent and Co-attentive Information》DRCN 论文速读

模型结构 首先是模型图: 传统的注意力机制无法保存多层原始的特征,根据DenseNet的启发,作者将循环网络的隐层的输出与最后一层连接. 另外加入注意力机制,代替原来的卷积.由于最后的特征维度过大,加入AE降维. Word Representation Layer 层 自然语言的任务首先就是输入层,对每个词的one-hot表示进行embedding, 这几个公式很好理解,首先作者将词的embedding分为两部分,一部分参与训练,即EtrEtr,另一部分是固定不动的,即EfixEfix, cp:

<<Natural Language Inference over Interaction Space >>论文速读

模型结构 code :https://github.com/YichenGong/Densely-Interactive-Inference-Network 首先是模型图: Embedding Layer 词嵌入+字嵌入+syntactical features (句法特征) 拼接. 词嵌入:glove pre-trained, 可训练 字嵌入:conv1d +maxpoling ,解决oov问题,(P,H公用同一个卷积参数)syntactical features: pos tagging+b

带状态论文粗读(二)

一 文章名称:Network Function Virtualization Enablement Within SDN Data Plane 发表时间:2017 期刊来源:IEEE INFOCOM 2017 - IEEE Conference on Computer Communications 解决问题: NFV借助SDN架构来实现,有以下问题: 一.流必须通过连接的NF实体,路由策略将变得不灵活,网络中将产生阻塞点,这是有害并且没有必要的. 二.控制器对于NFs没有完全的可视化,比如,有多

WPF九宫格图片自定义皮肤(新博速读2.0)

一直想要做成有搜狗输入法.QQ输入法那样的可以自定义皮肤的软件.找了很久终于找到了,不过找到的解决方案有些问题,经过修改之后就可以按照图片原本的大小显示啦~ 在我两个晚上的研究下,研究好几种方法,最后在网上找到了一个好方法,但是有些问题,我修改了下,终于实现新版新博速读的皮肤功能啦. 软件官网:http://leaful.com/weibopopup public class NineGridsBorder : Border // 九宫格Border { public BitmapImage B

速读水浒!108将的简介与结局

速读水浒!108将的简介与结局 提交 我的留言 加载中 已留言 三十六天罡星 宋江 宋江,字公明,他面黑身矮,忠义双全,常替落魄江湖之人排忧解难,人唤"及时雨".原为山东郓城县押司.晁盖.吴用等劫了生辰纲,被官府缉拿,幸得宋江事先告知.不料此事被宋江小妾阎婆惜发现,趁机要胁,宋江怒杀阎婆惜,犯下人命官司.后来宋江在浔阳楼酒醉题反诗,成了反贼,被迫上了梁山.晁盖死后,宋江做了梁山泊首领.他推行只反贪官,不反皇帝的招安路线.带领梁山好汉归顺了朝廷.征方腊后被封为楚州安抚使,终究还是被奸臣用

《构建之法(第三版)》速读提问

<构建之法(第三版)>速读提问 1.什么是软件工程 软件工程学科诞生后,人们为软件工程给出了不同的定义,例如最早的定义是由F.L. Bauer给出的,即"软件工程是为了经济地获得能够在实际机器上高效运行的.可靠的软件而建立和应用一系列坚实的软件工程原则". 软件工程学科包含为完成软件需求.设计.构建.测试和维护所需的知识.方法和工具. 软件工程是一门交叉性的工程学科,它是将计算机科学.数学.工程学和管理学等基本原理应用于软件的开发与维护中,其重点在于大型软件的分析与评价.规

【学习习惯step1:三段论】一段速读三天,二段攻重点,三段总结

前言 我其实没看多少书,工作后也极为功利性,大多看的都是专业性的书.专业书很麻烦,很多知识点都要费劲地思考,还习惯于看一章一节就做大段的笔记.结果往往是一本书看十天半个月只看了小半,到后面却觉得不知道后面看着有什么意义了?仿佛这本书到后面并没有给我一个系统性的解决方案.甚至早已忘却刚开始看觉得这本书很牛逼很酷的感觉了. 到最后,甚至没做什么思考,没什么产出:再过一段时间,也就仿佛白看了一般.于是到现在想想,或许新的读书方法比较可行. 第一段:第一遍看时,速读且不超过三天 我习惯看一本专业书前看前

201571030129 速读《构建之法》有感

首次接触软件工程这门课程,存在很多疑惑,速读<构建之法>提出了以下5个问题: 1.软件工程研究的是什么?怎么样研究? 2.一个合格软件工程师的成长需要经历那些过程? 3.团队合作的重要性体现在那些方面? 4.敏捷流程的问题及解决方法? 5.PM是什么?怎样做开发和测试之外的东西? 原文地址:https://www.cnblogs.com/Wangshenghai/p/8560672.html