旷视研究院喜提全球文字检测与识别顶赛ICDAR 2019-ArT两项世界第一
发布日期:2021-07-01 02:37:50 浏览次数:2 分类:技术文章

本文共 2257 字,大约阅读时间需要 7 分钟。

ICDAR 2019-ArT(Arbitrary-Shaped Text)国际顶级竞赛于 5 月圆满结束,经过 2 个月激烈角逐,旷视研究院从来自业全球 118 支顶尖技术团队、高校及科研机构中脱颖而出,击败南京大学、搜狗、香港中文大学、哈工大、阿里巴巴、商汤、复旦大学、三星、中国科学院、科大讯飞、腾讯、北航、上海交大、宾夕法尼亚州立大学等众多强队,夺得 5 项比赛文字检测、Latin文字识别的 2 项世界第一

ICDAR 2019(International Conference on Document Analysis and Recognition,全球文档分析与识别顶会)作为文档分析领域世界上最大、最前沿的顶会,至今 ICDAR 已经成功举办 14 届。旷视研究院参加了本次大会下设的 ICDAR 2019-ArT 竞赛,并夺得了 5 个赛项的其中 2 项世界冠军。

ICDAR 2019-ArT 竞赛是一项针对场景文本理解的挑战赛,其任务可拆分为场景中的文字检测、文字识别、混合端到端文字识别 3 个方面。它的一个主要创新点在于竞赛的使用的数据集——ArT 数据集。作为业界最大的任意形状场景文字集合,ArT 数据集包含 10176 张图像,旨在聚焦推动自然场景下任意形状文字检测/识别能力新突破。另外,ArT 数据集中近 1/4 的文字样本都是任意形状的,如图 1,这在之前使用的基准数据集中很少出现。

  图1:ArT 数据集图片样例

夺冠背后的技术

文字检测

表1:文字检测任务中,来自中科院、浙大、西交大、同济、南大的旷视研究院实习生不惧困难,以大幅优势超越其他参赛团队。

在文字检测任务中,旷视研究院提出把Mask R-CNN 作为基线的方法——Pil-Mask-RCNN。为预测任意形状的 Box,模型首先会把一个 Box 预测成一个外部 Box,然后将一个 Mask 作为最后提交的预测结果。为了对预测的 Mask 进行变换,研究员还在这里使用一些 OpenCv 接口。

为进一步改进结果,旷视研究员又引入多尺度训练与测试,在验证集实现了 2 个点的性能提升(以 ResNet-50 作为 Backbone);然使用 ResNet-152 作为新 把 Backbone,它可以使用大量已经被killed的FP以及被遗漏的被检测到的box。在没有进行重要超参数调整的前提下,ResNet-152 已把精度提升了 1 个点。如果时间更加充裕,研究员将给出更好的模型结果。

另外,基础模型更大,效果更好。团队最后使用 ShuffleNet V2 作为新 Backbone,通过与ResNet-152 进行整合,模型性能再次提升。

Latin文字识别

表2:Latin文字识别任务中,来自北京大学的旷视研究院实习生在老旷工的配合下,同样杀出重围,摘得桂冠

在 Latin 文字识别任务中,旷视研究院提出一种称之为 LERNet 的方法,它通过对图像中文字进行定位、矫正,进而完成识别。具体而言,模型使用 ResNet-50 与 FPN 作为 Backbone,输出原图 1/4 的特征图。文本定位方面,研究员首先将图像降采样为原分辨率的一半(128× 128),然后送入 Backbone。编码后的特征首先被传入一个 3 层 3x3 的卷积网络,然后进入2 个全连接层,模型会输出一个有 32 顶点的边界多边形预测结果。

文字矫正方面,研究员使用了类似 STN 的方法,将文字区域从 256×256矫正为 64×256。最后,文字识别阶段,经过矫正的图像被送入同一个 Backbone,以及 3 层 3x3 的卷积网络,然后再用一个注意力 LSTM 编码解码器来把文本解码为最终的预测结果。

人工智能框架 “旷视Brain++”

值得一提的是,此次两项冠军的获得,离不开旷视原创自研的核心技术——人工智能框架“旷视Brain++”——的支撑,它很大程度上简化、加速、优化了两支参赛团队的研究工作。作为一个旷视自行研发,并全员使用的机器学习工具,“旷视Brain++”集成了旷视在产学研各方面的技术资源,能够显著提升旷视在图像领域的深度学习研究与应用实践能力。

“旷视Brain++”有三个核心组件:1)人工智能基础架构 Brain++ Infrastructure,2)人工智能计算与数据平台 Brain++ Platform,3)人工智能训练与推理引擎 Brain++ Engine。同时,旷视 Brain++ 还纳入了最新研发的 Brain++ AutoML 技术,推动机器学习模型从“手工”时代步入“自动化”时代。

后记

近年来,从自然场景中提取文本信息,即场景文本检测与识别,成为了学术研究的热点。究其原因有二,应用前景和学术价值。一方面,场景文本检测与识别在一系列的实际应用中发挥着日益重要的作用,比如场景理解,产品搜索,自动驾驶等;另一方面,场景文本自身具有独特属性,使其有别于一般物体。

对于旷视而言,参加顶赛是有益的,拿下冠军则进一步证实自己提出的想法,并在此基础之上不断前进。另外,这些成果也不会仅停留于实验室,相反,为实现“构建驱动百亿台智能设备的物联网生态系统”的愿景,类似的成果会快速落地到旷视具体产品线之中,转化为驱动世界的引擎,加速诸如智慧零售,智慧城市,自动驾驶,互联网文娱,社交网络等行业的应用落地。

传送门 

欢迎大家关注如下 旷视研究院 官方微信号????

转载地址:https://megvii.blog.csdn.net/article/details/103289065 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:VALSE 2019 | 旷视研究院奏响学术“华尔兹”,助力谱写中国CV新乐章
下一篇:旷视研究院ShuffleNet V2斩获VALSE年度杰出学生论文奖

发表评论

最新留言

路过按个爪印,很不错,赞一个!
[***.219.124.196]2024年04月26日 00时59分30秒

关于作者

    喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!

推荐文章