ICDAR 2019-ArT（Arbitrary-Shaped Text）国际顶级竞赛于 5 月圆满结束，经过 2 个月激烈角逐，旷视研究院从来自业全球 118 支顶尖技术团队、高校及科研机构中脱颖而出，击败南京大学、搜狗、香港中文大学、哈工大、阿里巴巴、商汤、复旦大学、三星、中国科学院、科大讯飞、腾讯、北航、上海交大、宾夕法尼亚州立大学等众多强队，夺得 5 项比赛中文字检测、Latin文字识别的 2 项世界第一！

ICDAR 2019（International Conference on Document Analysis and Recognition，全球文档分析与识别顶会）作为文档分析领域世界上最大、最前沿的顶会，至今 ICDAR 已经成功举办 14 届。旷视研究院参加了本次大会下设的 ICDAR 2019-ArT 竞赛，并夺得了 5 个赛项的其中 2 项世界冠军。

ICDAR 2019-ArT 竞赛是一项针对场景文本理解的挑战赛，其任务可拆分为场景中的文字检测、文字识别、混合端到端文字识别 3 个方面。它的一个主要创新点在于竞赛的使用的数据集——ArT 数据集。作为业界最大的任意形状场景文字集合，ArT 数据集包含 10176 张图像，旨在聚焦推动自然场景下任意形状文字检测/识别能力新突破。另外，ArT 数据集中近 1/4 的文字样本都是任意形状的，如图 1，这在之前使用的基准数据集中很少出现。

图1：ArT 数据集图片样例

夺冠背后的技术

文字检测

表1：文字检测任务中，来自中科院、浙大、西交大、同济、南大的旷视研究院实习生不惧困难，以大幅优势超越其他参赛团队。

在文字检测任务中，旷视研究院提出把Mask R-CNN 作为基线的方法——Pil-Mask-RCNN。为预测任意形状的 Box，模型首先会把一个 Box 预测成一个外部 Box，然后将一个 Mask 作为最后提交的预测结果。为了对预测的 Mask 进行变换，研究员还在这里使用一些 OpenCv 接口。

为进一步改进结果，旷视研究员又引入多尺度训练与测试，在验证集实现了 2 个点的性能提升（以 ResNet-50 作为 Backbone）；然使用 ResNet-152 作为新把 Backbone，它可以使用大量已经被killed的FP以及被遗漏的被检测到的box。在没有进行重要超参数调整的前提下，ResNet-152 已把精度提升了 1 个点。如果时间更加充裕，研究员将给出更好的模型结果。

另外，基础模型更大，效果更好。团队最后使用 ShuffleNet V2 作为新 Backbone，通过与ResNet-152 进行整合，模型性能再次提升。

Latin文字识别

表2：Latin文字识别任务中，来自北京大学的旷视研究院实习生在老旷工的配合下，同样杀出重围，摘得桂冠

在 Latin 文字识别任务中，旷视研究院提出一种称之为 LERNet 的方法，它通过对图像中文字进行定位、矫正，进而完成识别。具体而言，模型使用 ResNet-50 与 FPN 作为 Backbone，输出原图 1/4 的特征图。文本定位方面，研究员首先将图像降采样为原分辨率的一半（128× 128），然后送入 Backbone。编码后的特征首先被传入一个 3 层 3x3 的卷积网络，然后进入2 个全连接层，模型会输出一个有 32 顶点的边界多边形预测结果。

文字矫正方面，研究员使用了类似 STN 的方法，将文字区域从 256×256矫正为 64×256。最后，文字识别阶段，经过矫正的图像被送入同一个 Backbone，以及 3 层 3x3 的卷积网络，然后再用一个注意力 LSTM 编码解码器来把文本解码为最终的预测结果。

人工智能框架 “旷视Brain++”

值得一提的是，此次两项冠军的获得，离不开旷视原创自研的核心技术——人工智能框架“旷视Brain++”——的支撑，它很大程度上简化、加速、优化了两支参赛团队的研究工作。作为一个旷视自行研发，并全员使用的机器学习工具，“旷视Brain++”集成了旷视在产学研各方面的技术资源，能够显著提升旷视在图像领域的深度学习研究与应用实践能力。

“旷视Brain++”有三个核心组件：1）人工智能基础架构 Brain++ Infrastructure，2）人工智能计算与数据平台 Brain++ Platform，3）人工智能训练与推理引擎 Brain++ Engine。同时，旷视 Brain++ 还纳入了最新研发的 Brain++ AutoML 技术，推动机器学习模型从“手工”时代步入“自动化”时代。

后记

近年来，从自然场景中提取文本信息，即场景文本检测与识别，成为了学术研究的热点。究其原因有二，应用前景和学术价值。一方面，场景文本检测与识别在一系列的实际应用中发挥着日益重要的作用，比如场景理解，产品搜索，自动驾驶等；另一方面，场景文本自身具有独特属性，使其有别于一般物体。

对于旷视而言，参加顶赛是有益的，拿下冠军则进一步证实自己提出的想法，并在此基础之上不断前进。另外，这些成果也不会仅停留于实验室，相反，为实现“构建驱动百亿台智能设备的物联网生态系统”的愿景，类似的成果会快速落地到旷视具体产品线之中，转化为驱动世界的引擎，加速诸如智慧零售，智慧城市，自动驾驶，互联网文娱，社交网络等行业的应用落地。

传送门

欢迎大家关注如下 旷视研究院 官方微信号????