旷视研究院亮相ICCV 2019 拓展AI认知边界
发布日期:2021-07-01 02:37:36 浏览次数:2 分类:技术文章

本文共 4754 字,大约阅读时间需要 15 分钟。

两年一度的国际计算机视觉大会 (International Conference on Computer Vision,ICCV) 于 2019年10月27日在韩国首尔拉开帷幕,参会者高达7501人,是上届的两倍还多。旷视研究院同全球的学术界和工业界参与者共赴盛会,深入开展技术交流,助力AI行业落地。

旷视研究院共有11篇收录论文,拿下3场挑战赛的5项冠军;其中更是,获颁今年COCO首次设立的最高荣誉奖Best Paper Award。这一切成果,离不开的底座支撑作用。有了它,旷视才能不断拓展AI认知边界,以非凡科技,成就AI产品价值。

11篇入选论文 彰显非凡科技

旷视研究院的11篇入选论文主题涵盖了通用物体检测及数据集、文字检测与识别、半监督学习、分割算法、视频分析、影像处理、行人/车辆重识别、AutoML、度量学习、强化学习、元学习等众多领域。

这些优秀论文展示了旷视研究院在计算机视觉领域多维度的探索和创新,以及和产业落地相结合的研究特点。本文将按照会场Poster的展示顺序做一次亮点集锦式的解读。

 

#半监督学习

皮肤检测旨在从图像和视频中发现皮肤颜色的像素和区域,旷视研究院提出一种数据驱动新方法,实现了单一人体图像的皮肤检测,并为此设计了一个双任务的神经网络,联合检测皮肤和身体。这个双任务网络包含一个编码器,却有以互向导为工作方式的两个解码器,分别用于两个任务。网络训练方式也是半监督的,其实现借助了新设计的半监督损失函数。

 

#元学习 AutoML

通道剪裁作为一种神经网络压缩、加速方法,已广泛应用于工业界。旷视研究院提出一种用于通道剪裁的新型元学习方法——MetaPruning,其核心是最前沿的AutoML 算法,旨在打破传统通道剪裁需人工设定每层剪裁比例,再算法迭代决定裁剪哪些通道的过程,直接搜索最优的已剪裁网络各层通道数,极大程度加速最优剪裁网络的搜索过程。

 

#通用物体检测

ThunderNet是一个轻量级的两阶段物体检测器,针对当前最优的两阶段检测器中的最消耗计算量的结构而设计。相较于一阶段轻量级检测器,ThunderNet表现优异,在PASCAL和COCO上,计算成本下降40%;另外,没有额外和附加,ThunderNet在ARM设备上的运行速度高达24.1 fps,并首次在ARM端实现了基于单线程的实时通用物体检测。

#车辆重识别 度量学习

车辆重识别旨在匹配城市管理场景中不同视角之下的车辆,视角变化是其主要挑战。在人类识别车辆行为的启发下,旷视研究院通过学习具备视角感知力的度量作出回应,提出了车辆重识别网络VANet,学习具有视觉感知力的深度度量,改进重识别精度,并可在相似视角图像干扰下检索不同视角的图像。实验证明,VANet取得了该领域的当前最佳性能。

#文字检测

场景文字检测是文字阅读系统中的一项基础技术,而作为文字检测中最重要的任务,任意场景文字检测备受关注。但是,如何设计一个即高效又精准的任意形状文字检测模型,依然没有解答。旷视研究院提出一个高效且精确的任意形状文字检测模型——像素聚合网络PAN,实现了任意文字识别过程中速度与精度的权衡,识别性能大幅提升的同时显著降低计算量,成为该领域的当前最佳方法。

 

#文字识别

场景文字识别旨在把图像的文字区域转换成机器可读的符号,但是由于背景复杂、形状多变、光照条件不同等问题,依然充满挑战。旷视提出一个基于对称性约束的矫正网络ScRN,用于场景文字识别;ScRN是一个非常灵活的模块,可轻松整合进现有识别模型,也可在一个统一架构中实现端到端训练。通过共享Backbone,ScRN显著提升识别性能的同时,所增加的计算量却可忽略不计。

 

#强化学习

这是旷视研究院在机器仿人绘画方面的最新研究,智能体生成的画面效果令人印象深刻。通过结合深度强化学习方法和神经网络渲染器,智能体可在自我探索中学会用数百个笔画绘制出纹理丰富的自然图像,每一个笔画的形状、位置和颜色皆是自主决定的;其训练过程也无需人类绘画或笔画跟踪方面的数据。

 

#图像处理

抠图旨在精确评估图像和视频中前景物体的不透明度,是一系列应用的预处理,比如电影制片和数字图像编辑。旷视研究院从解构的视角分析抠图,提出一个简单但强大的新框架AdaMatting,克服了同类方法的局限性。实验证实了AdaMatting具有额外的结构感知能力和三元图容错能力,并在两个广泛使用的数据集上展现了优异性能,成为抠图方向上新的当前最佳。

 

#数据集

Objects365: A Large-Scale, High-Quality Dataset for Object Detection

Objects365是目前为止最大的通用物体检测数据集(全部经过标注),共收录365类物体,60万张训练图像,上千万个手工标注的高质量边界框,为研究社区贡献了一个极具挑战性的基准。相较于现有数据集,Objects365可更好地用于研究物体检测、语义分割等定位-感知任务,同时泛化能力更优。目前,该数据集及相关预训练模型已发布在www.objects365.org。

 

#行人重识别

行人搜索的目标是从一系列未经裁剪的画面中定位和识别行人,其性能与行人检测器的定位精度有关。旷视研究团队提出了一个可以修正检测框定位的网络,它是一个结合了行人检测与行人重识别任务于一体的端到端框架;同时通过重识别损失作为监督来优化检测器,生成用于行人搜索的可信的检测框,使其更加有利于重识别任务。两个大型相关数据集上的实验结果显示,该方法实现了当前最佳性能。

勇夺5冠 实现COCO三连冠

据官方信息,ICCV 2019共有60场Workshops,COCO是其中的重头戏,堪称人工智能领域最具影响力的通用物体检测挑战赛。。这次,旷视研究院拿下物体检测(Detection)、人体关键点(Keypoint)和全景分割(Panoptic)三项第一,取得了COCO三连冠的骄人战绩;同时,由于深具原创性的算法,旷视研究院还获得COCO首次设立的Best Paper Award这一全场最高荣誉。

旷视研究院荣获COCO 2019三项冠军和Best Paper Award

另外,旷视研究院还夺魁计算机视觉国际大赛Wider Challenge 2019的行人检测(Pedestrain Detection)冠军和大规模视频对象分割挑战赛VOS 2019的视频对象分割(Video Object Segmentation)冠军。下面是对竞赛所用算法的扼要解读。

COCO 2019 Detection

当前计算机视觉领域中,实例分割是物体检测的代表性任务,它旨在检测图像物体的同时,分割出每个物体的前景。旷视研究院在本次COCO Detection任务中,通过重新设计RPN匹配策略和Proposal采样策略,两阶段检测器即可直接获得很好的高IoU检测结果,甚至超过使用更多阶段的Cascade R-CNN。旷视研究院的单模型在test-dev上取得了59.7/51.9的检测和分割精度,在进一步多模型融合下,精度达到61.0/53.1;最终,旷视研究院取得了test-challenge 52.5的冠军成绩。 

COCO 2019 Keypoint

在Human Keypoint任务中,图像人体关键点的视角和大小变化幅度很大,抽取合适的全局和局部特征对于精度涨点至关重要。为此,在COCO Keypoint比赛中,旷视研究院提出一种新结构,称之为残差阶梯网络,在只有COCO训练集,没有额外数据,并采用小输入尺寸(256x192)的情况下,可以大幅超过当前最优方法。该方法单模型结果为test-dev 78.0,多模型融合结果为test-dev 79.2,并最终以test-chanllenge 77.1的成绩斩获冠军。

COCO 2019 Panoptic

全景分割的目标是同时解析一张图像的前景(thing)和背景(stuff),并给每个像素点打上实例ID和类别ID。在COCO Panoptic任务中,旷视研究院的冠军方法可有效提取上下文信息丰富的特征,并通过thing类别辅助stuff类别训练,提高Stuff类别预测准确度;同时改进模型集成方法,优化预测结果概率分布,有效提高stuff预测精度。借助实例分割预测结果,并利用空间层级排序方法,旷视研究院解决了全景分割中的遮挡问题,最终以test-challenge 54.5的PQ精度夺魁。

VOS 2019

Large-scale Video Object Segmentation Challenge(简称VOS 2019)是大规模视频目标分割领域的权威挑战赛,旷视研究院新提出一种改进的记忆网络EMN,用于半监督式的视频目标分割。具体而言,旷视研究院提出基于关联注意力图谱的细粒度分割,进一步提升小型目标的精度;通过引入孪生网络,获得被追踪目标和整张图像的语义关联性;同时,通过ASPP模块增加语义感受野,提高不同尺度下的分割精度。最终,该算法在VOS 2019半监督视频目标分割比赛中以JF平均值81.8取得第一名。

Wider Challenge 2019

在Wider Face and Person Challenge 2019(简称Wider Challenge)挑战赛上,旷视研究院在Cascade RCNN的基础上,针对行人检测任务提出了一种多级行人检测器。通过引入特征金字塔,新模型能在不同特征分辨率下输出对应尺度的检测结果;为进一步增强小目标检测能力,特征金字塔中还加入通道注意力机制,以增强小目标特征的显著性。同时,新方法使用RoIAlign模块替换RoIPooling模块以提取更精细的RoI特征,再次提升了网络的小目标检测能力。这一模型在Wider Challenge 2019行人检测比赛上以mAP 67.25取得第一名。

旷视Brain++ 强有力的底座支撑

一篇篇想法新颖的论文,一项项含金量颇高的冠军,旷视研究院在ICCV 2019上的出色表现与旷视Brain++强大的底座支撑密不可分。旷视Brain++始于2014年,是原创自研的人工智能算法平台,可以端到端实现训练与部署的一体化,不仅高效率赋能算法生产的规模化,还能把这种能力投射到AI产品之中,快速推进AI行业落地;同时又可以兼顾介于算法与产品之间的AI竞赛,是旷视夺冠的利器和法宝。

 

通过Brain++,旷视研究院不仅可以快速验证论文idea,而且试错成本低,大大提升算法创新效率的同时,还可以广泛吸收业界最新科研成果,复现并作为算子整合进深度学习框架,为优秀的算法设计提供精良弹药;而行业领先的AutoML技术再次锦上添花,助力旷视从算法生产的手工时代迈入自动化时代。值得一提的是,旷视Brain++还利用VM技术,搭建起高效完备的算力资源调度体系,可以实现多机多卡同步训练,保证训练稳定性,大幅减少训练时间。

 

正是上述卓绝的工程性努力,Brain++算法输出能力有效而高效,助力旷视在ICCV 2019的舞台交上一份满意的答卷。这不是起点,更不是终点。2019年8月,科技部宣布依托旷视建设“图像感知国家新一代人工智能开放创新平台”;10月,旷视Brain++荣获“世界互联网领先科技成果”。旷视在ICCV 2019上的表现,也是Brain++交给自己的一份满意答卷。未来,旷视Brain++将通过开源开放的形式,不断拓展AI认知边界,由内而外地推动全球AI技术的进步和落地。

传送门 

欢迎大家关注如下 旷视研究院 官方微信号????

转载地址:https://megvii.blog.csdn.net/article/details/102867123 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:NeurIPS 2019 | DetNAS:首个搜索物体检测Backbone的方法
下一篇:旷视Brain++亮相北京智源大会 助力完善AI产业生态

发表评论

最新留言

关注你微信了!
[***.104.42.241]2024年04月28日 06时53分11秒