米兰·(milan)中国官方网站-无人汽车无法避开没见过的物体？问题出在训练pipeline上

作者：米兰·(milan)文化更新时间：2026-04-13 20:15:10 点击数：

无人汽车无法避开没见过的物体？问题出在训练pipeline上

他们提出的方针检测要领，可以检测未见过的新物体，相对于在Mask R-CNN有了巨年夜改良。

编译丨王晔

编纂丨青暮人类常常会碰到种类新奇的东西、食品或者动物，只管之前从未见过，但人类仍旧可以确定这些是新物体。

与人类差别，今朝开始进的检测及支解要领很难辨认新型的物体，由于它们因此关闭世界的设定来设计的。它们所受的练习是定位已经知种类（有标志）的物体，而把未知种类（无标志）的物体视为配景。这就致使模子不克不及够顺遂定位新物体及进修一般物体的性子。

近来，来自波士顿年夜学、加州年夜学伯克利分校、MIT-IBM Watson AI Lab研究团队的一项研究，提出了一种检测及支解新型物体的简朴要领。

无人汽车无法避开没见过的物体？问题出在训练pipeline上

原文链接：https://arxiv.org/pdf/2112.01698v1.pdf

为了应答这一挑战，研究团队创立一个数据集，对于每一张图片中的每个物体举行详尽的标志。然而，要创立如许的数据集长短常昂贵的。以下图所示，事实上，很多用在物体检测及实例支解的大众数据集并无彻底标注图象中的所有物体。

无人汽车无法避开没见过的物体？问题出在训练pipeline上

图1. 尺度的物体检测器练习中存于的问题。该例来自COCO，有色框是解释框，而白色虚线框是潜于的配景区域。很多白色虚线区域现实上定位了物体，但于传统的物体检测器练习中被认为是配景，从而压抑了新物体的方针属性。

1问题配景

未能进修到一般的方针属性会于很多运用场景中袒露出各类问题。例如具身人工智能，于呆板人、主动驾驶场景中，需要于练习中定位未见过的物体；主动驾驶体系需要检测出车辆前方的新型物体以免交通变乱。

此外，零样本及小样本检测必需对于练习时期未标志的物体举行定位。开放世界实例支解旨于定位及支解新的物体，但开始进的模子体现其实不抱负。

研究团队发明，致使今朝开始进的模子体现不睬想的缘故原由于在练习pipeline，所有与标志的远景物体堆叠未几的区域将被视为配景。如图1所示，虽然配景中有可见但却未被标志的物体，但模子的练习pipeline使其不克不及检测到这些物体，这也致使模子没法进修一般的方针属性。

为相识决该问题，Kim等人提出进修候选区域（region proposals ）的定位质量，而不是将它们分为远景与配景。他们的要领是对于靠近真实标志的object proposals 举行采样，并进修预计响应的定位质量。虽然减缓了部门问题，但这类要领除了了需要细心设置正/负采样的堆叠阈值外，还有有可能将潜于的物体压抑方针属性。

2要领

为了改良开放集的实例支解，研究团队提出了一个简朴而且强盛的进修框架，还有有一种新的数据加强要领，称为 Learning to Detect Every Thing （LDET）。为了消弭压抑潜于物体方针属性这一问题，研究团队利用掩码标志复制远景物体并将其粘贴到配景图象上。而远景图象是由裁剪过的补钉调解合成而来的。经由过程连结较小的裁剪补钉，使患上合成的图象不太可能包罗任何隐蔽物体。

然而，因为配景是合成图象创立而来的，这就使其看起来与真实图象有很年夜的差别，例如，配景可能仅由低频内容构成。是以，于这类图象上练习出来的检测器险些体现都不是很好。

为了降服这一限定，研究团队将练习分成两部门：

1）用合成图象练习配景及远景区域分类及定位头（classification and localization heads）；2）用真实图象进修掩船埠（mask head）。

无人汽车无法避开没见过的物体？问题出在训练pipeline上

图2. 本文的补充计谋是经由过程提高小区域的比例作为配景来创立没有潜于物体的图象。

无人汽车无法避开没见过的物体？问题出在训练pipeline上

图3. 原始输入（左）及合成图象（右）。用颜色标示了掩码区域，利用小区域作为配景，防止了配景中会隐蔽物体。于某些环境下，配景补钉刚好可以定位远景物体（左栏第二行）。要留意的是，这类环境很少见，可以看出补钉被较着放年夜了。

于练习分类头（classification head）时，因为潜于物体于合成图象时就已经经被移除了了，是以将潜于物体视为配景的概率变患上很小。此外，掩船埠是为于真实图象中支解实例而练习的，是以骨干体系进修了一般表征，可以或许分散真实图象中的远景及配景区域。

或许这看起来只是一个小变化，但LDET于开放世界的实例支解及检测方面的体现很是显著。

于COCO上，于VOC种别上练习的LDET评估非VOC种别时，平均召回率提高了14.1点。使人惊奇的是，LDET于检测新物体方面有较着提高，并且不需要分外的标志，例如，于COCO中只对于VOC种别（20类）举行练习的LDET于评估UVO上的平均召回率时，跨越了对于所有COCO种别（80类）练习的Mask R-CNN。如图2所示，LDET可以天生切确的object proposals，也能够笼罩场景中的很多物体。

无人汽车无法避开没见过的物体？问题出在训练pipeline上

图4. 于开放世界中举行实例支解，Mask R-CNN（上图）比本文所研究的要领（下图）所检测到的物体要少。于此使命中，于不思量练习种类的环境下，模子必需对于图象中的所有物体举行定位并对于其支解。图中的两个检测器都是于COCO上练习，并于UVO上测试的。于新的数据补充要领及练习方案的帮忙下，本文的检测器正确地定位出很多于COCO中没有被标志的物体。

无人汽车无法避开没见过的物体？问题出在训练pipeline上

图5. 练习流程。给定一个原始输入图象及合成图象，按照于原始图象上计较的掩码丧失及分类，以和于合成图象上的回归丧失来练习检测器。

本文的孝敬总结以下：

提出了一个简朴的框架——LDET，该框架由用在开放世界实例支解的新数据补充及解耦练习构成。

证实了本文的数据补充及解耦练习对于于开放世界实例支解中实现优良的机能至关主要。

LDET于所有设置中都优在开始进的要领，包括COCO的跨种别设置及COCO-to-UVO及Cityscape-to-Mapillary的跨数据集设置。

3试验成果

研究团队于开放世界实例支解的跨种别及跨数据集上评估了LDET。跨种别设置是基在COCO数据集，将标志分为已经知及未知两类，于已经知种别上练习模子，并于未知种别上评估检测/支解机能。

因为模子可能会处于一个新的情况中而且碰到新的实例，以是跨数据集设置还有评估了模子对于新数据集的归纳延长能力。为此，采用COCO或者Cityscapes作为练习源，UVO及Mappilary Vista别离作为测试数据集。于此事情中，平均精度（AP）及平均召回率（AR）作为机能评估尺度。评估因此不分等级的方式举行的，除了非尚有申明。AR及AP是根据COCO评估和谈计较的，AP或者AR至多有100个检测值。

无人汽车无法避开没见过的物体？问题出在训练pipeline上