米兰·(milan)中国官方网站-弥平仿真与现实的鸿沟：李飞飞、吴佳俊团队发布用于 Sim2Real 迁移的多感官物体数据集

作者：米兰·(milan)文化更新时间：2026-03-31 21:50:12 点击数：

李飞飞、吴佳俊等人发布多感官物体数据集 OBJECTFOLDER 2.0。是否预备好从 ImageNet 时代走向 OBJECTFOLDER 时代？

编译｜OGAI

编纂｜陈彩娴

最近几年来，以物体为中央的多传感器进修显示出了巨年夜的潜力。然而，以往的物体建模事情与实际的差距还有很年夜。为此，李飞飞团队曾经发布 OBJECTFOLDER 1.0 据集，包罗 100 个具备视觉、听觉及触觉数据的虚拟物体。然而，该数据集的范围较小，多传感器数据的质量较低，让使用该数据集练习的模子不克不及很好地泛化到实际场景中。

于本文中，李飞飞、吴佳俊团队重磅发布了年夜范围的多感官家居物品数据集 OBJECTFOLDER 2.0，这些数据以一种隐式神经表征的情势存于。相较在 OBJECTFOLDER 1.0，该数据集有三年夜晋升：（1）数据集的范围为前者的 10 倍，衬着时间也快了几个数目级（2）显著晋升了所有三种模态的多感官衬着质量（3）作者申明了，使用该数据集中的虚拟物体进修的模子可以乐成地于三个具备挑战性的使命（物体尺寸预计、触点定位、外形重修）。OBJECTFOLDER 2.0 为计较机视觉及呆板人技能范畴的多感官进修提供了新的研究路子及测试平台。

论文地址：https://arxiv.org/pdf/2204.02389.pdf

代码地址：https://github.com/rhgao/ObjectFolder

1数据集概述

于一样平常糊口中，咱们会感知及操作各类各样的物体。这些物品的三维外形、外不雅、质料类型等物理属性各别，具备怪异的觉得模式，都有很是差别的物理属性——3d外形、外不雅及质料类型，这致使它们具备怪异的觉得模式：闹钟看起来是圆的、平滑的，用叉子敲击盘子时会发出「叮当声」，触摸刀片时会感应刀的尖锐。

然而，以往建模真实世界物体的事情较为局限，与真实世界的差距较年夜。于计较机视觉范畴中，咱们往往于二维空间中建模物体，重点存眷于静态图象中辨认、定位它们。早先的外形建模事情则构建物体的 3D CAD 模子，可是往往只存眷其几何特征，物体的视觉纹理质量也较低。此外，年夜大都事情都没有存眷完备的物理物体属性，只存眷单一模态（凡是是视觉）。

图 1：OBJECTFOLDER 2.0 数据集。

咱们旨于构建一个年夜型的传神、多感官器的 3D 物体模子数据集，使使用该数据集中的虚拟物体进修的模子可以被泛化到真实世界的对于应物体上。如图 1 所示，咱们使用真实世界物体的现有的高质量扫描，提取其物理特性（例如，视觉纹理、质料类型，3D 外形）。接着，咱们按照物体的固有物理属性，对于其视觉、听觉、触觉数据举行仿真，并利用了一个隐式神经表征收集「Object File」对于仿真的多感官数据举行编码。假如感知到的数据充足传神，使用这些虚拟物体进修到的模子就能够被迁徙到包罗这些物体的真实世界使命中。

图 2：OBJECTFOLDER 2.0 数据集中的物体示例。

为此，OBJECTFOLDER 2.0 数据集应运而生。该数据集包罗从收集资源中网络到的 1,000 个高质量的 3D 物体。此中，100 个物体来自 OBJECTFOLDER 1.0 数据集，855 个物体来自 ABO 数据集，45 个物体来自 Google Scanned Objects 数据集。相较之下，OBJECTFOLDER 2.0 相较在 1.0 版的衬着速率更快、多感官仿真质量更高。咱们改良了听觉及触觉仿真架构，从而衬着出更传神的多感官数据。此外，咱们提出了一种新的隐式神经表征收集，可以及时地基在肆意的外部参数衬着视觉、听觉、触觉感官数据，这些数据具备今朝最好的质量。咱们乐成地将使用咱们的虚拟物体进修到的模子迁徙到了三项具备挑战性的实际世界使命（物体尺寸预计、触点定位、外形重修）上。

详细而言，咱们为每一个物体构建的「元数据」包罗从真实产物的公然网页上获取的物体的类型、质料、颜色、尺寸等信息。咱们按照物体的质料类型洗濯了数据集，只保留下质料类型为「陶瓷、玻璃、木料、塑料、铁、聚碳酸酯、钢」的物体，并对于数据的准确性举行了人工验证。

本文的重要孝敬以下：

（1）发布了一个新的年夜型 3D 物体多感官数据集，物体以隐式神经包管的情势存于，该数据集的范围是现有的 OBJECTFOLDER 1.0 的十倍。咱们显著晋升了视觉、听觉、触觉的多感官衬着质量，衬着速率快了数个数目级。

（2）咱们申明了，利用本数据集进修的模子可以被乐成迁徙到一系列真实世界使命上，为计较机视觉及呆板人学的多感官进修提供了新的研究路径及测试平台。

2多感官仿真和隐式表征

如图 1 所示，相较在离散的传统旌旗灯号表征，隐式表征具备很多上风。咱们可以将每一个感官模态参数化暗示为一个持续函数，该函数将外部参数（例如，视觉上的相机视角、光照前提，听觉上的打击强度，触觉上的凝胶变形）映照为特定位置或者前提下响应的感官旌旗灯号。隐式神经表征是咱们经由过程神经收集获得的对于该持续函数的类似，这使患上存储原始感不雅数据的内存与外部参数彼此自力，用户可以轻松地获取隐式表征。此外，因为隐式神经表征是持续的，咱们可以以肆意分辩率对于感不雅数据举行采样。

图 3：用在天生隐式表征的「Object File」收集包罗三个子收集：VisionNet、AudioNet、TouchNet。

与 OBJECTFOLDER 1.0 比拟，咱们经由过程用数千个自力的多层感知机（MLP）表征每一个物体加快了 VisionNet 的推理；就 AudioNet 而言，咱们只猜测旌旗灯号中与位置相干的部门，而不是直接猜测声波频谱图，年夜年夜提高了衬着质量，同时加速了推理速率；新的 TouchNet 可以衬着具备各类扭转角度及凝胶变形的触觉读数，而 OBJECTFOLDER 1.0 的每一个极点只能衬着单个触觉图象。

图 4：OBJECTFOLDER 2.0 中的视觉、听觉、触觉数据衬着成果相较在 OBJECTFOLDER 1.0 有显著晋升（以 YCB 数据集中的杯子为例）。

视觉——VisionNet

咱们于 KiloNeRF 的基础上构建了 KiloOSF 作为 VisionNet。KiloNeRF 利用了多个自力的小 MLP 表征静态场景，而不是利用单个 MLP 表征整个场景。每一个自力的 MLP 处置惩罚场景的一小部门，足以举行传神的图象衬着。

近似地，咱们将每一个物体细分为匀称分辩率的网格弥平仿真与现实的鸿沟：李飞飞、吴佳俊团队发布用于 Sim2Real 迁移的多感官物体数据集，每一个网格单位的 3D 索引为。从位置 x 到索引 i 的映照 m 可以暗示为：

此中，弥平仿真与现实的鸿沟：李飞飞、吴佳俊团队发布用于 Sim2Real 迁移的多感官物体数据集及别离为轴对于齐界限框（AABB）的最小及最年夜界。对于在每一个网格单位，咱们使用带有参数的 MLP 收集表征响应的物体部门。接着，咱们起首确定包罗点 x 的网格单位的索引弥平仿真与现实的鸿沟：李飞飞、吴佳俊团队发布用于 Sim2Real 迁移的多感官物体数据集，然后查询响应的小 MLP，就能够患上该点的 r 标的目的上的颜色及密度值：

弥平仿真与现实的鸿沟：李飞飞、吴佳俊团队发布用于 Sim2Real 迁移的多感官物体数据集

参考 KiloNeRF，咱们利用了「基在蒸馏的进修」计谋防止于衬着时孕育发生伪影。咱们起首针对于每一个物体练习了一个平凡的「以物体为中央的神经散射函数」（OSF），然后将每一个西席模子的常识蒸馏到 KiloOSF 模子中。咱们还有利用了空的空间跳转及初期光芒终止晋升衬着的效率。

听觉——AudioNet

咱们利用为天然情况下的物体网格设计的序贯法将每一个对于象的外貌网格转换为一个别积二阶四面体网格。接着，咱们利用有限元要领（FEM）对于天生的四面体网格及有限元阐发软件「Abaqus」中的二阶元素履行上述模态阐发历程。咱们对于于各轴向上以单元力触碰四面体网格各极点的振动模式举行了仿真。接着，咱们练习了一个以四面体网格极点坐标作为输入的多层感知机，并猜测该极点于各轴向上被单元力触碰时每一个模式下的增益向量。

于推理时，咱们可以起首使用收集猜测每一个模态下的的增益弥平仿真与现实的鸿沟：李飞飞、吴佳俊团队发布用于 Sim2Real 迁移的多感官物体数据集，然后对于使用收集猜测出的增益及经由过程模态阐发获得的频率、阻尼参数化的指数衰减正弦曲线乞降，从而猜测出物体的脉冲相应。咱们进一步将每一个极点上的外部力 f 分化为沿着三个正交轴标的目的上的单元力的线性组合。终极的声波可以被暗示为：

弥平仿真与现实的鸿沟：李飞飞、吴佳俊团队发布用于 Sim2Real 迁移的多感官物体数据集

于 OBJECTFOLDER 1.0 中，咱们利用了体积六面体网格记性模态阐发，而 2.0 中利用的更高阶的四面体网格，从而于表征巨细不异的环境下，捕捉到更邃密的特性及外貌曲率，也获得了更切确的弹性形变。是以，AudioNet 2.0 可以对于物体的声学属性举行越发切确的建模。此外，AudioNet 1.0 直接猜测繁杂的声波频谱，其维渡过高，局限在固定的分辩率及时长。AudioNet 2.0 则只猜测与位置相干的部门旌旗灯号，然后经由过程解析得到其它的模式旌旗灯号。

触觉——TouchNet

咱们利用「GelSight」触觉传感器的几何丈量值作为触觉读数。为此，咱们需要同时对于接触的形变及对于在形变的光学响应举行仿真。咱们的触觉仿真需要实现如下三个方针：（1）针对于接触的位置、标的目的、按压深度矫捷地衬着触觉读数（2）为练习 TouchNet 高效地衬着数据（3）使仿真尽可能与实际环境相近，从而泛化到真实世界的触觉传感器中。

为此，咱们采用了下面的双阶段要领来衬着传神的触觉旌旗灯号：起首，咱们模仿接触区域内的物体外形及非接触区域内的凝胶垫的外形的接触形变图，从而暗示接触点的局部外形。咱们利用 Pyrender 对于传感器及物体的交互举行仿真，利用 GPU 加快的 OpenGL 衬着形变图，实现了 700 帧/秒的数据天生。

咱们利用 TouchNet 对于接触物体各极点的形变图编码，将每一个物体的触觉读数表征为一个 8 维函数。该函数的输入为物体坐标系中的 3D 位置弥平仿真与现实的鸿沟：李飞飞、吴佳俊团队发布用于 Sim2Real 迁移的多感官物体数据集，3D 单位接触标的目的经由过程参数化，物体堕入凝胶的深度为 p，形变图中的空间位置为。该收集的输出为接触的形变图的像素值。于衬着形变图以后，咱们使用今朝开始进的 GelSight 仿真框架 Taxim 按照形变图衬着触觉 RGB 图象。

相较之下，OBJECTFOLDER 1.0 中的 TouchNet 智能沿着每一个极点的法线标的目的衬着单张触觉图象，新设计的 TouchNet 可以天生扭转角度于 15° 之内、按压深度于 0.5-2妹妹之间的触觉输出。此外，于 Taxim 的帮忙下，形变图到触觉光学输出的映照可以很轻易地校准到差别的基在视觉的触觉传感器，孕育发生传神的触觉光学输出，从而实现 Sim2Real 的迁徙。

3Sim2Real 物体迁徙

咱们但愿使用 OBJECTFOLDER 2.0 中的虚拟物体进修的模子可以泛化到真实世界的物体上。为此，咱们测评了模子于物体尺寸预计、触点定位、外形重修这三个使命上的迁徙机能，申明了数据集的有用性。

物体尺寸预计

物体的所有感官模态都与尺寸慎密相干。咱们使用 OBJECTFOLDER 2.0 数据集中衬着的多感官数据练习模子，用 8 个具备视觉、听觉、触觉真实感官数据的物体举行测试。针对于视觉及听觉，咱们练习了一个 ResNet-18 猜测物体尺寸，其输入为物体的 RGB 图象或者撞击声的幅度频谱。针对于触觉，咱们利用轮回神经收集交融 10 次持续触摸的读数，实现了基在触觉的尺寸猜测。

表 1：物体尺寸猜测成果。

「Random」暗示于与咱们的模子不异的规模内随机猜测尺寸的对于比基线。利用 OBJECTFOLDER 2.0 中的多感官数据练习的模子可以更好地泛化到真实世界物体上，证实了仿真的真实性及隐式表征收集编码的正确性。

「触觉-听觉」触点定位

于与外形已经知的物体交互时，正确辨认交互的位置是十分主要的。碰撞提供了关在接触位置的局部信息，而于差别外貌位置的碰撞会孕育发生差别的模态增益。咱们研究了利用碰撞声及/或者与接触相干的触觉读数举行触点定位的可能性。

咱们经由过程粒子滤波（particle filtering）定位接触位置的序列，网络这些位置的触觉读数或者碰撞声音。对于在触觉，咱们利用一个预练习的 FCRN 收集中提取特性，用在按照触觉图象举行深度猜测。对于在听觉，咱们从每一 3 秒的碰撞声中提取 MFCC 特性。咱们将这些特性与代表候选接触位置的物体外貌采样的粒子举行比力。与现实的触觉传感器读数或者碰撞声音特性相似度患上分高的粒子被认为更有多是真实的接触位置。

表 2：「听觉-触觉」触点定位。

咱们利用与真实标注触点位置的平均欧氏间隔作为评估器量。试验成果注解，基在触觉的触点定位相较在基在听觉的定位越发正确。

图 5：基在触觉及听觉的触点定位的可视化成果。

「视觉-触觉」外形重修

单图象外形重修于视觉范畴被广泛研究。然而，于有遮挡的环境下，触觉旌旗灯号对于在感知物体外形则极具价值。视觉可以提供大略的全局上下文，而触觉提供切确的局部几何特征。于这里，咱们练习模子按照包罗物体及/或者物体外貌的一系列触觉读数的单张 RGB 图象重修三维对于象的外形。

咱们利用 PCN 收集作为该使命的测试平台。对于在触觉，咱们利用 32 个触觉读数，并按照响应的触摸姿式将相干的变形映照到稀少的点云上。将稀少的点云作为 PCN 收集的输入，天生密集完备的点云。于视觉方面，咱们没有利用一系列局部触点图作为物体的部门不雅测数据，而是利用 ResNet-18 收集按照包罗物体的单张图象中提取的全局特性来监视外形补全历程。对于在基在视觉及触觉的外形重修，咱们利用双流收集，利用全毗连层将按照两种模态猜测的点云归并，以猜测终极的密集点云。