发布询价单
您的位置:首页 > 资讯 > 企业动态 > 正文

4D-Net 通过融合点云、摄像头和时间数据来提升自动驾驶视觉能力

2022-03-18 09:46 性质:原创 作者:DDing 来源:中国AGV网
免责声明:AGV网(www.chinaagv.com)尊重合法版权,反对侵权盗版。(凡是我网所转载之文章,文中所有文字内容和图片视频之知识产权均系原作者和机构所有。文章内容观点,与本网无关。如有需要删除,敬请来电商榷!)
谷歌和 Waymo 的 4D-Net 旨在解决在远处准确检测物体(如其他车辆和行人)的问题,提供了一种新颖且可推广的传感器融合方法,并取得了一些令人印象深刻的结果。4D-Net 旨在找到随时间捕获的 ...

谷歌和 Waymo 的 4D-Net 旨在解决在远处准确检测物体(如其他车辆和行人)的问题,提供了一种新颖且可推广的传感器融合方法,并取得了一些令人印象深刻的结果。

4D-Net 旨在找到随时间捕获的 2D 图像和 3D 点云数据之间的链接,极大地促进了远程目标检测。

安全、可靠的自动驾驶汽车的关键——甚至高于其车载自动驾驶系统智能程度——可能在于它处理传感器数据的效率。就像人类驾驶员的视力测试一样,重要的是要知道自动驾驶汽车系统可以发现危险并做出相应的反应——无论问题有多小或多远。

传统的二维摄像头系统和三维传感器,如 LiDAR(光检测和测距),可能不足以实现完全的可靠性和安全性,谷歌和 Alphabet 的自动驾驶汽车子公司 Waymo 的一个团队研究了第四维: 4D-Net,一种对象检测方法,将二维和三维数据与第四维时间融合在一起,声称性能显着提高。

时间足够

谷歌研究科学家和论文合著者 AJ Piergiovanni 和 Anelia Angelova 在一份关于工作。“我们还引入了一种动态连接学习方法,该方法通过跨两种特征表示执行连接学习来整合来自场景的 4D 信息。”

4D-Net 方法源于一个简单的观察:大多数配备传感器的现代车辆包括二维和三维传感器,通常采用多个摄像头模块和 LiDAR 的形式,数据是在一段时间内收集的——但是很少有人努力将所有内容集中在一个地方并作为一个整体进行处理。

4D-Net 系统旨在通过将二维相机图像与 3D 点云数据相结合来提高远距离物体识别的准确性——所有这些数据都被收集起来以捕捉运动。

4D-Net 解决了这一差距,将 3D 点云数据与可见光相机图像混合,同时通过处理在设定时间段内捕获的一系列数据来混合时间元素。其成功的秘诀:一种新颖的学习技术,它可以自主地发现和建立数据之间的联系,在不同的层次上动态地融合它,以便单独提高任何数据馈送的性能。

“时间图像信息量很大,并且与静止图像和 PCiT [时间点云] 相辅相成,”研究人员解释了该方法的好处。“事实上,对于具有挑战性的检测案例,运动可能是一个非常有力的线索。虽然可以在 3D 中捕获运动,但纯粹基于 PC [点云] 的方法可能会因为传感稀疏性而错过此类信号'’——顺便说一句,同样的问题意味着 LiDAR 传感器可能会错过远处或小的物体,但在可见光摄像系统或驾驶员的肉眼上拾取。

机器学习时间

为了处理这两种类型的数据,团队转向一系列预处理步骤。3D 点云数据通过 PointPillars 运行,PointPillars 是一种用于将数据转换为伪图像的系统,可以使用为二维数据设计的卷积神经网络 (CNN) 进行进一步处理,每个点添加一个时间指示器以创建包括运动在内的更密集的表示。还使用了转换为固定大小的表示,有效地对点云进行二次采样——这种方法在数据稀疏的地方使点云变密,在数据密集的地方使其稀疏,从而提高远距离的性能。

与此同时,二维相机数据通过 Tiny Video Networks 处理成特征图,然后投影数据以将 3D 点与 2D 图像上的对应点对齐——这一过程假设“校准和同步传感器”。对于位于车辆摄像头视野之外的点云数据,应用零向量。

使用多种分辨率的图像和视频馈送的 4D-Net 系统变体被证明是理想的,在基准测试中比单馈送变体提供额外的精度增益。

然而,4D-Net 系统真正聪明的部分在于其连接架构搜索的形式——它能够从融合数据中提取最多、最合适的信息。一次性轻量级可微架构搜索可在 3D 和时间中找到相关信息,并将其连接到两种不同的传感模式 - 并学习两个传感器在不同抽象级别的特征表示组合。

“[This] 非常强大!“该团队解释说:“因为它允许学习不同级别的特征抽象和不同特征来源之间的关系。为了进一步调整自动驾驶汽车的方法,该团队根据自我注意机制的概念将连接修改为动态的,允许网络动态选择特定的可见光数据块进行信息提取——这意味着它可以学习如何和在哪里根据可变输入选择特征。

令人印象深刻的结果

测试系统的单流和多流变体,后者以静态图像和以不同分辨率运行的视频馈送形式引入额外的输入流,该团队声称与竞争对手的状态相比取得了一些令人印象深刻的收益-最先进的方法。

针对 Waymo 开放数据集进行测试,4D-Net 提高了所有测试竞争对手方法的平均精度 (AP)。虽然平均而言,它的性能被证明在较短的距离上较弱,但据报道,它识别更远物体的能力——尤其是 50 米以上的范围——是无与伦比的,尤其是在多流模式下运行时。

该团队的实验表明,4D-Net 在中远距离与竞争对手的方法相比有显着的准确度提升,尽管在较短的检测距离下准确度有所下降。

“我们展示了改进的最先进性能和具有竞争力的推理运行时间。”该团队总结道:“尽管及时使用了 4D 传感和两种模式。在不失一般性的情况下,相同的方法可以扩展到其他 RGB 图像流,例如,为高度遮挡的对象提供关键信息的侧摄像头,或用于 PC [点云] 或图像的各种可学习特征表示,或其他传感器。”

研究人员建议,4D-Net 方法也可以用于自动驾驶领域之外,只要需要通过自动对齐音频、视频、文本和图像数据来捕获同一领域的不同方面。

该团队的工作在 2021 年计算机视觉国际会议 (ICCV) 上进行了介绍,并已在开放获取条款下提供。Google AI 博客上提供了 AJ Piergiovanni 和 Anelia Angelova 的支持性文章。研究人员已承诺在开源许可下提供他们的代码,但在撰写本文时尚未发布。

网友评论
文明上网,理性发言,拒绝广告

相关资讯

关注官方微信

手机扫码看新闻