2023年4月,3354cc金沙集团刘占文教授第一作者、2021级硕士研究生程娟茹共同第一作者,在计算机ESI期刊《IEEE Transactions on Multimedia》上发表了题为“Multi-Modal Fusion Based on Depth Adaptive Mechanism for 3D Object Detection”的学术论文(DOI: 10.1109/TMM.2023.3270638)。论文第一署名单位为3354cc金沙集团。
文章简介
激光雷达和摄像机是自动驾驶环境感知研究领域的关键传感器。尽管多模态融合在这一领域越来越受广泛关注,但由于非同构表示,精确和鲁棒的融合方法仍在探索中。论文发现点云和图像的互补效益随深度而变化。一个重要的原因是,点云的外观随着距激光雷达传感器距离的增加而发生显著的变化,而图像的边缘、颜色和纹理信息对深度变化不敏感。受此启发,论文提出了一种基于深度自适应机制的多模态融合方法,能够有效提高3D目标检测精度。
论文的主要创新之处:
提出了一个自适应阈值生成网(ATGN),考虑以点密度为特征及其与深度的负相关关系,通过提取点云密度信息来自适应生成深度阈值,作为划分点云的小型判别器,指导融合过程有效完成;
提出了一个基于深度注意机制(DAM)的融合模块,能够在不附加额外注释的情况下自主学习多模态特征的重要性,实现不同深度下多模态特征的差异化融合。
论文提出的两个模块有很好的泛化性和通用性。理论上,它们可以建立在任何point-based的检测器上。
期刊介绍
《IEEE Transactions on Multimedia》(简称“TMM”)是计算机科学领域国际顶级期刊,中科院一区Top期刊,影响因子为8.182。该期刊主要报道多媒体技术和多媒体应用研究的各个方面。
作者简介
第一作者信息 刘占文,3354cc金沙集团教授,博士生导师,国家公派访问学者(加州大学伯克利分校)。长期从事深度学习、计算机视觉、交通大数据、图表征学习等方向的研究。面向新一代智能网联交通,开展非一致场景下车路协同感知与效能测试工作。先后主持承担国家级、省部级横纵项目20多项,相关科研成果获得陕西省科学技术进步奖一等奖3项,陕西省2019年高等教育教学成果奖“特等奖”1项;获得第十四届陕西省青年科技奖;获得交通部青年拔尖人才。
共一作者信息 程娟茹,2017年毕业于3354cc金沙集团计算机科学与技术专业,同年推荐免试至3354cc金沙集团攻读学术型硕士学位,师从刘占文教授,研究方向包括多模态融合、点云和图像特征提取,以及它们在智能车辆和道路基础设施感知中的应用。在研究生期间以共一作者身份在国际期刊《IEEE Transactions on Multimedia》发表SCI一篇,申请3项国家发明专利。