• 新闻速递

祝贺!计算机科学技术学院团队在CVPR2024三项挑战赛中斩获冠军!

2024.07.02

2024617日至21日,IEEE/CVF 国际计算机视觉与模式识别会议(CVPR)在美国西雅图召开。CVPR是人工智能领域最具影响力的顶级年会,其论文集在谷歌学术全球出版物影响力榜单中排名第四,在计算机和人工智能领域排名第一。

复旦大学视觉与学习实验室(FVL)共有7篇论文被大会接收,11名师生参会交流。FVL团队通过邀请报告、墙报等方式展示了实验室在视频内容识别、轻量级视频生成、图像内容编辑等方面的研究成果,并在大规模开放词汇目标检测等三项挑战赛中斩获冠军。

1.大规模开放词汇目标检测

大规模开放词汇目标检测挑战赛要求参赛队伍能够准确检测并识别超过一万类的目标,其难度远远高于仅包含百类目标的传统数据集。FVL团队凭借自研的RichSem-DINO-Focal算法荣获该挑战赛冠军。

孟令琛同学介绍夺冠方案

FVL团队在RichSem-DINO结构的基础上,采用FocalNet-Huge作为主干网络,并在Object365上进行预训练,最后在V3Det训练集上进行微调。为了实现高性能开放词汇目标检测,团队将传统的闭集分类问题转化为图像视觉特征和类别语言特征的对齐问题。无需额外的训练技巧,RichSem-DINO-Focal斩获了大规模开放词汇目标检测任务的冠军。

RichSem-DINO-Focal框架图


2.基于文本的视频编辑

基于文本的视频编辑挑战赛要求参赛队伍基于给定的指令对200个视频实现物体的增加、减少、风格变化等编辑。FVL团队凭借自研的FLDM算法荣获该挑战赛冠军。

邢桢同学介绍夺冠方案

FLDM将图像扩散模型和视频扩散模型结合起来完成视频编辑任务。其中,图像扩散模型用以生成高质量的单一视频帧,而视频编辑模型用以建模时序关系。在不需要对模型进行额外训练的前提下,FLDM通过二者的有机结合提升了视频编辑的内容美观度和时序一致性。

FLDM框架图


3.端到端自动驾驶

端到端自动驾驶挑战赛要求参赛队伍根据道路、车辆、行人、障碍物等信息做出最符合当前环境的路径规划。FVL团队与英伟达公司合作研发的Hydra-MDP算法荣获该挑战赛冠军及创新奖。

李臻欣同学介绍夺冠方案

传统自动驾驶数据集nuScenes由于驾驶场景单一,无法有效评估端到端自动驾驶模型在规划上的性能,因此本次竞赛中采用了更有挑战性的NAVSIM数据集,包含变道、无保护转弯、超车等等复杂的驾驶场景。Hydra-MDP在边缘案例数据量不足的情况下,使用基于规则的专家模型作为教师,将规则知识蒸馏给神经网络规划器,实现了端到端的高精度路径规划。Hydra-MDP的路径规划能力不仅适用于自动驾驶,还有望助力机器人与环境的高效交互。

Hydra-MDP框架图

Hydra-MDP路径规划示意图


转载来源:复旦FVL公众号