• 科研快讯

复旦大学计算机科学技术学院冯瑞、张玥杰团队在国际多媒体顶级会议ACM Multimedia上发表新成果

2022.10.28

2022年国际多媒体顶级会议ACM Multimedia中,由我院冯瑞教授和张玥杰教授带领的复旦大学跨媒体智能计算实验室(CMIT)发表的论文《MM-Pyramid: Multimodal Pyramid Attentional Network for Audio-Visual Event Localization and Video Parsing》入选。ACM Multimedia是计算机学科多媒体领域的顶级国际会议,也是中国计算机学会(CCF)推荐的该领域唯一的A类国际学术会议。

论文针对视听事件解析任务展开研究。该任务需要分类并时序定位出一段视频内所有的视觉事件、听觉事件和视听事件,且任务是以弱监督的方式进行训练,因此极其具有挑战性。现有的大部分工作都试图从整体的角度来分析视频,忽略了其中的多尺度语义信息,使得模型难以定位不同长度的视听事件。为了解决这些问题,该研究团队提出了一种多模态金字塔注意力网络(MM-Pyramid)。该网络由两个模块组成,首先注意力特征金字塔模块通过几个堆叠的金字塔单元捕获时间金字塔特征,每个金字塔单元由一个固定大小的注意力块和扩张卷积块组成;然后自适应语义融合模块利用单元级注意块和选择性融合块来交互生成最终的多模态金字塔特征。

▲ 网路结构设计:包含注意力特征金字塔模块和自适应语义融合模块

▲ 视听事件解析实验结果:可精确定位视频中不同长度的多模态事件

与现有的多模态方法相比,该模型能在多种时间尺度上探索不同粒度的多模态金字塔特征,从而能够在视听事件解析任务中精确定位不同长度音频事件和视频事件,有助于复杂场景下的视频理解,因此可以扩展应用到更多的视听场景,例如暴力检测、表征学习和多模态推理等。