|
演讲简介
视觉和语言导航是vision-and-langauge的一个比较新的研究方向,引起了计算机视觉、自然语言处理和机器人学界的广泛关注。2019年,我们通过提出第一个基准VLN任务和数据集Room-to-Room (R2R)开启了这个方向。从那时起,许多新的模型和数据集被提出,包括我们的REVERIE-真实室内环境中的远程具体化视觉参考表达。在本次报告中,我将首先展示原始的 VLN 任务和数据集,并且分别从数据和方法的角度来讨论这个方向的最新进展,同时,我将分享我们最近的两个关于使用GPT去解决视觉和语言导航的新方法。
关于讲者
吴琦博士,阿德莱德大学副教授,澳大利亚机器学习研究中心视觉和语言实验室主任,2019-2021年获得 ARC Discovery DECRA Fellowship。2019年澳大利亚科学院授予罗素奖。2015年获得英国巴斯大学计算机科学博士学位,2011年获得硕士学位。他的研究兴趣主要是计算机视觉,自然语言处理和机器学习。目前,他正在研究视觉语言问题,主要是图像字幕,视觉问答(VQA)以及视觉语言导航方面的专家学者。在TPAMI、CVPR、ICCV、ECCV等著名会议和期刊发表论文100余篇。他还是CVPR、ICCV和NeurIPS的领域主席。