09.24 | 视觉语言导航（Vision-and-Language Navigation）：GPT时代的新玩法

作者：发布时间：2023-09-13浏览量：2486

演讲者	吴琦
头衔职位	副教授，阿德莱德大学
时间	2023年9月24日上午10:00-11:00
地点	江湾校区交叉二号楼A5007
联系人	陈静静 chenjingjing@fudan.edu.cn

演讲简介

视觉和语言导航是vision-and-langauge的一个比较新的研究方向，引起了计算机视觉、自然语言处理和机器人学界的广泛关注。2019年，我们通过提出第一个基准VLN任务和数据集Room-to-Room (R2R)开启了这个方向。从那时起，许多新的模型和数据集被提出，包括我们的REVERIE-真实室内环境中的远程具体化视觉参考表达。在本次报告中，我将首先展示原始的 VLN 任务和数据集，并且分别从数据和方法的角度来讨论这个方向的最新进展，同时，我将分享我们最近的两个关于使用GPT去解决视觉和语言导航的新方法。

关于讲者

吴琦博士，阿德莱德大学副教授，澳大利亚机器学习研究中心视觉和语言实验室主任，2019-2021年获得 ARC Discovery DECRA Fellowship。2019年澳大利亚科学院授予罗素奖。2015年获得英国巴斯大学计算机科学博士学位，2011年获得硕士学位。他的研究兴趣主要是计算机视觉，自然语言处理和机器学习。目前，他正在研究视觉语言问题，主要是图像字幕，视觉问答(VQA)以及视觉语言导航方面的专家学者。在TPAMI、CVPR、ICCV、ECCV等著名会议和期刊发表论文100余篇。他还是CVPR、ICCV和NeurIPS的领域主席。

导航

讲座信息

09.24 | 视觉语言导航（Vision-and-Language Navigation）：GPT时代的新玩法

演讲简介

关于讲者