• 新闻速递

复旦“立德战队”荣登国际机器阅读理解评测顶级赛事HotpotQA排行榜第一名

2022.07.17

2022年6月27日,来自复旦大学计算机科学技术学院的“立德战队”和华为泊松实验室(Huawei Poisson Lab)组成的联合研究团队提出的C2FM with F1 Smoothing模型在HotpotQA榜单上荣居榜首,综合F1指标达到76.69。HotpotQA是由卡内基梅隆大学、斯坦福大学、蒙特利尔大学的研究团队提出的多步推理机器阅读理解评测,需要模型在多个相关文档上进行推理获取答案,自2018年发布以来吸引了微软、华盛顿大学、日本京都大学、IBM研究院、约克大学、上海交通大学、南京大学、京东AI研究院等众多国内外高校和研究机构的参与。

▲ HotpotQA排行榜(干扰项赛道)榜单(截至2022年7月10日)

较于传统的问答数据集只需从单篇文章中获取答案片段,多步推理问答数据集需要模型从多篇文章中推理搜寻答案,HotpotQA还要求模型筛选出构建推理链条所需的佐证语句,因此具有更高的挑战性。HotpotQA包含干扰项赛道和全维基赛道,本次参与的是干扰项赛道,该赛道对于文本的阅读理解和推理能力提出了更高的要求,同时也是竞争最为激烈的赛道。下图是验证集中的一个样例,对于问题“在电影《亲吻与诉说》中扮演Corliss Archer的女性担任过什么政府职务?”,模型首先要从10篇文章中检索到《亲吻与诉说》和《秀兰·邓波儿》两篇相关文章,接着从《亲吻与诉说》中获取到由秀兰·邓波儿饰演Corliss Archer,之后从《秀兰·邓波儿》获取到秀兰·邓波儿担任过礼宾处处长,最终推理得到答案“礼宾处处长”。

本次登顶的模型名为C2FM with F1 Smoothing,由检索模块和阅读模块两部分构成,检索模块采用粗筛到精挑(Coarse-to-Fine)的构建方式,首先粗粒度的筛选出3篇相关的文档,之后将文档两两组合进行细致化的挑选,通过建立文档与文档之间的交互,获取关联信息,显著提升了检索模块的性能。阅读模块采用多任务学习(Multi-Task Learning)的方式,同时学习答案片段的选取以及佐证语句的判断,提出了F1 Smoothing方法优化答案片段选取的学习过程,避免模型对所选结果过分自信,进一步提升模型在答案片段选取任务上的表现。

机器阅读理解作为自然语言处理的重要领域,还有很多值得我们探索和研究的问题。参与这次比赛的“立德战队”成员汪燠欣和印张悦来自复旦大学计算机学院自然语言处理实验室,由邱锡鹏教授指导,并得到了华为泊松实验室的大力支持。

“立德AI战队”由复旦大学计算机学院人工智能方向发起成立,并以人工智能方向创始人吴立德教授的名字命名,旨在探索新型的AI人才培养方式,鼓励学生积极参与国内外高水平AI比赛,以赛代练,培养学生的AI基础素养和解决实际问题的研究能力。战队成员主要来自于复旦大学对AI领域感兴趣的本科生,并辅以经验丰富的研究生和教师参与指导。未来,战队希望招募更多对AI技术和落地应用感兴趣的同学,培养AI行业亟需的高水平创新型人才。