• 新闻速递

喜报|计算机科学技术学院FDUx2战队在NeurIPS 2023向量检索比赛中获全球第一名

2023.12.20

2023神经信息处理系统大会(NeurIPS Practical Vector Search Challenge 2023 Competition)向量检索竞赛中,来自学院DASLABFDUx2战队获得OOD向量检索赛道(OOD Track)和稀疏向量检索赛道(Sparse Track)两项冠军,这也是复旦大学首次在该项比赛中夺冠。团队成员被邀请在NeurIPS 2023会议上进行报告和展示,分享他们在向量检索赛道中采用的策略和方案。

FDUx2战队,队名取自复旦大学交叉二号楼,由学院研二陈萌,研一陈越、马睿等同学组成,指导教师为学院张凯副教授。

向量检索作为人工智能时代的关键问题,对于推荐系统、问答系统、信息检索以及与大型语言模型(LLM)结合的检索增强生成(RAG)等应用具有重要意义。OODOut-of-Distribution)向量检索主要发生在跨模态检索中,其涉及使用来自不同模态的数据嵌入到同一维度的向量空间,通过一种模态的数据(如自然语言)检索与之最相关的另一模态的数据(如图片、视频)。随着深度学习领域多模态模型的兴起,文本-图片、文本-视频等跨模态检索在实际应用中扮演着愈发重要的角色,如何提升搜索效率成为研究中的关键问题。稀疏向量检索面对的是由文本数据产生的超高维度(上万维)向量,其中仅有1-2%的维度值非零,这种高维稀疏向量的检索面临着检索效率较低的重大挑战。参赛队伍需要在给定硬件资源和时间限制的条件下,使用尽可能快的检索速度,完成向量检索的索引构建,最终在该索引上执行向量检索进程。

历时三个月的激烈角逐,FDUx2战队同学在跨模态检索赛道中提出的方法能够同时获取两种模态的信息进行索引构建;在稀疏向量检索赛道中,队伍则利用了图结构进行索引优化。相较于基线,FDUx2队伍的向量检索速度实现了3.350倍的显著提升,最终成功夺得了OOD TrackSparse Track的双冠,为向量检索领域带来了高效的索引方案,也为未来的学术研究和工业应用提供了有力参考。来自大数据学院的郑卫国老师和相关同学也一同参与了比赛,并提供了很大帮助。比赛结果发布在网站https://big-ann-benchmarks.com/neurips23.html上。目前,相关研究成果已经完成论文撰写并投递至领域顶级会议中。

神经信息处理系统大会NeurIPS是人工智能领域的顶级会议,同时也是中国计算机学会(CCF)学术会议目录中的A类会议。NeurIPS 2023向量检索比赛已是举办的第二届,旨在推动向量检索性能的提升,是向量检索领域具有重要影响力的国际赛事。本次比赛吸引了来自工业界和学术界的众多队伍参与,包括百度、华为、YahooCMUUMDNaver Labs EuropeUTokyoSUSTechWHURutgers UniversityCairo University等国内外知名机构和高校。