• 科研快讯

复旦“立德战队”获得第一届古汉语分析国际评测EvaHan一等奖

2022.06.28

北京时间6月25日,复旦大学计算机科学技术学院本科生、“立德战队”成员王鹏宇、任致辰参加了第一届古汉语分词与词性标注国际评测EvaHan,历经几个月的探索和努力,最终提出的“基于不确定性的模型架构”在多个评测环境下取得第一的成绩,并获得了EvaHan一等奖。

EvaHan由国际语言资源与评测大会LREC2022的国际古代语言处理研讨会(LT4HALA)主办,针对先秦汉语(经典的文言文)的分词与词性标注任务,在国际上展开统一的评测。此次评测的目的是综合评价目前学界已有古代汉语词法分析研究成果,发现、探讨当前研究进展的短板和不足,并沟通众高校、研究单位一同推动古代汉语自动分析技术的研究。此次评测共吸引了来自复旦、南大、哈工大、北理、北邮等14支高校和研究单位的参赛队伍。

中国历史悠久,文化底蕴深厚,从古至今流传了大量优秀的古典文学作品,是一笔宝贵的精神财富。相比于现代汉语,古汉语资源建设困难重重:绝大多数古典文本采用繁体字书写;古汉语词汇以单音词为主,词义丰富、言简意赅,与现代汉语在字形、词汇以及语法等方面都有着明显的区别。因此,已有的基于现代汉语的研究而产生的模型并不能很好地直接应用于古汉语。

王鹏宇等人在邱锡鹏教授的指导下,通过引入辅助知识以提高古文预训练模型的预测效果,并减少对标注数据集的过度依赖。首先通过不确定性采样方法得到基线模型的不确定区间;然后检索引入辅助知识,对不确定区间进一步预测,从而提升模型的准确率。同时,为了弥补预训练模型捕获局部语义特征能力的不足,模型引入并融合了二元语法特征,进一步提升模型的性能。最终,王鹏宇等人的模型以总评第一名的成绩在14支队伍中脱颖而出。

这次比赛也是计算机学院“立德AI战队”成员的首次亮相。“立德AI战队”由复旦大学计算机学院人工智能方向发起成立,并以人工智能方向创始人吴立德教授的名字命名,旨在探索新型的AI人才培养方式,鼓励学生积极参与国内外高水平AI比赛,以赛代练,培养学生的AI基础素养和解决实际问题的研究能力。战队成员主要来自于复旦大学对AI领域感兴趣的本科生,并辅以经验丰富的研究生和教师参与指导。未来,战队希望招募更多对AI技术和落地应用感兴趣的同学,培养AI行业亟需的高水平创新型人才。