近期,复旦大学计算机科学技术学院肖仰华教授带领的知识图谱课题组(知识工场实验室)的研究论文《VoCSK: Verb-oriented commonsense knowledge mining with taxonomy-guided induction》被Artificial Intelligence(AIJ)录用,论文第一作者为博士生刘井平,通讯作者为肖仰华教授。AIJ创刊于1970年,是国际最为老牌的人工智能期刊之一,是中国计算机学会推荐的A类国际期刊,同时也是Journal Citation Reports(JCR)计算机科学、人工智能分区一区期刊。AIJ是国际上极具影响力的人工智能领域期刊,发表了众多图灵奖获得者(包括Tim Berners-Lee、Richard M. Karp、Raj Reddy、Michael O. Rabin、Marvin Minsky、Leslie Valiant、John McCarthy、John Hopcroft、Herbert A. Simon、Geoffrey Hinton、Fernando J. Corbató、Edward Feigenbaum、Edmund M. Clarke、Donald Knuth、Allen Newell等)的重要工作,是知识工程领域最为重要的期刊之一。相关资料显示,这是该期刊创刊以来由上海科研机构独立完成的首篇论文,也是复旦大学首次以第一作者单位或通讯作者单位在该期刊发表的论文。
该文主要研究以动词为核心的隐性常识知识归纳。人类的常识多是隐性的,人们往往下意识地使用了常识,却很难显式表达常识。隐性常识的获取一直以来是知识工程的难题之一。本文提出了一种利用概念指引从实例知识进行归纳而获取常识的方法,并将其成功应用于以动词为核心的隐性常识获取任务中。比如根据张三吃苹果、李四吃李子、王二吃橘子,归纳出“人吃水果”这一常识。该方法主要包括两个模块:一是基于信息熵的三元组过滤器,其主要功能是用于过滤噪音动词短语;二是基于最小描述长度和神经语言模型的联合模型,其主要功能是生成常识知识。为了验证方法的有效性,作者在公开数据集进行了大量的实验,构建了大规模动词常识的知识库VoCSK,基本涵盖了人类语言中的常见动词。论文证实了该常识库能够提升一系列下游任务的性能。本文首次提出基于归纳的获取知识方法,更加接近人类的知识获取方式,为机器的知识获取贡献了新路径。
此外,该课题组近三年来在以知识图谱为代表的大数据知识工程方面累计发表了中国计算机学会认可的A类会议与期刊以及JCR一区论文近三十篇。相关技术已成功落地应用在美团生活服务领域与飞猪POI图谱构建等项目中,获得良好落地效果,获得2021年度美团科研合作创新奖。此前该团队还曾获得华为优秀合作伙伴奖、阿里巴巴研究奖以及阿里巴巴学术合作最佳合作伙伴奖。
图:隐性常识知识归纳方案