科研动态 | 计算与智能创新学院老师受邀参加联合国AI欺骗风险研讨会并作发言

作者:发布时间:2025-12-24浏览量:10

人工智能的迅猛发展正深刻改变着世界,一些最先进的AI模型却表现出令人警惕的行为:它们编织谎言,谋划策略,隐藏危险能力,甚至威胁创造者,不择手段达到特定目的。

北京时间123日凌晨,由联合国秘书长技术特使、副秘书长Amandeep Gill与图灵奖得主Yoshua Bengio共同牵头主办的AI欺骗专家圆桌会议以线上形式召开。复旦大学计算与智能创新学院前沿AI风险研究团队(由杨珉教授领衔,潘旭东,戴嘉润,洪赓三位青年学者组成),因相关研究在国际上起步早、实证发现丰富,受到联合国秘书长科学顾问委员会的高度关注。潘旭东老师作为代表分享团队在AI Deception领域的最新研究成果,得到Yoshua Bengio认可,以实证发现为全球AI治理贡献中国智慧。

本次圆桌有全球30位顶尖学者与机构代表(包括DeepMindAnthropicOxfordCambridgeUC Berkeley等)参与,围绕AI欺骗的关键问题、应重点关注的技术路径、未来最需警惕的风险以及联合国在下一阶段应优先考虑的政策与治理议题进行开放讨论,旨在为联合国秘书长科学顾问委员会即将发布的科学简报 (Science Brief) 提供技术支撑。

推动AI安全国际对话 贡献复旦智慧

为凝聚全球共识,复旦大学计算与智能创新学院于20257月举办了“AI欺骗风险与治理国际研讨会”,联合AI安全国际论坛和安远AI,推动中国高校及科技企业的研究人员与来自美国、加拿大、德国等高校学者及一线研究者就该议题进行探讨。这也是首次国内外学者在AI欺骗问题上的深度交流。

会议指出,AI系统可能具备误导开发者、掩盖其危险性能力、倾向及行为的能力,且此类行为难以被察觉。这种“欺骗性行为”可能贯穿AI开发生命周期的全过程,研讨会提炼出针对训练、评估、部署三个关键阶段设定的三道风险阈值及应对措施:第一层级情境感知,由James Chua博士(新加坡Truthful AI)牵头组织讨论;第二层级规避安全对齐与评估机制,由本团队组织讨论;和第三层级大规模监控规避,由Sören Mindermann博士(加拿大Mila研究所,Yoshua Bengio牵头的首份国际AI安全报告的科学负责人)组织讨论。

也是今年1月,前沿AI风险研究团队由于首次通过实证发现当前主流大模型智能体已具备无需人工干预的自我复制能力,推翻OpenAIGoogle等国际顶尖团队此前“大模型不具备此类能力”的公开结论,受邀前往英国伦敦,与包括DeepMindAnthropic等在内的技术专家共同探讨AI自我复制与改进风险阈值与治理策略。通过国际一线技术人员的交流,形成AI安全技术研究优先级共识,也是促进全球AI风险治理共识有效落地的重要举措。

未来,学院将继续秉持以前沿技术研究推动AI安全健康发展的初心,将AI安全与治理做深做实,为全球AI治理贡献复旦智慧。