2024年4月9日下午,“步青讲坛”第四期邀请到了中国工程院院士、清华大学计算机科学与技术系教授郑纬民,为全院师生作了题为“算力的互联与互通”的学术报告。郑院士与在场师生共同探讨算力在新时代的作用与挑战。
郑纬民院士长期从事高性能计算机体系结构、并行算法和系统研究,在国内率先研制并成功应用集群架构高性能计算机,在国产神威太湖之光上研制的极大规模天气预报应用获得ACM Gordon Bell奖,曾获国家科技进步一等奖1项、二等奖2项、国家技术发明二等奖1项、何梁何利科技进步奖、首届中国存储终身成就奖等诸多荣誉。本次讲坛由欧洲科学院院士、复旦大学社会智能研究中心(筹)首席科学家、哥廷根大学中德社会计算研究所傅晓明教授主持。
讲座中,郑纬民院士强调了算力在数字经济时代的重要性,并将其视为新的生产力。他概述了三大类算力:高性能计算(HPC)算力、人工智能(AI)算力和数据中心算力,并指出它们在处理大数据、推动技术创新和经济发展中的关键作用。随后,郑院士深入探讨了两种支持大模型训练的计算系统:一种是基于英伟达公司GPU的系统,另一种是基于国产AI芯片的系统。他指出,虽然英伟达旗下的GPU在硬件性能和编程生态方面表现优异,但受制于出口限制和价格上涨,国内获取难度加大。相比之下,国产AI芯片系统虽然存在生态系统不够完善的问题,但通过加强研发和优化软件生态,有望成为未来发展的重要力量。
为改善国产卡的生态系统,郑院士提出了大力开展基于国产系统的大模型基础设施研究,重点关注10个关键软件的开发和优化,包括编程框架、并行加速、通信库、算子库、AI编译器、编程语言、调度器、内存分配、容错系统和存储系统。在讲座的最后部分,郑院士对算力的互联与互通进行了深入阐述。他强调,实现不同算力资源的高效互联和灵活互通是提升整体计算能力、促进科技创新和经济增长的关键。此外,郑院士还分享了自己的经验和对未来发展的展望,包括国产AI芯片的发展前景和算力网络的建设。他认为,通过构建统一的编程框架和标准化的通信协议,可以实现算力资源的优化配置和高效利用。
本次讲座不仅为在场师生提供了关于算力网络发展的前沿知识,也为未来的研究和应用探索提供了方向性的指导。在讲座的问答环节,现场师生踊跃提问,郑院士耐心解答,气氛活跃。
活动最后,复旦大学计算机科学技术学院院长杨珉和党委书记王新向郑纬民院士颁发了感谢状。“步青讲坛”第四期取得了圆满成功。