由美国OpenAI公司开发的ChatGPT模型在全球点燃了新一轮AI革命,海内外关注度陡增。前不久,复旦大学计算机科学技术学院邱锡鹏团队发布类ChatGPT模型MOSS,新闻迅速登上微博热搜。
MOSS“火”了。2月20日发布当天就收到大量内测申请、采访、投资、合作邀约——公众对于这项原本局限于NLP(自然语言处理)学术圈的新技术热情高涨。邱锡鹏团队对此颇感意外,但又很快回归平静。
大家最兴奋的一天,是春节前的腊月二十八。项目主开发者、计算机科学技术学院博士研究生孙天祥,在测试过程中输入了一个中文问题,MOSS却以英文正确回答,“就像一个不会说但听得懂中文的人”。而当时版本的MOSS还很初级,中文语料占所有训练数据不到0.1%。
“很神奇,我们没有教过它机器翻译。”MOSS显示出的潜能让邱锡鹏当晚激动到失眠。他把MOSS比作一个“聪明的小孩”,即便现在还不擅长写诗、解题或很多具体的事,但已展示出成为通用人工智能(AGI)大框架的潜能,“很多遥不可及的事情,它一点就通了。”实际上,邱锡鹏也让6岁的女儿和MOSS聊天,发现孩子可以愉快地和MOSS对话很长时间。
MOSS受到关注的背后,是科研人员十年如一日的积淀。作为一名人工智能研究专家,邱锡鹏从读博期间就开始涉猎机器学习,留校工作后进入自然语言处理研究领域。他和团队在自然语言处理的基础模型和基础算法上形成了很多创新的研究成果。邱锡鹏的著作《神经网络与深度学习》被广大读者亲切称为“蒲公英书”,在许多“人工智能必看书单”中榜上有名。去年,他还带领团队获得了中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖。
这些天,邱锡鹏与他的MOSS团队——8位年轻的复旦学生——继续紧锣密鼓地开展内测和迭代工作。新模型预计在3月份底优化完成,后期再逐步对社会开放。
▲
MOSS团队合影(左六为邱锡鹏)
目前已参与内测的一些用户表示,尽管MOSS在参数规模上和ChatGPT相比小一个量级,事实性问题覆盖不够全面,经常会“一本正经地胡说八道”,但确实有“ChatGPT那味儿”,“基本功能都实现了”。
邱锡鹏很乐观,认为在不远的将来,MOSS这类大型语言模型会成为和搜索引擎一样常规的存在,为人们生活的方方面面提供助益。
开源(即开放源代码和模型参数)是邱锡鹏和复旦自然语言处理实验室的同仁们一直以来的学术坚持。“这次也会将研究成果开放给公众与社会。”他说。
深度对话MOSS团队
01
“我们想证明,在有限的资源下,
也能做出类ChatGPT模型”
Q1
可否简单介绍一下MOSS?这种“大型对话式语言模型”和我们日常使用的Siri、小度、小爱等聊天机器人有什么区别?
邱锡鹏:我可以打个比方,这两者的关系就像智能手机和功能手机。之前的聊天系统还属于弱人工智能,设计它们就是用来聊天的,就像传统的功能手机只能用来打电话;而现在的大型语言模型,像ChatGPT、MOSS,它们能做很多事,聊天只是功能之一,就像智能手机可以用来打电话,但它的功能远远不止于此。
就ChatGPT、MOSS而言,它们具备的是一种通用能力,可以帮助人类完成各种各样的事情,只不过以对话形式呈现。它可以完成自然语言处理领域的绝大部分任务,包括机器翻译、信息抽取、纠错等。它们还可以在学习使用外部工具后,与外部世界进行交互,进行创作。这些都是现有的聊天机器人所不具备的。应该说,这种对话式大型语言模型向我们展示了一条通向“通用人工智能”的崭新路径。
Q2
团队2月20日发布了MOSS模型,是刚刚建成吗?前后花了多长时间?
邱锡鹏:事实上,我们在春节前就开发出了第一代模型。它显示出了很大的潜能,与之前的聊天系统大不相同,有着不错的人类意图理解能力,也有很多涌现能力,比如未经训练就学会了机器翻译。之后,我们又花了一个多月的时间打磨它的工程部署情况,比如提高效率、优化界面等。
对公众而言,ChatGPT、MOSS这些模型的出现或许非常突然;但对于一直关注这个领域的人来说,一切都有迹可循。比如Google在这个领域的技术研发并不亚于OpenAI,只不过OpenAI把这件事做得比较极致,并且提出了“对话”这种非常创新的交互形式,赋予了大型语言模型与人类直接交互的能力,使大型语言模型看起来非常智能。
MOSS的开发同样不是一蹴而就,它离不开我们团队过去的铺垫工作和长期积累的研究经验。从2021年起,我们就开始做中文生成式预训练模型,也开源供别人下载,每月平均有上万次下载。后面我们又提出“语言模型即服务”的概念,认为基础语言模型会成为语言服务的基座。22年因为意识到大型语言模型会成为将来的基座,所以开始做大型语言模型方面的训练。后来又花费了半年时间,研究如何使大型语言模型理解人类指令以及具备对话能力。
▲
MOSS对话演示
Q3
MOSS如何能够实现“端到端”走通大语言模型,克服了哪些难点?
邱锡鹏:“端到端”是一个学术概念,指的是从零开始,信息收集、数据处理、建立模型,到最终形成一个具有和人类对话能力的大模型,中间所有技术路径可以走通,这个就叫由起点到终点的“端到端”。因为OpenAI至今没有公布开发ChatGPT的技术路线和技术细节,所以我们需要靠有限的公开信息来自己摸索。
这个过程非常难,包含了非常多经验性、直觉性的设计,关键要打通两步:第一是基座,大型语言模型的基座不是简单的参数足够大就可以,还需要赋予大型语言模型各种各样的知识能力、学习能力,还有逻辑推理能力。第二就是要通过一些指令触发它的对话能力,让它理解人类意图,与人类能够交互对话。
到目前为止,我们还能把控技术路线,但未来可能会面临更大的困难,因为我们收集了非常多和人类交互的指令,要赋予它价值观和各种各样的能力,就要请一些专业人士来帮助我们设计,进一步增强MOSS各方面的能力。
Q4
你们的团队构成如何?
邱锡鹏:我们自然语言处理实验室是上海市智能信息处理重点实验室的一部分,团队中老师和学生加起来近百人,一直积极贯彻学校和学院推进的有组织科研模式,聚焦自然语言处理和人工智能的国际前沿技术研究。和大型语言模型基座研究相关的学生有30余人。
02
“上热搜出乎预料,取名MOSS
是致敬《流浪地球2》”
Q1
MOSS模型一经发布就备受关注,对此,你们有预想到吗?
邱锡鹏:上热搜完全出乎我们的预料。关注度这么高,我想可能是大家对国内团队做出类ChatGPT模型比较兴奋,兴奋的原因则在于之前有很多声音,说我们和国外的技术水平差距非常大,想追上的话,要花很长时间。但我们的努力证明,其实不需要那么久。
Q2
国内外已有不少公司正在研发类ChatGPT模型,投入不菲。作为一个高校学术研究团队,你们开发MOSS模型的初衷是什么?
邱锡鹏:我们开发MOSS模型,是想在百亿规模参数上探索和验证ChatGPT的技术路线,证明我们在技术实现上并不落后于国外。另外也是想证明,这种技术也并非一定被大公司垄断,我们这样一个学术研究的实验室,在相对有限的资源下,也能够做出类ChatGPT模型。
当然,我们开发MOSS模型,不止于追求和ChatGPT能力相近的模型。MOSS的定位是自然语言处理领域乃至是通用人工智能领域最前沿的探索。也许工业界更看重它的落地性能,而我们更看重它的下一代发展,即如何实现通用人工智能。从学术角度出发,只有我们比OpenAI看得更远、更超前,才可能最终实现超越。我们坚信,学术界在这个领域大有可为。
Q3
MOSS的名字是怎么来的?
邱锡鹏:在学术圈,大家非常喜欢用影视形象给自己开发的AI模型命名,也是一个比较常见的做法。比如,Transformer模型、Megatron模型名称取自《变形金刚》,BERT模型、ERNIE模型化用了《芝麻街》中的角色形象。那么,我们开发出这个具有对话能力的大型语言模型之后,也想找一个国产的、能够代表中国特色的影视形象来命名。
开发过程中,正逢《流浪地球2》电影热映,我们的团队成员都非常喜欢《流浪地球2》,也都是《流浪地球2》的粉丝。影片中的智能量子计算机MOSS给我们留下了深刻的印象,所以我们就把模型命名为MOSS,也是向《流浪地球2》这部电影致敬。这几天也有《流浪地球2》的粉丝们给我们发邮件,希望我们一定要加油,真的能够做出来。
Q4
内测进展如何,发现了哪些问题?服务器能支持多少用户同时在线?2月20日晚上,无法使用MOSS的原因是什么?
孙天祥:内测报名非常踊跃,我们第一天就收到了大量报名申请。大家也发现了不少问题,反馈也是两极分化明显。对现在的MOSS来讲,好的案例绝对可以挑出很多,坏的案例也一抓一大把(特别是中文),也就是“上限高、下限低”。我们希望在下一版能控制好下限。
2月20日晚,MOSS上微博热搜后,我们的服务器瞬时访问量达到上千万。作为一个学术研究型实验室,我们的服务器资源相对有限,因而发生了网络拥挤。可以打个比方,就像我们做好了菜,在一个屋里等大家来吃,结果因为来的人太多了,大多数人没进屋子在院子里就堵住了。但后来,我们随机选择近千名报名用户发送了内测邀请码,服务器运行没有什么压力。目前,MOSS服务器的最大容纳人数在几万左右。
03
“比起事实类的知识储备,
模型的逻辑思维能力更值得大家关注”
Q1
MOSS与ChatGPT相比,有哪些主要差异?
邱锡鹏:最大差异还是参数规模。ChatGPT的参数量多达1750亿个,而MOSS的参数量比其小一个数量级,大约是前者的1/10左右。我们选择百亿规模这样级别的参数,是因为学术界主要是做一些探索性的技术,这个规模也在财力物力承受范围之内。我们认为在这个参数级别上,这些模型也能涌现出一定的智能能力,我们也能赋予它们对话的能力。实验结果证实了我们的猜想,MOSS模型可以非常顺利地与人类进行聊天互动。
另外一大差异就是迭代能力。用户量越大,交互数据越多,模型的迭代能力就越强。ChatGPT作为新一轮人工智能赛跑的领跑者,遥遥领先收集了大量用户的交互数据,OpenAI可以在此数据的基础上,把这个模型和数据的飞轮转起来。这也就是为什么,ChatGPT现在的写作能力比刚上线时提升了很多。
上述参数量和交互数据量的差异,进一步导致了MOSS和ChatGPT在事实类知识储备上的差距,表现为MOSS在回答事实类问题时更容易出错。一般来说,模型所要掌握的能力可以分为两种:一种是事实类,比如“上海在哪里”“上海有多少人口”;另一种是逻辑类,比如对人类意图的理解能力和对人类指令的理解能力。事实类知识遵从二八法则,80%都是长尾知识,不知道就是不知道,但不代表模型不会学习。我们很容易通过扩大知识库,扩大模型的学习语料和参数规模,让模型具有更多的知识。因此,我认为,大家在关注ChatGPT、MOSS这种模型的时候,更应该看重它的理解能力、学习能力以及思维能力,而不是看重它的事实类知识储备。如果从逻辑类能力来看,我觉得MOSS的表现其实还不错。
Q2
MOSS的科技创新点在哪里?
邱锡鹏:MOSS的特点是小规模,比较容易适应个性化模型。从国内来看,大部分企业都有非常大的需求去接入AI服务,但如果直接把ChatGPT这么大的模型迁移过来,企业是用不起来的。MOSS这种百亿级规模就非常合适,可以企业内部私有部署,经过一些数据微调就可以转化为生产力。
所以我们觉得,在MOSS这个级别模型上,可以赋予更多专业化能力,比如接入外部知识库,增加搜索或特定领域工具的能力。就像人类一样,很多能力也不够,但我们可以使用工具来把我们的能力放大,比如记忆不够,可以通过查词典、使用搜索引擎。对MOSS也是一样。如果它本身的知识量不是那么大,我们就要想其他方法,让它更善于使用各种各样的工具,从而为各行各业赋能。这个可能是我们未来会和ChatGPT最主要的差异。
Q3
MOSS模型目前是纯英文界面,中文水平也明显不如英文水平,原因是什么?
孙天祥:我们开发MOSS模型的首要目标是验证技术路线。目前,开源社区中现有的能够公开获取的高质量英文数据集很多,而高质量中文数据集则较少。这是因为中文网页上的干扰信息比如广告较多,语料清洗难度较大。为了先验证技术路线,我们就推出了这个英文界面的版本。
邱锡鹏:MOSS的中文水平确实存在不足,我们已经开始自己构造一些高质量的中文数据。虽然还需要一定时间,但我们相信MOSS将来一定会具有很好的中文理解能力和生成能力。我们的目标也是打造一个具有中国特色的中文大型语言模型。
Q4
人工智能是一把“双刃剑”。关于带有伦理性、价值观的指令,你们如何训练MOSS?
邱锡鹏:这也是我们要进一步加强的。一旦你把你的模型看成是一个智能体,其实不只关心它回答问题的正确性或者准确率,还会关心其他的,比如保证它至少不对人类产生危害。但人类的伦理观、价值观是非常多样的,接下来,不光是我们做技术的,还需要从事法律、伦理研究的相关人士一起参与共建大型语言模型。在这一点上,我们可以充分发挥复旦交叉学科和综合性大学的优势。
04
“我很乐观,通用人工智能由科幻
步入现实,应该不会很远”
Q1
您认为中国版ChatGPT模型建设的必要性和价值在哪里?
邱锡鹏:首先,从大的方向来看,像ChatGPT模型,它并不向中国内地开放。中国要想站在大型语言模型或者将来的通用人工智能等技术的最前沿,就必须要建设自己的语言模型基座。其次,国外开发者不太可能以中文为主去发展他们的模型,他们的发展重点还是在英文上。那么,我们要想开发一个大型语言模型的基座,用于国内的信息处理,特别是中文信息处理,就必须建设一个中文能力非常强的大型语言模型。
Q2
MOSS的优化会包括哪些方面?团队对MOSS模型的近期目标和最终期待分别是什么?
邱锡鹏:未来,MOSS的优化将会围绕三方面展开。第一,我们会准备更高质量的中文数据;第二,我们会开放接口,让MOSS与人类进行对话,收集更多的对话数据;第三,我们会进一步加大投入,扩大它的参数规模,如果MOSS的参数规模能够上升到500亿或者1000亿,它的能力就又会大幅提升。
近期的目标,是希望MOSS成为国内技术比较领先的对话式语言模型。我们希望能坚持做一个不为利润所驱使的研究机构,把研究成果无偿地分享给学术界,也在合法合规的前提下把研究成果开放给业界,让他们去做定制化或者在特殊领域的应用。下一步进行顺利的话,我们会于3月底左右开源。
长远来看,我们期待把MOSS作为一个通向通用人工智能的基座,让它变成一个像科幻片角色的真实存在。我很乐观,我觉得通用人工智能由科幻步入现实,应该不会很远,也许5到10年。那时,我们会像现在接受搜索引擎一样,接受通用人工智能。
转载来源:复旦大学 公众号