文 / 王晓阳复旦大学计算机科学技术学院
摘 要
人工智能的巨大潜能在于其自动获取知识的能力,摆脱传统上完全由人类作为知识媒介对知识进行挖掘并编码的制约。近年来,新型软硬件计算系统、大数据、机器学习的发展,使得这一潜能得到了很大发挥,形成了新的生产力,将在国家经济建设、社会发展各方面发挥巨大作用。目前人工智能应用的瓶颈在于怎样向各行各业推广,对此一个重要的考虑,就是如何使得人工智能平民化,即将人工智能工具做到易用、安全,使知识获取像互联网搜索那样简单,并以一种容易理解、安全可靠的方式加以运用。为达到平民化,要对人工智能工具进行智能化转换,像当年PC机的产生使得计算机走进千家万户、各行各业那样,让更多的人能够在更多的场景里使用人工智能,形成一个新的人工智能时代。
关键词
人工智能;软硬件系统;平民化
简介
王晓阳
王晓阳,复旦大学特聘教授。主要研究兴趣包括大数据分析与数据安全。CAAI智能服务专委会副主任,CAAI/CCF Fellow。
1 知识的演进
早在17世纪,弗兰西斯·培根就说过“知识就是力量”,流传至今。一般对这句话的理解是知识给我们力量,赋予我们解决问题的能力。比如,农作物如何培育、家具如何打造、税收如何公平、卫星如何上天等都可以认为是知识。知识应该是从口口相传开始,逐渐发展到以书面的形式进行流传;知识的表达也以简单的形式,过渡到以严谨的数学语言进行描述。知识积累、知识利用贯穿人类文明社会的发展历史。知识总结及流传是人类特有的、专属的能力,知识的使用也是通过人来实现的。
20世纪进入计算机时代,知识的表达有了崭新的形式,即计算机语言。人们用计算机语言将人类的知识变成可执行的算法,驱动着各类工具,从办公自动化到各类精密机械,从社会治理到金融系统、到日常生活,极大地提高了生产力与社会治理能力。知识的使用不仅是人类的专属,计算机可以自动地使用以计算机语言表达的知识。计算机程序员扮演了一个将人类知识翻译成为机器语言的重要角色,在日益强大的软硬件设备的支持下,知识以一种前所未有的形态推动着社会的发展。
数据是计算机时代的一个副产品,各类自动化系统产生大量的数据,从数据中自动挖掘知识将知识的历史演进推到了一个崭新的人工智能时代。随着计算机处理能力和存储能力的快速增强、价格的快速降低,大量的数据被存储形成“大数据”。人类社会活动、物理世界的行为,都在人们有意无意中采集了下来成为数据,其广度与深度已经包含各种各样的知识,等待人们去整理与挖掘。机器学习,尤其是深度学习算法应运而生,用于从数据中总结和归纳,形成可以直接用于实际应用的知识。比如,人脸识别。人们通过采集大量的人脸数据,用深度学习的方法总结归纳人脸特征,形成一个计算机可以直接使用的模型,用于(如手机开锁、门禁开闸等)日常应用。自动语言翻译、自动驾驶、智能竞技(如AlphaGo)等基本上用的是同样方法。
自此,基于大数据的人工智能的兴起,人类拥有了从知识获取到知识编码,再到知识使用整个闭环的强有力自动化工具。人们普遍认为,人工智能具有巨大潜能,将推进社会生产力的快速发展。
2 目前的瓶颈
人工智能巨大潜能的发挥,需要体现在社会各方面的广泛使用。人工智能技术目前的发展阶段,在广泛使用方面仍存在较困难的瓶颈。人工智能作为一个知识采集、知识编码、知识使用工具,在实际使用中需要解决的问题包括:①需要什么样的知识?②怎样的知识表达形态才可用?③需要什么样的数据才能获取所需要的知识及其形态?④从哪里找这样的数据?⑤数据的使用是否合法合规?⑥需要使用怎样的软硬件系统与算法进行知识挖掘?⑦ 谁来操作这些系统与算法?⑧所获取的知识怎样能够安全可靠地解决应用中的实际问题?等等。
上述这些问题的解决需要应用领域的专业知识,更需要计算机领域的专业能力。在全社会大规模的推开势必需要大量的技术人才。有研究称,目前中国人工智能人员的缺口达到千万级。这不是一个一时能够填满的缺口,也许永远填不满。
从数据的角度来看,数据红利时代刚刚开始。大量的数据还没有被利用而产生需要的知识,并用于解决实际问题。据 IBM 公司的一个报告称,大量数据依然沉睡。IBM 将这种数据称为“暗数据”,大部分在目前技术状况下较难被使用。比如,工业领域“90%以上从未被使用过”;商业领域“各公司收集了大量数据,但大部分公司只对其中的1%进行分析”。也就是大量的知识也许还在沉睡,没被挖掘并使用。从上面分析的8个问题来看,数据可能都在,但面对大量的数据,要找到需要的数据,变成了一个难题。
数据可以说是人工智能的原材料(被称为新时代的“金矿”),什么样的人工智能工具能把需要的金子挖掘出来?纵观市面上流行的计算机软硬件系统,我们看到一个与上世纪完全不一样的景观。上世纪末,经过数十年的发展,计算机软硬件系统趋于归一化,每个领域的软硬件系统剩余不多,已能够满足绝大部分的需求。大数据人工智能的发展,展现出一个“发散”的过程,即各式各样的硬件系统快速涌现,以及各式各样的软件系统不断出现。究其原因,是因为不同情景需要不同的软硬件组合。One-size-fit-all(单一尺码即可)让给了 one-size-fit-a-bunch(一个尺码只适用部分情况)理念。对使用人工智能工具人员的技术要求越来越高。图11描述了机器学习(Machine Learning)、人工智能(AI)、数据(Data)系统的疯狂(MAD)情形。
图1 MAD 情形
在各类系统中,有善于大规模数据简单处理的,有专门针对复杂算法的,有为容易并行并在大规模松耦合集群上进行运算设计的,也有为具体场景(比如大规模模型)所设计的系统。不同算法可能需要不同的硬件和软件,不同的数据类型也可能需要不同的算法和存储……不一而足。要真正理解所有的系统并有效使用,需要大量的学习,还要有一个强大的大脑。
用一个简化的风电预测应用说明上述问题。风电预测需要两种(知识)模型的支持,一是局部风力预报模型;二是风电机在不同风力情况下的效能模型。风力预报模型是一个成熟的模拟类算法,一般使用传统并行计算机(超算)来实现,数据的采集也有较为成熟的系统。风电机效能模型可能需要从风电机本身运行的历史数据中,根据风电机的特性使用某种机器学习(比如深度学习)进行建模。整个系统至少涉及数据整理、机器学习、复杂系统模拟等算法,以及相应软硬件系统来实现。对实现团队的技术要求较高,同时需要对风电业务本身具有较深理解,难度不小。在这个简化的例子中,数据使用的合规性可能问题不大,因为可能只涉及风电运营公司自己的数据,但若要获取电力用户的数据融入风电管理体系中,就可能涉及合规性问题。在需要使用更多个人数据的应用中(比如医疗、金融等),数据的合规性需要有相应的保障。在风力预测例子中,模型的安全可靠性非常重要,即在多大程度上可以保障预测的准确性?目前市面上的人工智能系统,较少有安全可靠性方面的考虑,但理论成果已开始出现。
从上面描述可以总结人工智能应用至少四个方面的挑战。流程的复杂性,不同应用需要独特的流程;系统的复杂性,人工智能应用依赖于多种系统的协同使用;人力的缺乏,驾驭人工智能应用仍依赖大量的人工;最终应用的安全可靠性缺乏有效的通用工具,需要对具体情况作特殊分析。
由此可以推出,在人工智能应用方面,我们所遇到的瓶颈问题是怎样消除数据使用的复杂性、系统使用的难度,以更少的人力及计算领域专业知识就能做到更多的数据利用。也就是人工智能平民化问题。
3 解决的方法
解决人工智能平民化问题,还是需要人工智能技术。使得知识获取及使用全流程的智能化,可能是一个必须的解决之道。人工智能应用全流程能像互联网搜索一样容易,并能提供清晰的安全可靠保障,那么人工智能在全社会各行各业的应用将有较快速的发展,释放人工智能在提高生产力方面的巨大潜能。
人工智能平民化需要大量的研究,至少需要在下面几个方面进行。怎样自动理解并模型化用户的知识需求;怎样自动推演相应的数据及知识挖掘分析方法的需求,并自动选择或形成所需要的算法怎样自动选择软硬件系统,部署相应的算法与数据进行计算;怎样有效展示学习结果及其解释,与用户进行自然交互,对过程与结果进行指导和选择;怎样自动形成最终应用的知识模型和知识应用机制;怎样自动形成对知识应用机制的监控系统,对数据使用的合规合法性、应用的安全可靠性进行持续监控,保持系统的透明性,以及用户足够的知情权。
在平民化系统中,用户用简单的方法告知应用需求,并以自然的交互形式;用户得到足够的信息,能够直截了当地告知自身喜好,纠正系统对需求的理解偏差。系统需要不断地进行自学习,不断改进对需求响应的准确性,使得人工智能应用的形成过程,对用户而言更像一种“辅助驾驶”。
事实上,上面提到的各种研究方向,在行业及研究领域并不完全是空白,众多的研究人员已经在相关方向上做出了很好的工作。
近几年,机器学习的自动化,即所谓AutoML,引起了很多研究者的关注。主要面临的问题是机器学习需要大量人力,从数据选择、特征抽取及模型参数设置都需要人为干预,甚至由于选择空间比较大的原因,有些做法被诟病为“魔术”,至少是方法论不明。机器学习本身是个优化问题,是通过对模型内变量的调整已达到某种最优解。AutoML本质上是把机器学习的优化问题扩展到对模型“超参”(即使用数据进行学习前对模型的预设参数),以及数据集的选择、数据特征的选择都作为“变量”,对模型进行优化。这方面研究有一定的进展,尤其是“超参”的自动选择方面已有一些方法,减少对人力的需求,是机器学习平民化的追求。
知识获取中数据选择问题,要比“超参”选择困难很多,部分原因是数据的选择空间巨大。数据选择的粒度可以很粗也可以很细,且数据的选择与应用的最终需求紧密相关,而用户对最终应用需求在开始时往往只有一个模糊的理解,很多情况下并不能给出精确的描述。研究人员将这个问题在一种“探索性分析”的方法下进行研究。探索性分析的主要精神就是在用户的参与下,找到相关数据及其变换,使其能够满足用户在探索中逐渐清晰的知识获取需求。在这个过程中,系统的快速反应,以及基于对用户需求的理解进行的智能推荐(或称为智能向导),在人工智能平民化中变得非常重要。商用数据分析系统中已初步出现这样的能力,比如Salesforce的Einstein AI系统,以及其旗下的Tableau的智能系统等。在学术界,人们也开始了这方面的尝试。其他相关研究如近似数据查询(为了使系统反应更快)、数据可视化推荐(为了让用户更容易看到数据所隐含的知识)等,有很好的发展前景。
类似上面提到的风力预测系统这样的人工智能应用的实施,包括对上述AutoML与探索性分析的实现,需要部署在类似图1中的各类系统上,而且往往需要多系统协同进行,尤其是在数据量大、算法复杂的情况下,更需要计算的优化部署。这个步骤技术含量极高,因为需要对计算需求及计算环境有精确的理解,并能熟练操作。更困难的是,对不同的模型、算法、数据,甚至不同的数据特征、模型超参,最优系统部署可能都有较大的区别。若要做到动态优化,就必须使用某种系统部署的优化算法。这里人工智能算法,比如强化学习方法就大有可为。在这方面,数据库领域走在较前列。在实际使用场景中,数据库往往是一个企业最复杂的系统,对不同数据进行不同的查询,计算处理的不同方式可以产生巨大的时间(与效率)差别,人们进行了大量的处理优化研究,近年来使用人工智能方法进行自动优化成为了一个新趋势,取得了很明显的进展。在人工智能系统部署方面,可以借鉴数据库领域的经验,实现自动的优化部署,是实现人工智能平民化的一个关键。
在数据使用合规合法、应用系统安全可靠方面,许多数据安全方面的研究给出了很好的方法。比如隐私计算、可信计算、区块链等技术,都在基础安全层面的研究取得了很有意义的成果。在平民化进程中,一个重要的问题是怎样显性地向用户展示(或者说是向用户“证明”)其数据使用是合法合规的,怎样显性地展示应用的运行仍在安全可靠范围内。这些方面研究的仍比较少,有很大扩展空间。
上面提到的各个方向的研究,为人工智能平民化做了很好的铺垫,把这些研究成果聚合成为可用的产品仍需要较大的努力,而且还有很多方面需要进一步深入的研究,有不少的科学问题需要解决,还需要大量的工程实现,才能使得人工智能平民化成为现实。
4 谨慎的预言
任何一种技术的拓广,平民化似乎是必由之路,人工智能也不例外。在追求人工智能技术的深度,比如增强机器学习的能力,补足其短板的同时,怎样使人工智能技术的使用门槛降到最低,也就是怎样使得人工智能平民化,是个发展的规律,也是研究人员的职责,是推进社会进步不可或缺的努力方向。到目前为止,信息领域的成功案例基本都遵循了这样的规律。谨慎预测人工智能技术的未来,像图1中的MAD图会变成少数技术人员关心的问题,大多数人员将只需要和与行业息息相关的几个系统打交道,而且他们的行业背景要求比对计算机背景要求要高很多。那时我们才能说人工智能成功了。
(参考文献略)
1 https://mattturck.com/data2021/
转载来源:中国人工智能学会公众号