一位女性从事人工智能研究,且已有 20 多年,在中国甚至全球并不多见,复旦大学计算机科学技术学院教授黄萱菁就是其中一位。
今年 3 月 24 日,因疫情在家备课的黄萱菁突然收到学院党委副书记沈安怡的消息:“福布斯中国和学校联系,希望能推荐一位女科学家参评福布斯中国科技女性榜”。学校和学院能在第一时间想到她,让黄萱菁挺意外。不负众望,3 个月后,她的名字出现在了 2020 福布斯中国科技女性榜单上。共 50 位杰出女性中,只有包括 48 岁的黄萱菁在内的两位教授从事人工智能相关研究。而就在今年 “三八妇女节”,黄萱菁还入选了清华大学—中国工程院知识智能联合研究中心发布的人工智能全球女性榜单。
谈及科学研究之路,黄萱菁常挂在嘴边的一句话是:“我的研究领域偏基础理论,有用无用的都做。” 在她看来,无用的东西可能在未来十年或二十年就有用了。这是黄萱菁亲身经历后的感悟。
像是实验室里的 “玩具”
高考后,抱着对计算机的兴趣,黄萱菁填报了复旦大学计算机科学系。从兴趣开始,黄萱菁慢慢地喜欢上了科研。
复旦大学首席教授吴立德是黄萱菁的导师,是国内最早一批从事计算机视觉研究的学者,其研究方向正是围绕人工智能布局。这一方向在当时还是冷门,“那些年的计算机专业毕业生大多数都去企业从事信息系统开发,人工智能方向的就业机会非常稀缺”。
黄萱菁是吴立德较早攻读自然语言处理的博士生之一。据黄萱菁介绍,吴立德一直认为,让计算机 “计算” 并不困难,但让计算机像人类一样,发展视听觉和语言能力,感知客观世界,进行推理决策,更有挑战性,足够穷尽几代研究者的毕生精力。
在那时,计算机软硬件水平、人工智能算法水平等还相对落后,训练数据稀缺,短时间内也无法解决人工智能的实际问题,且要攻克这一难题极具挑战。“无论是自然语言处理还是计算机视觉,都像是实验室里的 ‘玩具’。”
黄萱菁开始学术生涯之际,正逢自然语言处理研究的范式发生了重大变革,学术界不再像过去那样,在一个受限的任务上精雕细刻,试图让自然语言处理算法像人类一样进行完全的理解与推理,而是希望利用统计方法,在海量数据上发挥机器的计算能力,为机器翻译、文本搜索等具体任务提出实现方案,减轻人类负担。
在吴立德的指导下,黄萱菁逐渐开展了自动文摘、文本分类和信息检索等研究,提出了一系列计算机算法。
“当时涌现的另一个新趋势是对于数据和评测的重视,公开数据、第三方测评和之后的交流研讨有助于研究者们对各种算法进行客观比较,学习他人的长处,你追我赶,共同促进技术进步。” 而黄萱菁所在的团队是国内最早参加国际权威的文本检索会议的机构之一,在文本过滤、自动问答等任务的评测中先后取得了全球前三名的好成绩,逐渐增加了国内外学术影响力。
近几年,黄萱菁又逐渐把研究方向转向自然语言处理的基础工具,研究新的机器学习、深度学习算法,试图改进中文分词、命名实体识别、句子结构分析、语义表示等工具的性能。
“这些工作虽然相对更基础,不像文本检索、机器翻译那样直接 ‘有用’,但一定会带来下游任务性能的进一步提升。“黄萱菁说。
这些年,人工智能已在教育、医疗、交通、金融等领域显示出巨大的应用潜力,各国也纷纷制订人工智能在相关行业应用战略和路线图。20 年前,黄萱菁根本想不到人工智能如此炙手可热。
需要就能用得上
今年福布斯中国推出的中国科技女性榜特别关注了这次抗疫中的科技女性力量。“复旦大学黄萱菁利用话题分析、用户建模等自然语言处理技术,挖掘疫情期间重要舆情信息及其演化态势,联合新闻传播领域的专家为舆论引导提出了对策和建议。” 在福布斯官方微信公众号的简要介绍中,特意提到了黄萱菁及其团队的工作。
这项工作要追溯到 2018 年,复旦大学承担上海市科委的一个重大项目 “基于类脑人工智能的舆情系统”。黄萱菁所带领的自然语言处理团队是其中一支主要技术力量,负责研究舆情热点识别和人物画像算法,而许多相关技术就是黄萱菁从学生时期开始慢慢积累的。
当新冠肺炎疫情到来时,黄萱菁研究的内容就派上用场了。正值春节假期,黄萱菁和几位老师接到任务后立即组织团队,先从微博的数据流中,快速发现与疫情相关的有价值的话题,并给出热度评估。
微博的数据非常多,且杂乱,让黄萱菁团队非常头疼。“即使定位出与疫情相关的微博,也比想象地要困难。” 为此,黄萱菁团队联合复旦大学新闻学院专家,对检索词进行设计,并依据系统返回的结果对检索词进行修正。
随后,研究人员采用情感分类方法和深度学习模型,对微博内容进行正负面分类,了解整体的情感走势。紧接着,基于不同类型的人群的微博情感分类,对不同群体的情绪变化进行监控。
“这样精细化的分析,对于有针对性地制定政策以及疏导情绪是很有价值的。” 黄萱菁在研究过程中发现,个体经营者的情绪会伴随着疫情的发展而不断走低。“这说明,到封城的中后期,复工复产成为政府需要考虑的重点。” 最终,他们对整个舆情走势进行智能分析,形成了一份舆情大数据分析报告并提交给上海市科委。
在整个研究过程中,黄萱菁及其团队也有很多的怀疑。诸如,模型结果是不是真实反映了舆情走向?算法的准确率毕竟不是百分之百,中间的噪音会不会对最后的结果产生定性的影响?……“我们是没有把握的。” 不过黄萱菁认为他们很幸运,“我们有新闻传播和网络空间治理的专家一同工作,他们在结果分析及建设性的提法,都给我们带来更多看问题的角度和继续提升模型性能的信心”。这一过程,让黄萱菁再一次感受到交叉课题研究的意义所在。
“平时的研究工作可以在这个关键时刻发挥作用,尤其在国家级甚至是世界范围的灾难面前,作为学者可以参与到问题的解决当中,贡献我们的所学,是很欣慰的。” 黄萱菁告诉《中国科学报》。
但黄萱菁也深知,“我们做的事情,其实离真正的疫情一线还是有一段距离的”。
把理念传给学生
因为这次的任务较特殊,黄萱菁从正月初五就开始集结团队成员开展工作,比以往早了十多天。“第一次通知开会时,我们几个老师都比较忐忑,毕竟在春节假期招呼学生工作有点于心不忍。” 不过,老师们在群里一喊,学生都很积极,跃跃欲试。
作为 60 余人规模团队的负责人,黄萱菁兼具各种身份。即使需要操心各种事情,但她始终没忘记教师这一身份—教书育人。作为 3 门本科生课程的任课教师,黄萱菁对课程教学尽心尽责。以为全校本科生开设的通识教育课程—计算思维为例,她探索翻转课堂等教学手段,深入浅出地为同学们讲解算法、数据结构的一些基本概念,让学生感受到了很多学习乐趣,启发了他们的思考。
作为研究生导师,黄萱菁统筹协调整个团队对学生的培养进度。“不明确规定学生该做什么。” 黄萱菁表示,在产出方面,她对自己和学生的要求一样,即态度足够认真、过程足够努力即可。
每当学生在学习或生活上遇到问题时,黄萱菁总能及时发现,指点迷津。在黄萱菁指导下,2014 级博士生刘鹏飞以其在 “自然语言处理与深度学习” 上取得了突出成绩,先后获得百度奖学金、IBM 全球博士生英才计划奖、微软学者奖学金、腾讯人工智能奖学金等。
谈及黄萱菁对他的帮助,刘鹏飞表示:“黄老师总是在投稿前帮我耐心地修改,鼓励并推荐我去参评荣誉奖项。尤其是上百页的博士论文,她几乎逐字阅读并写下了详细的修改建议,非常感动!” 在黄萱菁看来,做科研,既要有耐心也要有平常心。接下来,她希望能通过学科交叉与融合,为语言学、传播学的研究插上计算的翅膀;通过与生物医学的交叉,为自然语言处理研究找到更多神经科学、认知科学的依据。
除此之外,黄萱菁还有一个想法:“鼓励更多女性参与到计算机科学、人工智能的研究之中,并从中获得乐趣。”
作者:秦志伟 来源:中国科学报