摘要:
随着移动互联网的普及和人工智能的兴起,基于语音的交互方式已经变得方便且重要,从苹果的 Siri 到微软的 Cortana,从 Amazon 的 Echo 到 Google 的 Google Home,智能语音技术开始走进千家万户。其中,语音识别作为整个语音交互闭环的入口,地位不言而喻。目前,语音识别在很多近场且较为安静场景下性能已经基本可用;然而,在强噪声、人声干扰、远场等条件下,较低的信噪比使得语音识别系统性能极具下降,从而也直接影响整个语音交互的体验。本报告将主要介绍近两年,上海交通大学智能语音实验室在基于深度学习方法的抗噪鲁棒语音识别方面一些最新进展,包括结构化的特征降噪,模型的环境感知自适应,以及具有自主降噪机制的极深卷积神经网络设计等。并给出在加性噪声,信道失真,以及远场回声等各种条件下的实验结果对比。
钱彦旻:
上海交通大学计算机科学与工程系副教授,上海交大-思必驰联合实验室副主任。清华大学博士,英国剑桥大学工程系 MIL 机器智能实验室博士后,上海市青年英才扬帆计划获得者。现为 IEEE、ISCA 会员,同时也是国际开源项目 Kaldi 语音识别工具包的 13 位创始成员之一。担任 InterSpeech, ISCSLP 等国际会议的 TPC 委员;IEEE TASLP, IEEE JSTSP, IEEE SPL, ICASSP, InterSpeech 等期刊和国际会议审稿人。有 10 余年从事智能语音及语言处理、人机交互、模式识别及机器学习的研究和产业化工作经验。在本领域的一流国际期刊和会议上发表学术论文 60 余篇,Google Scholar 引用总数超 1600 次,申请多项专利,合作撰写和翻译多本外文书籍。作为负责人和主要参与者参加了包括国家自然科学基金、国家 863、英国 EPSRC 等多个项目;所负责搭建的多类别复杂广播语音处理系统在 MGB2015 国际竞赛中获得语音识别,说话人分割聚类等全部 4 个单项的世界第一。2014 年,因在智能语音技术产业化方面的贡献,获得中国人工智能学会颁发的 “吴文俊人工智能科学技术奖”。目前的研究领域包括:语音识别,说话人和语种识别,语音情感感知,自然语言理解,深度学习建模,多媒体信号处理等。