科技自媒体 / 龚进辉
11月28日,百度大脑语音能力引擎论坛在京召开。现场百度CTO王海峰公布百度语音技术日调用量破100亿,国内第一。
百度CTO王海峰
随后,百度语音首席架构师贾磊发布智能语音交互新技术——“基于复数卷积神经网络(Convolutional Neural Network,CNN)的语音增强和声学建模一体化端到端建模技术”,颠覆了传统基于数字信号处理的麦克阵列算法,这无疑为语音领域注入一股新动能。
早在2012年,百度将深度学习技术应用到中文语音搜索中。现在,百度APP、国内出货量第一的智能音箱…都搭载了百度语音技术,百度语音技术还广泛应用在各行各业。
百度语音首席架构师贾磊
贾磊现场披露了大量语音领域的技术细节。他分享到,百度提出的基于复数卷积神经网络(Convolutional Neural Network,CNN)的语音增强和声学建模一体化端到端建模技术,抛弃了数字信号处理学科和语音识别学科的各种先验假设,消除学科间壁垒,直接端到端进行一体化建模。相较于传统基于数字信号处理的麦克阵列算法,错误率降低超过30%。据公开资料显示,国际上采用类似思路方法的相对错误率降低仅为16%。目前该方法已经被集成到百度最新发布的百度鸿鹄芯片中。端到端、跨学科、大数据驱动,百度在语音前沿领域无疑做了大量工作,而这次在语音算法上的创新突破无疑是给行业注入了一剂兴奋剂。
众所周知,远场语音识别是目前语音领域极为关注和致力解决的问题。用户站在3米甚至5米远处与智能音箱对话就是一个典型的远场语音识别应用场景。在远场环境下,目标声源距离拾音器较远致使目标信号衰减严重,加之环境嘈杂,干扰信号众多,最终导致信噪比较低,语音识别性能较差。为了提升远场语音识别准确率,一般会使用麦克风阵列作为拾音器。利用多通道语音信号处理技术,增强目标信号,提升语音识别精度。
传统数字信号处理技术已经无法满足技术发展的需求,用深度学习技术来替代麦克阵列系统中的传统数字信号处理已经开始成为行业主流。但此前行业提出的解决方案需要和数字信号处理过程看齐的深度学习模型结构设计,严重影响了深度学习技术在该方向上的发挥和延伸,限制了深度学习模型的模型结构的演变,制约了技术的创新和发展。
此次,百度提出的基于复数卷积神经网络(Convolutional Neural Network,CNN)的语音增强和声学建模一体化端到端建模技术。该模型底部以复数CNN为核心,利用复数CNN网络挖掘生理信号本质特征的特点,采用复数CNN, 复数全连接层以及CNN等多层网络,直接对原始的多通道语音信号进行多尺度多层次的信息抽取,期间充分挖掘频带之间的关联耦合信息。在保留原始特征相位信息的前提下,同时实现了前端声源定位、波束形成和增强特征提取。该模型底部CNN抽象出来的特征,直接送入百度独有的端到端的流式多级的截断注意力模型中,从而实现了从原始多路麦克信号到识别目标文字的端到端一体化建模。整个网络的优化准则完全依赖于语音识别网络的优化准则来做,完全以识别率提升为目标来做模型参数调优。
该方法的成功,进一步揭示了深度学习技术在人工智能工业应用中的巨大潜力。同时揭示了端到端建模,跨学科的端到端建模,以及大数据驱动等技术方向,是深度学习下一步产业应用和效果提升的重要发展方向。
论坛上,搭载了该项语音技术的三款基于鸿鹄语音芯片的硬件产品全新发布:芯片模组 DSP芯片+Flash、Android 开发板DSP芯片+ RK3399、RTOS开发板DSP芯片+ESP32。此外,贾磊还描述了基于鸿鹄语音芯片的端到端软硬一体远场语音交互方案以及全新发布的针对智能家居、智能车载、智能IoT设备的三大场景解决方案。
纵观全球AI发展,百度语音在技术创新上一路领航。今年年初,百度提出截断注意力模型SMLTA,使得句子的整句识别率、方言的识别以及中英文混合的识别率显著提升,也是在全球范围内第一个实现了语音识别领域注意力模型的大规模工业在线产品落地。在语音合成领域,百度大脑同样令行业侧目。首创Tacotron+wavRNN联合训练,成为全球首个上线waveRNN技术的语音平台,大幅提升云端合成速度,语音合成的自然度几乎达到真人的效果。百度地图20句话即可录制语音导航的技术基于百度独创的风格迁移技术Meitron模型,特点主要体现在音色转换、多情感朗读和韵律迁移三个方面,从而让语音合成的门槛大大降低。
语音技术作为人工智能重要的感知层技术,是人机沟通的重要桥梁,也是未来AI发展的重要支柱。百度大脑作为百度AI的集大成者,在语音技术上不断发力,让人工智能在各行各业“张嘴、听话”,出行、搜索、家居、输入法……百度大脑的语音技术正加速落地。