近年来,自动语音识别(Automatic Speech Recognition,ASR)技术突飞猛进。所谓自动语音识别包含了平时说的电脑语音输入。它作为人工智能领域中较为成熟的一项技术,基本上已经帮助我们实现了“出口成章”的愿望。
例如,2016年9月,浙江省高等法院已经开始使用自己研发的智能语音识别系统进行庭审记录,并且这套系统会针对法律文书习惯进行自动纠错。同年底,来自科大讯飞公司全新的语音输入系统,在噪声环境下的响应速度超乎大家的想象,准确率达到97%。与此同时,百度和搜狗开发的语音识别系统在技术指标方面,与科大讯飞不分伯仲。
如此惊人的准确率基本可以匹敌人类的水平。这完全得益于重新回归整个工业界视野的“解冻”技术——深度学习。深度学习的核心是构建一个深度神经网络。一个简单的神经网络一般是由点、边和层级来描述的。其中,网络的点就是大脑神经元,网络的边就对应着神经元之间的相互连接,层级可以理解为近似表示不同大脑功能区。所谓的深度学习,可以理解为是通过构建多个层级的点和边来描述不同大脑功能区内部及之间的神经元连接,通过大量数据训练(驱动),描述一些抽象的信息在大脑中的传递。这种模型训练(驱动)的模式类似于一个小孩开始学习周围环境的知识。
但是,深度学习或者说神经网络的发展并不是一帆风顺的。在隐马尔科夫模型和贝叶斯模型占据语音识别技术制高点的时期,这种技术在工业界的应用并没有得到太多的表现。受制于模型学习时间长、硬件加速困难以及所需训练数据量过大,基于神经网络的语音识别一时出现了“冷冻期”。甚至在较长的一段时间,国内外与之相关研究经费都在被削减。但大约在2006年以后,三个重大改变助力了这项技术的崛起:
第一,图形处理器(GPU)在硬件层面大大地提高了模型的训练速度;
第二,国内外科技大公司和研究机构(如百度、科大讯飞、微软等)在前期投入大量人力对大数据的获取和标记,已经形成了大数据的规模,互联网近十年来积累的数据量是爆炸式的;
第三,针对多层级的神经网络模型的训练,一些预训练(pre-training)和调试技巧被开发出来。
此外,各个主力研究机构的软件开源也大大降低了他人在系统开发上的时间成本和技术门槛,这也促进了深度学习快速发展。
在语音识别领域,目前表现较为优异的深度学习模型应该是递归神经网络。训练这种模型的本质就是通过前一个时期和此时此刻的信息,预测下一个时期的信息。这就好像是每天课堂上老师会让学生重复一下前一天的上课内容,并在当天课后给出下一节课的内容。通过这种“巩固—学习—预习”模式,这种模型不仅可以学到一段语音的语言模型(语言的上下文),还能学到语音信号中的连续变化,例如发音动作的连续改变。像科大讯飞的语音识别系统基本也是在这个基础上再进行开发的。
但是,目前语音识别系统的开发还存在几个急需要攻克的难点:
一是自然语言理解(语义理解)。人类可以通过说话者的表情、手势以及说话语气推测说话人的语义,但这个平常我们无时无刻不在使用的技能,要让计算机学会可不是件容易的事情。
二是口音和方言对语音输入识别的影响。不同人的说话风格(例如咬字、吞音等现象)以及语法使用的不规则性也会大大降低人机交互的效率和准确性。在中国,汉语方言对语音识别是一个不可避免的影响。中国的汉语方言差异可以和印欧语系中不同语族的差异相提并论。方言在语音、词汇和语法结构上的多样性对语音识别产生了较多阻碍。幸运的是,国内诸多科技公司已经开始着手建立汉语方言的语音数据库,并在此基础上获得了一些突破性进展。
三是场景声音的识别。远场的语音环境或者较大噪声的环境都会削弱语音信号中具有辨识意义的信号,这会导致语音识别的失效。据不完全统计,在噪声环境中的车载系统语音识别上,国际上最优秀的语音识别系统的识别率也仅有86.9%,第二名的识别率只有74%。
四是期望使用更少的数据。语音识别所依赖的深度学习技术还需要大量已标记的语音数据进行训练和驱动,但是这类数据的标记是一个耗时耗力耗财的工作。目前只有极个别的研究机构以及科技巨头具有这样的数据量。如何使用更少的数据获得一个可靠的语音识别系统会是下一个发展目标。
作为一种新的面向人工智能的交互方式,语音识别或者语音输入已经在输入法上得到广泛应用,使得手机文字输入可以摆脱对双手的依赖,转而使用最自然的方式进行语言的表达和输出信息。这已经开始改变年轻一代用传统键盘输入的习惯。在搜狗公布的2016年语音输入使用报告中,80后和90后年轻人已经成为该技术的主要用户群体。虽然语音识别已经展现了超越键盘输入法的优势,但是这种技术对于使用者的使用环境有着较多的要求,应用场景往往受到限制。
未来,随着人工智能技术的不断发展、使用人群的逐步扩大及用户习惯的日益养成,语音输入的应用领域还将持续扩大。
(作者:张梦翰 系复旦大学生命科学学院博士后研究人员)