美国《连线》杂志网络版今天撰文称,虽然神经网络技术早在上世纪80年代就已经成为热门领域,但后来却逐渐沉寂。然而,随着新模式的涌现和GPU的发展,加之谷歌、微软和IBM等科技巨头的关注,这一领域又再度炙手可热。
以下为文章全文:
神经网络
谷歌开发最新一代Android移动操作系统时,这家网络巨头对该系统解读语音指令的方式做出了一些重大调整。它安装了一套以“神经网络”为基础的语音识别系统,也就是一套模拟人脑的计算机学习系统。
在很多用户看来,结果显而易见,其中就包括参与该项目的谷歌研究员文森特·范好克(Vincent Vanhoucke)。“只是对模型进行了调整就能实现这么好的效果,的确令人惊讶。”他说。
范好克表示,新版Android系统(果冻豆)的语音错误率比上一代系统下降了约25%,提升了语音指令的用户满意度。他表示,用户更愿意在发出语音指令时使用更自然的语言。换句话说,他们的行为已经不那么像是在跟机器人对话了。“这确实改变了人们的行为方式。”他说。
神经网络算法极大地改变了科技运行模式以及我们使用科技的模式,而语音指令只是其中的一个例子。虽然早在1980年代就已经成为最热门的研究领域之一,神经网络近年来却逐渐沉寂。不过,随着谷歌、微软和IBM争相探索这一技术的实用价值,该领域又再度炙手可热。
语音分析
当你与Android语音识别软件对话时,你的声谱会被分割,然后发送到谷歌庞大服务器网络中的8台电脑上,再利用范好克和他的团队开发的神经网络模型对数据进行处理。谷歌恰好非常擅长分割庞大的计算任务并快速处理数据。而为了研究具体方法,谷歌把任务分配给了杰夫·迪恩(Jeff Dean)和他的工程师团队,该团队最知名的贡献是重塑了现代数据中心的工作模式。
神经网络为范好克这样的研究人员提供了一种方式,帮助其研究多种多样的形态——在果冻豆中,则是用户语音的声谱图——然后预测可能会呈现何种全新的形态。这种比喻源于生物学,机体内的神经元与其他细胞构成了一个网络,使之能以专门的方式处理信号。在果冻豆使用的神经网络中,谷歌可能会分析现实世界中的庞大数据,从而制作多种模型来描绘语言的工作方式——例如,其中一种可以处理英语发出的语音搜索请求。
“人们很早以前就相信——部分源于你在大脑中看到的内容——要获得优秀的感知系统,就需要利用多个功能层。”多伦多大学计算机科学教授乔弗利·辛顿(Geoffrey Hinton)说,“但问题在于,如何高效地学习这些内容。”
Android首先拍摄下语音指令的图像,之后由谷歌使用其神经网络模型分析用户所说的内容。
谷歌的软件首先会尝试了解语音中的每个独立部分——即组成单词的不同元音和辅音。这是神经网络的一个层。随后再使用这些信息展开复杂的猜测,每深入一层,其猜测的结果都会更加接近用户的真实语义。
神经网络算法还可以用于分析图片。“你希望在像素中寻找一些结构片段,例如,图片中的一个边缘。你或许拥有一个特征探测器层,可以探测小边缘这样的事物。当探测完成之后,还会有另外一个特征探测器层,可以探测边缘的组合,例如一些边角。一旦完成,还会再来一层,如此反复持续下去。”辛顿说。
技术进步
神经网络早在1980年代就号称可以实现类似的功能,但要做到辛顿所描述的这种分析模式却很困难。
但2006年却出现了两大重要变化。首先,辛顿和他的团队找到了一种更好的方式来规划深层神经网络——这种网络可以具备多个不同的联系层。其次,低价GPU面市使得学术机构拥有了更加廉价而快速的方式来处理数十亿次计算。“这带来了巨大变化,因为我们的计算速度一夜之间提升了30倍。”辛顿说。
如今,神经网络算法正在逐步渗透到语音识别和图形软件中,但辛顿认为,这种技术可以用于任何需要进行预测的领域。去年11月,多伦多大学的一个团队利用神经网络预测出药物分子在现实世界中可能的作用方式。
迪恩表示,谷歌现在正在多款产品中使用神经网络算法——有些只是尝试,有些不是——但进展都不及果冻豆的语音识别软件。“图片搜索领域显然也有利用价值。”他说,“你肯定希望使用图片中的某些像素来确定这究竟是什么物体。”谷歌街景也可以利用神经网络算法来区分其拍摄的不同物体之间有何差异——例如,一栋房子和一个牌照。
有人或许觉得这项技术与普通人无关,但请注意以下的案例:包括迪恩在内的谷歌研究人员去年开发了一套神经网络,可以通过自学认出YouTube视频中的猫。
微软和IBM也在研究神经网络。去年10月,微软首席研究馆里克·拉什德(Rick Rashid)在天津展示了一款基于神经网络的语音处理软件。在展示过程中,拉什德用英语演讲,每一句都会停顿一下。令观众惊喜的是,微软的软件会同步将他的话翻译成中文,然后“说”出来。这款软件甚至可以自动调整音调,模仿拉什德的声音。