Schuster承认,他并不知道他们是否能够使它变得足够快。他记得在餐室中他曾对Chen说:“肯定有一些我们不知道的东西能使它变得足够快,但我不知道它是什么。“
不过,他知道他们需要用更多的计算机——更多的图形处理器来重新配置神经网络进行训练。
Hughes去问Schuster的想法:“我们是不是应该要求一千台GPU?”
Schuster回答,“为什么不是2000台?”
十天后,他们拿到了新加的2000个GPU处理器。
到4月份,原来的三人阵容已变成超过30人。其中一些人,如Le,来自Google Brain;也有许多人来自Google Translate。5月,Hughes为每对语言配置了一种临时主管,每个主管都将进展结果录入一个大型共享的绩效评估电子表格。任何时候,都有至少20个人正在进行他们自己的独立的、长达一周的实验和处理意外问题。有一次某个模型开始毫无理由地把所有的数字从句子中剔除。经过了几个月才解决这个问题。“人们几乎气得要大吼。”舒斯特说。
到春季末期,各组的工作都聚集在一起。团队引入了一些诸如“word-piece”模型,“coverage penalty”,“length normalization”之类的东西。Schuster说,每个部分都把结果改进了几个百分点,但合起来它们有显著的效果。一旦模型被标准化,它将是一个单一的多语言模型,将随时间而改进,而不是目前使用的150个不同的翻译模型。不过,当创造一个工具通过机器学习来实现普遍化时,实现自动化的过程总是需要超出寻常的人类天分和努力。这个项目也是如此:每层要多少神经元?1024还是512?要多少层?一次运行多少句子?训练多久?很多决定都依赖内心深处的直觉。
“我们做了数百次实验,”Schuster告诉我,“直到有一天我们知道,我们可以在一个星期后停止训练。你总是会问:我们什么时候能停下来?我怎么知道我完成了?你永远不知道你做完了。机器学习的机制从来不是完美的。你需要训练,在某些时候你必须停止。这是这个系统的一个非常令人痛苦的特质。对一些人来说这很难。这是有点像艺术,像用画笔作画。有些人做得更好,有些人做的比较糟。“
到5月份,Google Brain团队了解到,他们唯一能够使系统作为产品快速实现的方法是,在T.P.U.上运行Dean所要求的专用芯片。正如Chen所说:“我们甚至不知道代码是否能工作。但是我们知道如果没有T.P.U.,肯定是干不成的。“他记得,他们曾经一个接一个地去向Dean请求,”请为我们保留一些T.P.U.的份额。“Dean为他们保留了份额。然而,T.P.U.无法顺利工作。Wu花了两个月坐在硬件团队的人的旁边,试图找出这是为什么。他们不只是调试模型,他们也调试芯片。神经翻译项目将成为对这整个基础设施投资概念的一个验证。
6月的一个星期三,Quartz lake办公室的会议上,人们对百度发表在领域核心期刊上的一篇文章议论纷纷。Schuster让会议室恢复了秩序。“是的,百度出了一篇新论文。感觉就像有人看透了我们做的东西——论文有类似的结构,类似的结果。“百度公司的BLEU分数基本吻合Google在2月和3月内部测试中取得的成绩。Le并未感到不快。他的结论是,这是一个迹象,表明谷歌是在正确的轨道上。“这个系统与我们的系统非常相似。”他安静地说。
Google团队知道。如果他们早些时候发布了他们的结果,可能会打败他们的竞争对手,但正如舒斯特所说:“启动产品比发布论文更重要。人们会说,'哦,这个发现是我先做到的。”但到了最后,谁会关心呢?'"
然而,这确实要求他们必须更好地研发自己的翻译服务。Hughes希望,他们甚至不用告诉用户他们已经更换了系统。他们只需等待,看看社交媒体是否会发现这些巨大的改进。
“我们不想说这是一个新的系统,”他告诉我。劳动节之后第二天下午5:36,他们向10%的用户推出了中文到英语的神经翻译服务,没有将切换告诉任何人。“我们想确保它能行得通。最理想的情况是,它在Twitter上引起了爆炸:'你看过谷歌翻译有多棒吗?'”
8.庆祝
在缺乏季节感的硅谷,只有两个感知季节的方法,一是小厨房里水果的变化——仲夏时期是杏李,早秋换成梨和柿子——二是技术进步的曲折。9月下旬一个天气温暖得让人不自在的周一下午,团队的论文终于发布了。论文有31位作者。第二天,谷歌大脑和翻译团队的成员们聚在一起,在翻译部门的小厨房开了一个小小的庆祝会。
夏威夷风格的小厨房的一面墙是一幅有纹理的海滩照片,以及一个小小的装饰着花环的茅草屋似的服务台,中间有一只毛绒鹦鹉,天花板上挂着纸灯笼一样的装饰。那天早上,他们庆祝翻译团队成立十周年,有许多已经在新部门的前团队成员过去了。某种程度上,他们也是庆祝十年的合作努力,在那一天终于得以中途休息。两个团队的工程师和计算机科学家们似乎都很高兴。
“这就像在泥海里游泳,目之所及只有这么远。”Schuster伸手在胸前比划了大约8英寸。
谷歌的神经翻译终于成功了。在庆祝会之前,团队已经测试了1800万条汉英翻译。翻译团队的一位工程师拿着手机到处跑,试图用百度翻译测试汉英整句翻译。任何人听他讲话他都很高兴。他说:“如果同时输入两个以上的字符,它就会超时!”(百度说从来没有用户报告过这个问题。)
消息传得很快,接下来的几周,谷歌已经将神经翻译引入到谷歌翻译的中译英。有些人猜测这是谷歌取得好结果的唯一的语言对。但当时庆祝会上的每个人都已经知道,他们所取得的成就将在11月公之于众。不过到那时,团队的许多人可能已经进入其他项目。
Hughes清了清嗓子,走进这间夏威夷风情的小酒吧。他穿着一件褪色的绿色polo衫,领子有点皱,腹部位置染上了暗色的汗渍。他说,最后有一个问题,然后是最最后还有一个问题,说了论文中存在的一个严重的测试误差,以及系统中有一个奇怪的与符号有关的bug。但一切都解决了,或者至少是暂时已经解决了。庆祝会上人们都安静了。Hughes开会非常高效,他对唠唠叨叨或者一面之词的容忍度很低,但场面的严肃让他停下来。他承认他可能是在比喻,但他认为强调事实很重要,他说,神经翻译项目本身就是“使用不同语言的团队成员之间的合作”。
他继续说道,神经翻译项目是一个“向前的阶跃”,即一种并不连续的进步,是垂直的飞跃,而不是平滑曲线式的进步。与翻译相关的不只是两个团队之间的合作,而且是从理论到现实的实现。他举起香槟:
“为了沟通,”他说,“以及合作!”
工程师们聚在一起,互相看看,发出略显慎重的欢呼声和掌声。
Jeff Dean与Corrado和Schuster一起站在小厨房的中央,他的手插在口袋里,肩膀微微内耸。Dean注意到他的在场令气氛有些凝重,他以非常有他的特点的低调方式,轻快、简洁地补充了一句。
他说,他们同时做成了两件事:“做研究,以及,我估计,在5亿人之前做成了。”
大家都笑了,不是因为这句话夸张了,而是因为它一点也不夸张。
结语:会说话的机器
也许历史上最有名的对人工智能的批判,或者说是以它的名义的断言,即暗示了翻译的问题。1980年伯克利哲学家John Searle提出“中文房间”(Chinese Room)实验,借以反驳强人工智能的观点。在Searle的思想实验中,一个对汉语一窍不通,只说英语的人被关在一间只有一个开口的封闭房间中。房间里有一本用英文写成的手册,指示该如何处理收到的汉语讯息及如何用汉语相应地回复。房外的人不断向房间内递进用中文写成的问题。房内的人便按照手册的说明,查找到合适的指示,将相应的中文字符组合成对问题的解答,并将答案递出房间。房内的人很快就熟悉手册指示的内容,他的答案也很快变得“与中文母语者的难以区分”。难道房内的人“理解”了中文吗?Searle认为显然不是。
在上述过程中,房外人的角色相当于程序员,房中人相当于计算机,而手册则相当于计算机程序:每当房外人(程序员)给出一个输入,房
本文来源:不详 作者:佚名