获得这种元解决方案可能仍然有数十年的路要走,但是它似乎正在不可避免地渐渐来临。2015年2月,全球顶尖的科学杂志《自然》在封面上刊登了像素游戏“太空侵略者”的图片,配以“自我学习的AI软件”已经获得了“人类级别的视频游戏表现”的概述。翻开这期杂志,这篇来自DeepMind的论文描述了第一个成功的通用“端到端”学习系统,其中他们的人工代理(agent)——图像处理单元上一个被称作Deep-Q网络的算法——学会了如何处理屏幕上的一个输入,理解这个输入的意义,然后做出决策来达到希望的结果(在这个例子里,就是成为精通许多经典雅达利2600游戏(包括太空侵略者、拳击、和Pong)的超人)。这个突破在科技界一石激起千层浪。
随后,在上个月,DeepMind第二次登上了《自然》杂志封面——在如此短的时间内第二次登上封面本身就是一件值得称道的事了。这次,它略过70年代和80年代的复古街机游戏,回溯到更久以前选择游戏。围棋,这种来自中国的深奥的策略游戏,已经有超过2500年的历史,连孔子的作品中也提到过围棋。围棋的分支因子非常庞大,它可能的行动步数超过了宇宙中的原子数量,并且,与象棋不同,它不能通过暴力计算来破解。它非常棘手,也不可能为它写出一个评估函数(通过一组规则来告诉你谁在某个位置的输赢以及输多少赢多少)。取而代之的是,围棋需要旗手具备某种类似“直觉”的东西:当被问起为何做出某个落子的决定时,专业旗手们往往说出类似这样的话:“这样做感觉比较对。”
很显然,计算机一直以来在做这种判断方面都不太在行。因此,对于AI来说,围棋始终被视为“不同凡响的伟大挑战”之一,大部分研究者预期至少还需要10年才能看到机器破解围棋的希望。
但是经过严格的同行评审的证据就摆在面前:DeepMind的最新人工智能算法,AlphaGo,已经在去年秋天的一场秘密赛事中以5比0的成绩完胜蝉联三届欧洲围棋冠军的樊麾,并且将在之后的3月于世界围棋冠军李世石对战。“一个让人震惊的成就”,帝国理工学院认知机器人学教授Murray Shanahan这样向我描述这件事。“一个重要的里程碑”,超人类主义哲学家Nick Bostrom表示了赞同,他在《超级智能:路线图,危险性与应对策略》一书中曾写道,如果能够完成AGI,这将会是一个无与伦比的事件——也许,借用谷歌工程主管Ray Kurzweil的话来说,甚至称得上是“撕裂人类固有的历史结构(a rupture in the fabric of history)”。在Bostrom位于牛津大学人类未来研究所的办公室中,他告诉我,AlphaGo的出现“让过去几年间机器学习领域的进展一下子变得引人注目起来”。
“这相当酷,当然,”Hassabis同意道。当时我们约在他的办公室见面,讨论最近的这场胜利。像往常一样,他穿着不伦不类的黑色上衣、裤子、以及鞋子:你觉得他是一个实习生也无可厚非,虽然据传谷歌的收购让他个人获益8000万欧元。“围棋就是终极:它是所有游戏的顶峰,需要的智力深度(intellectual depth)也最高。它让人目眩神迷,而令我们感到激动的不只是我们掌握了这个游戏,还有我们在其中使用的神奇有趣的算法。”比起科学,下围棋更像一种艺术,他坚持道,“而AlphaGo的下棋方法与人类非常像,因为它是像人类一样学习围棋、接着通过不断下棋变得日益强大的,就像你我会做的那样。”Hassabis可能看上去还像个学生,但是他现在笑得像是为孩子感到自豪的家长。AlphaGo是他在职业生涯中获得的最让人兴奋的成就。“这个量级超出了任何人的想象,”他对此津津乐道,“不过对于我们来说,最重要的是,这不是一个使用手工打造的规则的专家系统。使用通用用途的机器学习技术,它自己学会并精通了这个游戏。最终,我们希望将这些技术应用于中药的现实世界的问题上,比如气候建模或是复杂病症分析,对吧?所以开始想象它可能下一步会解决什么问题是非常激动人心的。”
“气候建模,复杂病症分析——开始想象它可能下一步会解决什么问题是非常激动人心的。”——Demis Hassabis
我第一次见到Hassabis是在2014年夏天,那是DeepMind被收购之后几个月。从那时起,我一直观察着他在各种各样的环境中工作,在过去的8个月里也曾在不同情况下对他进行了3次正式采访。这段时间里,我看着他从一个谷歌的AI天才逐渐成长为一个言辞凿凿的沟通者,找到了有效的方式向我这种非科学家描述他那极其复杂的工作——他对那些工作热情洋溢——以及为何他的工作是重要的。他用词质朴而易懂,非常擅长深入浅出地讲解DeepMind使用的方法——也就是结合旧有和全新的AI技术——比如,在围棋中,使用了传统的“树搜索”方法来分析落子效果,以及新颖的“深度学习网络”(它模拟了大脑中的神经元网络)——还有他们对不同领域AI研究的方法学“联姻”。
在DeepQ中,他们将深度神经网络与“强化学习”相结合,强化学习是所有动物都用到的、通过大脑中多巴胺驱动的奖励系统进行学习的方法。在AlphaGo中,他们更进一步,增加了另一个更深度的强化学习,用来处理长期规划。下一步,他们将会整合其他的,比如说记忆能力,以及其他的东西——直到理论上所有的智力里程碑(intelligence milestone)都就位。“我们在这些能力的数量方面有一个想法,”Hassabis说道,“结合所有这些不同的领域会是一把钥匙,因为我们有兴趣的是能够将在某个领域中学到的东西应用到另一个领域中的算法。”
这听上去有一点像人类自身。对于他简历的第一印象可能是他对一切都一知半解的好奇心,从棋盘游戏到视频游戏到计算机编程到认知神经科学,更不用说人工智能了。事实上,他能取得今天的地位是因为聚焦于一点:将他强大的、几十年一遇的智力与他毕生钻研的那些领域精心结合。(简要重点回顾:8岁编写自己的计算机游戏;13岁国际象棋达到大师水平;17岁创造最早的包含AI的游戏之一“主题公园”;20岁从剑桥大学获得计算机科学双重一级荣誉学位(double first);不久之后创办自己的开创性视频游戏公司Elixir;在2011年创办DeepMind之前一直在被誉为“拼图的最后一块”的海马体和情节记忆方面进行开拓性的学术研究)
“我很容易感到厌倦,而这个世界是那么有趣,有那么多很棒的事情可以做,”他承认(他也保持着蝉联5届脑力奥林匹克运动会全能脑力王(Pentamind)称号的纪录,脑力奥林匹克运动会中,参赛者们通过各种游戏
本文来源:不详 作者:佚名