1993年的一段视频演示,展示Yann LeCun卷积神经网络的早期版本,这个系统到20世纪90年代末处理美国所有支票的10%~20%。类似的技术现在用于驱动大多数最先进的图像识别系统。来源:Yann LeCun/YouTube/NYT
多层也即“深度”神经网络的问题是试错法部分非常复杂。单层的网络很容易,多层的训练起来就复杂了。Hinton和其他几个人发明了一个方法(或者说,改进了一个旧的方法)解决这个多层出错的问题,那是在20世纪70年代末到80年代,为此计算机科学家对神经网络的兴趣又短暂地复燃了一会儿。“人们对此非常兴奋,”Hinton说:“但我们把它夸大了。”于是,计算机科学家很快回到了认为像Hinton那样的人是怪人和神秘主义者的状态。
不过,这些想法在哲学家和心理学家之间仍然很受欢迎,他们称之为“连接主义”或“并行分布式处理”。尽管加拿大政府很慷慨,但就是没有足够的计算机力或足够多的数据。Hinton表示,支持我们想法的人不断说:“是的,只要有一个大的机器就会工作了,但这不是一个非常有说服力的论据。”
3.深度学习的深度解读
当Pichai在说谷歌将以”AI为先“时,他并不仅仅在描述公司的商业战略,也同时把这一长久以来都没有起到多大作用的概念扔给了公司。Pichai在资源上的分配保证了像Jeff Dean和Hinton之类的人,有足够的计算能力和数据,来取得可靠的进展。一个人类的大脑保守估计有1000亿个排列着的神经元。每一个神经元与10万个类似的神经元相连,也就是说,突触的数量在100万亿到1000万亿之间。对于20世纪40年代提出的一个简单的人工智能神经网络来说,即使要简单的复制这一网络都是不可想象的。我们现在离建造这样一个网络依然还有很远的路要走,但是,谷歌大脑的投资,至少可以让人工神经网络可以与大脑的某一切片功能相当。
要理解扩展性(Scale)为什么那么重要,你需要理解更多的细节,也就是,机器究竟对数据作做了什么?我们对AI的普遍性的恐惧,大都来源于认为它们会像一个神秘的学者一般在图书馆挖掘学习知识,然后,从前只会裁纸的机器或许有一天能像对待一只蚂蚁或者莴苣一样对待人类。但这并不是AI的工作方式。它们所做的全部事情都是搜索信息,寻找共同点,最开始是基本的模式,随后会变复杂,最后,最大的危险在于,我们所喂给它们的信息从一开始就是错误或者带有偏见的。
“知道什么”和“做什么”的权衡具有真正的文化及社会影响。在聚会上,Schuster走到我跟前,诉说向媒体解释他们的论文的挫折。他问我:“你看了最早出来的新闻吗?”他复述早报上的一个标题,一个字一个字地指着念:“谷歌说AI翻译已经与人类无差”。在论文即将完成的最后几周,团队没停下过奋斗。Schuster经常重复地向人解释,论文表达的是“谷歌翻译比以前好多了,但还不如人类好”。他表达的很明确,他们的努力不是说要替代人类,而是辅助人类。
4.识别猫脸的论文
在谷歌大脑成立的第一年到第二年间,他们让机器掌握一岁小孩的技能的努力幸运地达成了,所以,他们的团队也从谷歌X实验室“毕业”,转变为更大的研究机构。(谷歌X的主管曾经说过,谷歌大脑负担了所有X实验室的成本支出。)他们的人数在当时仍然少于10个人,对于最终会实现什么,也只有一些模糊的感觉。但是,即便是在当时,他们的思想也走在了前面,想着接下来会发生什么。人类的思维中,首先学习的是形状,比如说一个球,然后也会很舒服地接受所学到的知识,停留一段时间,但是迟早的电脑会需要问关于这个球的事,这就过渡到了语言。
在这一方向上,谷歌大脑做的第一件事是“识别猫”,这也是令谷歌大脑声名大噪的一件事。“识别猫”的论文展示的是,带有超过10亿个“突触”连接的神经网络,这比当时任何公开的神经网络模型都要大好几百倍,但是与人类的大脑相比,依然小了好几个数量级。这一神经网络能识别原始的、费标签的数据,并识别高难度的人类概念。谷歌大脑的研究者向神经网络展示了几百万帧静态的Youtube视频,然后,神经网络的感觉中枢开始运转,分离出了一个稳定的模型。和所有的小孩一样,这一模型能毫不犹豫地识别出猫的脸。
研究员从未把关于猫的先验知识编程输入到机器中,机器直接与现实世界交互并且抓住了“猫”这一概念。(研究者发现,这一神经网络就好像核磁共振成像一般,猫的脸部的阴影会激活人工神经元,让它们产生集体的唤醒。)
当时,绝大多数机器的学习都受到标签数据的数量限制。“识别猫”的论文展示了,机器同样能识别原始的非标签数据,有时候或许是人类自身都还没建立起知识的数据。这一研究看起来并不仅仅是让机器识别猫脸的巨大进步,对于人工智能的整体发展都有很大意义。
“识别猫”的研究第一作者是Quoc Le。Le又矮又瘦,说话轻柔但语速极快,他从小在越南长大,父母都是农民,小时候家里甚至都没有电。但是,他在数学上的天赋显然来自他的童年时期。20世纪90年代,他还在上学时,就曾经尝试开发聊天机器人。他在想,这会有多困难呢?
“但是实际上”,他告诉《纽约时报》的记者,“这非常难”。
随后,他离开了越南到澳大利亚的堪培拉大学学习,主要研究计算机视觉一类的AI任务。当时,这一领域使用的方法,是要给机器填入大量的关于事物的定义性概念,这让他觉得像是在作弊。Le当时并不知道,或者说不是清楚地知道,世界上另外一些地方至少有几十名计算机科学家和他一样,也同时在情不自禁地想象:机器是能够从零开始学习的。
2006年,Le在德国的马克斯普朗克研究所生物控制部门任职。在那里的一个读书小组中,他看到了Geoffrey Hinton的两篇论文,他觉得自己的双眼瞬间明亮了。
“当时有很大的争议”,他告诉我说,“非常非常大的争议”。他看了一眼自己画在白板上曲线,又轻声重复到,“我从来没有见到过那么大的争议。”
他记得自己在阅读小组中站起来,并说:”这就是未来。“他回忆说,在当时,这并不是一个很受欢迎的决定。他在澳大利亚的旧导师曾写邮件问他,”你为什么做了这个决定?“
”当时我并没有想到好的答案,我只是好奇”,他说,“(论文)提出了一个很成功的范式,但是老实说,我只是对这一范式感到好奇。”随后,他去了斯坦福,加入了吴恩达的团队,开始追求Hinton的理念。“2010年年底,我已经非常确信,会有一些事情发生了。”
随后,他到伦敦开始第一份实习,并完成了毕业论文,这也是“识别猫”的论文的前身。
在一个简单的层面上,Le想看看计算机是否可以被训练,从而自己识别对于给定图像绝对必要的信息。他给神经网络填入了一个他从YouTube采取的静态片段。然后他告诉神经网络丢弃图像中包含的一些信息,虽然他没有指定应该或不应该丢弃的东西。机器抛弃了一些信息,最初是随机的。然后他告诉计算机:“刚才是开玩笑!现在重新创建初始图像,你只是根据你保留的信息进行显示。“就像他要求机器找到一种方法来”总结“图像,然后从摘要再回溯到最初的图像。如果摘要是基于不相关的数据,如天空的颜色,而不是胡须,机器就不能执行好的重建。
机器的反应跟远古时期的人类很像,他们对于一只老虎的印象,是在自己看见狰狞的老虎时跑开的过程中留下的。但是,与人类的祖先不同的是,Le的神经网络,需要进行一次一次又一次的尝试。每一次,从数学的层面上,都会选择对不同的信息进行优化,然后表现会越来越好。
但是,神经网络是黑箱。它确实产生了一个模型,但是模型本身通常很难被人类理解或者
本文来源:不详 作者:佚名