一个人工智能系统可以预测一个场景将如何展开,并能想像出即将发生的画面。
给定一张静止的图像,这一深度学习算法能够生成一段迷你视频,显示接下来会发生什么。举个例子来说,如果给它一张火车站的图片,它可能会联想出火车始离站台的画面。又或者,一张海滩的图像可以激发它生成波浪涌动的画面。
教会AI预测未来可以帮助它更好地理解现在。比如看到人们在准备饭菜时,我们可能会想象他们接下来会吃饭,而这一点对于人工智能系统来说,是非常难以理解的。这样的系统还可以让AI助手能够识别有一些危险情况,比如无人驾驶汽车预见即将发生的事故。
麻省理工学院的卡尔·冯德里克(Carl Vondrick)带领的团队打造了这一系统。他说,“所有在我们世界中运行的机器人都需要具备一些基本的预测未来的能力。比如说,如果你想要坐下,你不会想让机器人把你身下的椅子拉走的。”
为了开发他们的人工智能系统,研究团队使用了图像共享网站Flickr上的200万部视频对系统进行训练,其中一些场景包括海滩,高尔夫球场,火车站和在医院的婴儿等等。所有这些视频都未经标记,这意味着他们不含有能够帮助AI了解视频内容的信息。之后,研究人员向系统输入了特定的静止图像,人工智能系统随后自动产生了接下来可能会发生什么的微电影。
为了教会AI制作更为完善的视频,该团队使用了一种称为对抗网络的方法。一个网络生成视频,而另一个网络则判断这段视频看起来像不像是真的。这两个网络在竞争中相互制约:视频制作器尝试制作最好的能够欺骗其他网络的视频,而另一个网络则具有区分识别视频真伪的能力。
目前,生成的视频为32帧的低分辨率视频,持续时间略大于1秒。但总体上来看,这些视频图像是锐利的,并且可以显示场景之中正确的运动:例如火车在直线轨道上前进,又或者是婴儿在揉捏他们的脸。而在其他一些预测视频场景的尝试之中,例如纽约大学和Facebook研究人员合作开发的系统,需要多个输入图像,而且产生的少量画面通常十分模糊。
不过从人类角度看,得到的视频看起来仍然有些怪异,AI还要再多学习一些。例如,它没有意识到离开车站的火车最终也应该离开画面。这主要是因为它没有关于世界规则的先验知识,即它缺乏我们所谓的常识。这200万部视频,总共时长大约两年的镜头,是这个人工系统能用来了解世界是如何工作的所有数据。冯德里克说,“相比于一个10岁的孩子,或者是人类进化幅度而言,这其实并不是那么多。”
剑桥计算机实验室大学的约翰·道格曼说,即使这样,这项工作还是表明了当计算机视觉与机器学习相结合起来的时候,可以实现什么。
他说,一个关键的方面是能够识别出随时间发生的事情的因果关系。“物理学的定律和事物的本质意味着,不是所有一切都会发生,”他说道。“作者已经表明人工智能系统可以学会这些限制。”
冯德里克现在正在扩大系统,用于制作更大,更长的视频。他说,虽然它可能永远无法准确预测将发生什么,但是它可以向我们展示另一个未来。“我认为我们可以开发出一个能够幻想出合理、可信的未来图像与视频的系统。”
本文来源:不详 作者:佚名