此前外媒报道称谷歌已经基本掌握“让电脑用人类自然语言描述图片内容”这一人工智能领域的最前沿技术。不过,近日斯坦福大学一位研究人员指出,真正最先在该技术上取得突破的,并非是谷歌,而是来自中国的百度。
事实的确如此。在谷歌、微软以及多伦多大学在内等多家企业及机构各自公布的有关该项技术的最新研究成果中,均公开注明引用了百度研究院杰出科学家徐伟此前在该技术上的研究成果。
图注:百度研发的“机器读图”技术,能够帮助计算机根据图片内容自动生成一段描述文字
长期以来,电脑对于“文字”和“图像”,一直采取不同类别的处理模式,然而要直接让电脑透过一幅图片立即迅速、准确地给出对应的一句文字解释,几乎是一件不可能的事情。“利用百度的深度学习能力,即一种灵感来自于人脑运行方式的人工智能技术,百度成为世界上第一个解决这一技术难题的公司”,百度研究院副院长,深度学习实验室(IDL)主任余凯表示,“利用CNN(卷积神经网络)和RNN(递归神经网络)技术,百度成功地实现将图像内容生成自然语言的描述性句子或段落,从而在高层语义层面建立了图像和自然语言之间的桥梁,也就是“机器读图”,而这可以说是人工智能领域的一次技术飞跃。”
据介绍,百度的这一项目,由百度研究院杰出科学家徐伟主导的团队,毛俊华、杨亿,王江等人研发,其研究成果的相关论文于2014年10月份公布于arXiv。随后,包括谷歌、微软等多家知名公司和诸如多伦多大学等一批致力于该技术研究的机构,相继公布各自的研究成果——无一例外,在研究报告或者论文中,均引用了该论文。“百度在人工智能领域的投资力度一直很大,我们的突破既得益于公司整体战略的支持,也离不开整个团队日日夜夜的奋斗”,徐伟表示,“百度深度学习研究院为人工智能技术的发展提供了得天独厚的条件和资源,而且百度始终有着一个开放的技术心态”。
据悉,这项技术突破,一方面有巨大的应用空间,比如让用户通过自然语言找到需要的图片或视频,结合BaiduEye帮助盲人了解周围环境,帮助儿童学习语言等。另一方面在人工智能的发展上有重要的意义。因为这个技术把传统上人工智能的两大分支-自然语言处理和计算机视觉无缝地连为一体,从而使计算机能够真正地学习和建立语言和所感知到的物理世界之间的联系,这对于解决长期困扰人工智能的难题“常识推理”(commonsense reasoning)是重要的一步。
人工智能技术属于当前互联网领域技术研发的最前沿。简单而言,可以将之理解为一种帮助计算机理解语音、图像以及文字内容的智能技术。近些年,全球互联网领域的几大巨头——谷歌、微软、苹果和Facebook等都在积极进行人工智能方面的研发,以改进其在图像、视频及语音的信息处理方面提供服务的能力。比如,谷歌一连收购8家机器人公司,苹果则表示在计算机视觉、机器学习、以及算法编写等领域存在大量的职位空缺——在一定程度上,人工智能技术被认为是互联网产业的下一个“引爆点”。
很显然,百度注意到了这一互联网发展的大趋势,并迅速对此展开了积极而全面的布局。2014年5月,有着“谷歌大脑之父”的深度学习专家吴恩达加盟百度,任职百度首席科学家。随即,百度宣布未来5年内将对其深度学习实验室投资3亿美元。2014年9月,另一位重量级技术人才——前微软全球资深副总裁张亚勤亦正式加盟百度,任职百度总裁并全面负责新兴业务。技术出身的张亚勤在大数据、云计算等技术创新方面与百度未来战略不谋而合。
2014年9月25日,美国知名高科技网站Xconomay的一篇介绍性报道指出,诸多“事实和数据”显示,来自中国的搜索巨头百度,正在成长为全球人工智能领域的领袖型企业之一。
“我们需要有这种信心,甚至对我来讲是一种信仰:就是对于技术的投资会获得回报,而且不仅仅是给百度带来回报,更会给整个社会带来非常大的回报。”在2014年11月于浙江义乌古镇举行的世界互联网大会上,百度公司创始人、董事长兼CEO李彦宏如此表示。而根据李彦宏的透露,百度正持续投入大笔资金用于人工智能研究。
“有一天电脑会比人脑聪明。对于自然语言的理解、模式的识别、计算机的视觉这些听起来很遥远的事情,其实很快可以实现。”李彦宏说:“技术的积累是从量变到质变的过程,量变的过程我们经常忽略,质变发生时我们又经常被打得措手不及。而对于即将到来的质变,我希望百度能有所贡献。”