一直以来,计算科学家一直在为建立世界上最精确的计算机视觉系统孜孜不倦地努力着,但取得进展的过程却一直如马拉松竞赛般漫长而艰辛。近期,微软亚洲研究院实现的突破让他们成为了这场竞赛的最新领跑者。该团队所开发的基于深度卷积神经网络(CNN)的计算机视觉系统,在ImageNet1000挑战中首次超越了人类进行对象识别分类的能力。
该研究团队是微软亚洲研究院视觉计算组,他们开发了一个计算机视觉系统,该系统基于深度卷积神经网络(注:卷积神经网络,Convolutional Neural Networks,缩写为CNN,不是那个教老外在中国找女友的电视台的CNN哦)。该研究团队的论文名称较长:“Delving Deepinto RectifIErs: Surpassing Human-LEVEl Performanceon ImageNet Classification”。论文中指出,他们的系统在ImageNet2012分类数据集中的错误率已降低至4.94%。此前同样的实验中,人眼辨识的错误率大概为5.1%。这个数据集包含约120万张训练图像、5万张验证图像和10万张测试图像,分为1000个不同的类别。微软研究员表示:“据我们所知,我们的研究成果是这项视觉识别挑战中第一个超越人类视觉能力的计算机系统。”
4人团队:孙剑、何恺明、张祥雨、任少卿
值得一提的是,完成这个研究的团队仅有4人,全部由中国人组成:2人为微软亚洲研究院研究员孙剑与何恺明,另外2人为实习生,分别是来自西安交通大学的张祥雨和中国科学技术大学的任少卿。
孙剑(资料图)
孙剑已在微软亚洲研究院工作了十二年,现任视觉计算组首席研究员。此前,他在西安交通大学获得了电气工程专业学士、硕士及博士学位。2001年,孙剑曾是沈向洋博士的学生。沈向洋目前担任微软全球执行副总裁,主管技术与研究,并且是微软亚洲研究院创始成员之一。这位因在计算机视觉及图像学领域建树卓著而当选IEEE Fellow(电气电子工程师学会院士)及ACM Fellow(美国计算机协会院士)的计算机科学家。
沈向洋对他昔日弟子所取得的成就感到非常自豪,他介绍说,“孙剑和我在2001年和西安交通大学郑南宁教授一起做的第一个项目是利用置信传播(belIEf propagation)进行立体重建。孙剑第一个将贝叶斯置信传播用来解决立体视觉问题并取得了当时最好的效果。孙剑的很多研究成果都成功应用到了微软的核心产品中。而他在更深层神经网络方面最新研究成果的潜力让我尤为兴奋和期待。”
孙剑将团队取得的最新成果归功于以下两项关键突破:一是开发了适应性更强的非线性神经元,二是改进训练算法,使得神经网络更为强大。
另一位主力何恺明也非等闲之辈,他是2003年广东省理科高考状元,本科就读于清华大学基础科学班,研究生就读于香港中文大学,第一篇论文,《Single ImageHaze Removalusing Dark Channel Prior》,被计算机视觉领域顶级会议CVPR接收并被评为年度最佳论文。
何恺明(资料图)
目标:能与人类视觉媲美,甚至比人类更准确
微软研究员在论文中指出,修正神经元(rectifIErneuron)是近期将深度神经网络应用于计算机视觉挑战时取得成功的关键要素之一。
研究人员表示:“在本论文中,我们从两个方面对主要由修正神经元驱动的神经网络进行了研究。首先,我们生成了一种新的修正线性单元(ReLU),并将其称为参数化修正线性单元(PReLU)。该激活函数不仅可自适应获取修正参数,还可提高计算精度,且所需额外计算成本几乎可以忽略不计。其次,我们研究了深度修正模型的训练难度。我们通过对修正线性单元(即ReLU/PReLU)的非线性特征进行直接建模,推导出一种符合理论的初始化方法,并直接从头开始训练网络,将其应用于深度模型(例如,具有30个带权层的模型)的收敛过程。这为我们探索功能更强大的网络体系结构提供了更多的灵活性。”
关注天下网吧微信,了解网吧网咖经营管理,安装维护:
本文来源:不详 作者:佚名