知道Google街景是如何识别各种千奇百怪的门牌号的吗?靠的是它搭建的一个疯狂的神经网络。
我们知道,在受约束环境下(如文档处理)的字符识别技术,比方说OCR技术已经被研究得很透。但是对照片中的多字符文本识别却是个难题,因为这些照片中的字体、颜色、样式、方向、排列不一,再加上光照、阴影、镜像、遮蔽等环境因素影响,还有图像本身的分辨率、焦点模糊、抖动等问题。而传统的图像文字识别,一般要经过字符定位、分割和识别三个步骤,处理效率不高。考虑Google街景的每天上传的图片量,以往的这些方法显然缺乏实用价值。
为此,Google开发了一套大型的神经网络来处理海量的Google街景图片中的门牌号识别问题。这个神经网络的代号是DistBelief,其学名是深度卷积神经网络,是一套会思考的深度学习系统。经过DistBelief训练的这个大型分布式神经网络,可以把定位、分割和识别三个步骤集成到一起,直接对每一个像素进行操作。其性能随着神经网络的深度增加而提高,在11层的时候达到最高。
根据论文的数据,该系统对SVHN(街景门牌号数据集)中的门牌号识别率达96%,而单数字识别率达97.84%,对于Google街景图库的上千万门牌号的识别率也超过90%。该系统每天可识别百万门牌号(不到1小时即可将法国的街景照片中的门牌号找出来)。目前该系统已经帮助Google从街景图中分析出全球近1亿个门牌号。
本文来源:不详 作者:佚名