ImageNet是6年前公布的。里面有100万张图片,算是计算机视觉领域最大的。图片中包含1000种不同分类,每一类有1000张图片。比如里面有上千张不同的豹子,摩托车等,一个麻烦的是不是所有的标签都是对的。
在神经网络使用之前,最好的错误记录是26%,2014年Google错误率暴降到6.66%取得冠军,然后到了2015年错误率下降到3.46%。这是什么概念,大家注意到Andrej人类的错误率也有5.1%(他还是花了24小时训练后的结果)。
总之这是个又大又深的模型,每个盒子就像神经元的一层去进行卷积操作。
3、图片类别识别
计算机在花卉识别上很强大,这是非常好的模型,能够识别细微差别。
一般的效果,比如在菜品识别。
计算机也有犯错的时候,关于错误敏感性看一看上面的,比如左边鼻涕虫当成蛇,右边也不知道是什么鬼。
4、Google图片搜索
就是理解图片中像素的能力,Google图片团队开发了不用标签就可以搜索图片的功能。比如你可以去找雕像,素描,水,而不需提前标注。
5、街景图像
在街景中如何识别里面的文字。首先要找到文字部分,模型能够去有效预测像素中热点图,那些含有文字的像素点。训练的数据就是包含文字划分的多边形。
因为训练数据中包括不同的字符集,这样在多语言下也没问题。也要考虑大小字体,远近,不同颜色。训练的模型相对容易,就是卷积神经网络尝试去预测每个像素是否包括文字。
6、Google搜索排名中RankBrain
RankBrain 2015年启动,在搜索排名(前100位排第三),里面难点是搜索排序需要了解模型,要理解为什么要做某个决定。当系统发生错误为什么做那个。
调试工具准备好,需要足够的理解能力嵌入模型,去避免主观。总体上是不想手工调参数。你需要尝试理解模型中的预测,去理解训练数据是否相关,是否跟问题无关?你需要训练数据并应用到别的上面。通过搜索查询的分布你能得到每天的变化,事件发生后改变也随时发生。你要看分布是否稳定,比如语音识别,一般人不会改变音色。当查询和文档内容频繁变化,你要保证模型是新的。我们要搭建通用工具去理解神经网络里面发生了什么,解释什么导致这个预测。
序列模型
很多问题都可以映射到从一个序列到另一个序列的规律。比如语言翻译,从英语翻译到法语,就是把英语的序列单词转化到法语序列单词。
神经网络在学习复杂函数时特别有用,这个模型学习从英文到法文的句子。句子以单词为单位,以结束符作为信号。训练模型在遇到结束符时开始产生另一个语言的对应句子。而模型函数就是把语言中语句对作为训练数据。
每一步都在词典表中的单词产生概率分布。在推理时候通过一些搜索来实现,如果你最大化每个单词的概率,这样找的不是最可能的句子。直到找到最大可能的句子找到才结束搜索。
这个系统在公开翻译系统中表现出色。大多数其他翻译系统需要手工编码或机器学习的模型只是在一小部分使用,而不是像这种整体的端到端的学习系统。
本文来源:不详 作者:佚名