您现在的位置: 天下网吧 >> 网吧天下 >> 网吧行业 >> 网络追踪 >> 正文

你的脸和声音出卖了你

[作者:佚名 来源:不详 时间:2015-2-5我来说两句
:你的脸和声音出卖了你

说到利用人体的生物特征进行身份识别的问题,大家肯定首先会想到指纹识别。每个人的指纹是不同的,即使同一个人的十指之间,指纹也有明显区别,因此指纹用于身份鉴定是非常可靠的。虽然指纹特征并非肉眼可轻易分辨的,但作为身份识别的工具至少也用了上千年了。影像记录和声音记录是现代技术的产物,如果说这些记录也可以作为生物特征进行身份识别,你可能有些小小的惊讶。

不久之前,我们还认为匿名是安全的。如果一个人的照片出现在抗议游行的队伍中,可能只有他的朋友能将他认出来,电脑是无能为力的,除非这台电脑一直在负责搜寻某个人,并针对这个人训练了人脸照片,而且还必须保证用于识别的照片质量足够高。在游行队伍中,某人大声发表了时间并不算太长的演讲,事后如果只有录音,也不大可能找出这个人是谁。

   

但目前,这些技术的发展突飞猛进,人脸识别的准确性越来越高,据Facebook的DeepFace研究团队在机器视觉社区进行的测试发现,人类识别的正确率约为98%,而DeepFace团队的机器为97.35%,高于其他领域27%的准确性。这个测试的基准是辨认来自LFW中的两张照片是否为同一个名人。“我的声音就是我的密码。”也许很快大家在给银行或信用卡公司打电话的时候就会这么说。指纹或虹膜扫描,每个人的声音都是独一无二的。安全公司也已经将语音识别作为一个方便的新层进行身份验证。

DeepFace的人脸识别效果如此之高,好在他们的目的不是为了侵犯别人的隐私,而是为了保护隐私。一旦DeepFace从每天上载的4亿张新照片识别出某人,就会警告用户是否要将这张照片进行模糊化处理,以保障用户的隐私。

简单的面部侦测对电脑来说很容易,至少可以与识别常见的花朵、座椅板凳和灯具等物件相媲美。几乎所有的人脸都有类似的特征:耳朵、鼻子和嘴而且都处在相对固定的位置。这种一致性为电脑的有效识别提供了一个捷径,因此20年前就已经做到了,一些廉价的相机中都可以采用这种技术来侦测和聚焦面部。但是,识别人脸则比简单的面部侦测要困难得多,特别是要将人脸作为惟一性标识,那就更是困难重重。与人的指纹不同,人脸总是在不断变化的。只是微笑一下,人脸就发生了改变。眼角纹、鼻子的反光点、露出的牙齿,统统都在改变。仰天大笑,脸上显现的形状很快发生变化。即使有同样的表情,人的头发也在不断发生变化,刚理发后的变化更是非常大。然而,人眼却能毫不费力地从一堆照片中认出他认识的人,即使这个人他们只见过一面。根据我们所感知的周围世界,人脸识别可能是人类大脑最擅长之处,而电脑则要与研究者们所称的A-PIE(衰老、姿势、照明、表情)进行顽强的斗争,来自这些因素的噪声淹没了人与人之间细微差别。

在深度学习方法的帮助下,电脑取得了进展。正如所有的机器学习工艺,深度学习也是从训练数据开始的,通过大规模含标签数据集的学习,理想情况下包括每个人的多张照片。在该领域,素颜检测数据库(Labeled Faces in the Wild,LFW)可用于研究非限定脸部识别问题,包含13000多幅从网络上搜集的脸部图像,其中有5749位名人的面孔。这个数据库是在线免费使用的,因此成为人脸识别算法领域最广泛的测试基准。对电脑来说,人脸也就是明暗不同的像素集合。深度学习系统的训练首先让系统自行对比脸部特征并发现其自身的特征,比如眼睛和鼻子,还包括一些无法直观感受的统计学特性,也就是让机器和数据说话。系统首先要将面部像素的集群识别为元素,即定义轮廓的边界。后续处理层将元素组合成非直观的统计特性,就是那些看起来很普通,但足于区分不同的面孔的特征。这就是深度学习的“深度”:每个处理层的输入是下面层的输出。训练的最终结果是一个人脸的具象模型:比较面孔的图像并猜测他们是否属于同一个人的统计机器。系统训练的面孔越多,这种猜测越准确。

所谓声纹(Voiceprint),是指用电声学仪器显示的携带言语信息的声波频谱,一般通过采集一段演讲录音并分析声音集中区域的频率而完成的。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官(舌、牙齿、喉头、肺、鼻腔)在尺寸和形态方面差异很大,所以每个人的声纹图谱都有独特的,既有相对稳定性,也有一些变异。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音。

与指纹不同,声纹需要结合一些行为元素来鉴别。说话的节奏、方言和口音这些特征是很容易区分的。一般的语音识别系统,主要是为了理解说话的内容,因此会尽量减少一些差异,比如降低过高的音量,忽略停顿和口音等。但如果是为了鉴定某个人,这些差异却是非常重要的。一些声纹系统应用设备中,通常要求用户重复一个标准的短语,而盗贼们恰好可利用这点,事先录下一些短语而糊弄过关。为了挡住这个漏洞,系统就被设计成一种可检测录音或合成语音。在这方面,一个更简单、安全、有效的方法是让客户重复读出一个随机选择的文本,盗贼很难准备出所有可能的录音。还有些系统根本就不需要用户说什么短语,而是分析一个人的声音,提取相关特征,与存储的声纹进行比较。

要精确说出自动人脸识别将如何使用,以及有什么样的法律限制,现在还说不清楚。根据目前的资料,美国FBI的识别准确率低于Facebook,导致这种差距的主要原因是其数据库,FBI所采集的脸部信息图片质量参差不齐。脸部识别系统采集的最佳照片是正面照,以脸部为中心点15度角拍摄。如果不是被拍摄者自愿拍照,一般很难获得这样的照片。FBI的道路拍摄难以获得最有效的脸部信息,镜头处于路人之上,角度和画质都难以达到识别要求。而Facebook中的图片大多是拍摄者主动提供的。除此之外,DeepFace的优势来自更聪明的编程能力。他们通过建立人脸的三维形状结构克服了识别中A-PIE的部分问题。如果是一张侧面照,程序根据它所看到的人脸重建一幅正面容貌。这个“对齐”步骤使DeepFace更加高效,这样就可以将更多的精力集中在在细微差别上。这个过程占用单核电脑几分之一秒的时间,这足于让DeepFace用于智能




关注天下网吧微信,了解网吧网咖经营管理,安装维护:


本文来源:不详 作者:佚名

相关文章
没有相关文章
声明
本文来源地址:http://www.ithome.com/
声明:本站所发表的文章、评论及图片仅代表作者本人观点,与本站立场无关。若文章侵犯了您的相关权益,请及时与我们联系,我们会及时处理,感谢您对本站的支持!联系邮箱:support@txwb.com.,本站所有有注明来源为天下网吧或天下网吧论坛的原创作品,各位转载时请注明来源链接!
天下网吧 网吧天下