感知计算(腾讯科技配图)
腾讯科技讯(萧谔)北京9月24日消息,据国外媒体报道,英特尔在最近召开的IDF大会(英特尔开发论坛)上正式推出了感知计算软件开发工具包2013(Perceptual Computing SDK 2013)测试版。这种SDK是帮助开发者开发应用程序,使用户通过将语音和机器视觉与键盘、鼠标,直接触摸屏结合起来的多模式界面,实现与计算设备的互动。
这种技术不但可能从根本上改变用户与手机、平板电脑和PC互动方式,而且是英特尔未来发展的关键,因为其需要耗费大量的计算资源,对英特尔的未来非常重要。今天,用户通过无数方式如直接触摸屏、键盘、鼠标和触摸板,与计算设备如手机、平板电脑和PC互动。当我们看到微软通过Kinect和苹果通过Siri,对机器视觉和语音控制的早期投资,可以发现要改进用户体验还要做很多事情。
语音识别、机器视觉被广泛使用子军事领域,从9/11后因政府的资助过去十年获得显著发展,但还没有成为平常的主流应用。语音识别的出现已经有很长时间,很多旧版和新版Windows都预装了,但却从未真正成功,因为其从来就不是真正的自然互动而且也不准确,尤其还需要使用耳机。
只有在苹果iOS和谷歌(微博)Android平台上,语音识别才得以发展,但仍然不足以精确到可以不要键盘,而且还需要连接到互联网才正常工作。XBOX Kinect语音交互的神奇在于其有限的词典,即“说你看到什么”的方法、双麦克风和“波束成形”。微软的方法在游戏环境中使用不错,但在需要跨不同设备进行广泛使用时还是不自然。
机器视觉是最近通过微软的Kinect才流行起来。Kinect使用了两个摄像头,但不能准确地检测特定手指和关节。虽然处理是在摄像头和XBOX上完成,但用户必须呆在房间里的某个地方,而游戏仅限于需要最少计算资源的不复杂游戏。
一些电脑制造商甚至谷歌的Nexus7提供了面部识别功能,但这些功能都很慢而容易被图片、视频或面具所愚弄。除了电视外,对于大多数计算环境这都是不可接受的。
怎样才能使界面更自然?首先,需要以非常低的功耗使用大量本地计算性能才能使用自然用户界面。让我们用保护用户登录安全的机器视觉为例。最好的方法是要有两个高分辨率摄像头,绘制人脸的三维视图。可以把这看作是3D游戏的逆向工程。3D机器视觉不是显示游戏的像素和纹理,也是将这些多边形和纹理输入计算设备。挑战在于,这需要大量的处理性能和大量的电力,不仅是计算引擎而且还有高分辨率和立体摄像头都需要。
然后,3D“图”需要与本地数据库的图案匹配,这需要更多的计算性能和电力。这个步骤被叫做“对象识别”,设备需要判断谁在看。虽然这种安全的、面部识别登录只是一个例子,但这种自然用户界面潜在用途还有很多:
--在商务会议上主持人可使用手势来移动幻灯片,而不需要“点击”。他们只要摇动下手。
--手上沾有面粉的厨师在看食谱时,只要挥下手就能翻页。
--服装设计师可使用自己的双手、手臂和躯干,穿戴电脑设计的一对垫肩。
--通过识别声音的语调,家庭电脑就知道在你烦恼时避免让你分心。你回家时就可享受柔和的音乐和暗淡的灯光。
--当听到恐慌的声音时,你汽车上的电脑就知道你有麻烦了,然后问是否要打911报警。
--你的家庭电脑感觉有其无法识别的人在用你的电脑,就会通过短信发送该人的照片。
--在疗养院,租户电脑能知道疗养的人整天没有起床,就会通知护士或家庭成员。
--通过结合语音、文本和唇读,听写达到近100%的准确。
--在你告诉孩子只有2个客人后,如果房间里出现5个人,电视能识别并向你发出警告。
--“手鼠标”取代实物鼠标或触摸板,手可以在屏幕的任何地方点击和挥动。摄像头可实时拍下你的手、关节和指尖。
--会议记录可记录会议上的所有东西,并按不同的人分开记录。动作和“停顿”都是自动“感知”。
这种例子是...通过这些非常个性化的例子,需要隐私控制,英特尔在SDK加入了“隐私通知”。当指示器显示当你正在被麦克风或摄像头记录时,这变得很简单。
如果说语音和机器视觉都不是直接触摸触摸板和显示器,键盘和鼠标将很快消失,就错了。我们将转到“多模式”界面,设备将根据环境和用户历史选择最好的控制方式。这就是英特尔的“使用模式协调“,可选择最好的互动模式。另外,在需要协调时可同时使用两种不同的模式。唇读可以与语音、文本结合,从根本上改善语音互动。
我们什么时候可以实现?英特尔的感知计算计划是一个长期的计划,逐年看到性能和可交付成果的进步。今天,摄像头还太大,要一直使用需要太多电力。即使系统总线和USB都需要太多的电力,很可能被移动总线如MIPI取代。随着时间的推移所有这一切都可以解决。除了英特尔外,将会有很多不同公司争夺领先地位,因为这是非常关键的领先优势。
英特尔处于有利的位置,因为该公司具有很大的规模、影响力和力量,是英伟达之外唯一跨越从智能手机到超级计算机芯片的公司。如果英特尔可以成功地领先行业,需要在一开始就有大量的高性能芯片,而这正是英特尔的优势。对英特尔来说时间是最关键的,因为该行业已经一次又一次看到该公司投入了大量的时间和精力,在移动芯片的视频编解码上,为缩短差距需要固定功能或半可编程芯片。