不久前,Google宣布进行架构重组,原安卓业务主管、Google高级副总裁桑达尔·皮查伊成为了Google新任的CEO。这个变动似乎引起了一些Google Now开发团队的不满,引发全员离职(亦说骨干成员离职),Google Now并入大Search组。Google Now是安卓平台用以对抗苹果Siri、微软Cortana的语音助手。那么,Google Now是什么?它包含了哪些Google的黑科技?
Google Now是什么
虽然本文谈的广义Google Now是集成了语音搜索的一整套App,但更精确地定义狭义的Google Now,就是手机上Google Now应用打开之后,出现在首屏的那些智能推荐卡片,在合适的时间推送给你合适的信息,比如天气、新闻。相对于人们在Google搜索输入框主动输入自己想找的东西,Google Now会“智能”地把你所需要的信息推送到你面前。
所以,大家经常把Google Now称之为Google的智能推送技术。
比如笔者在国外的时候,能享受到Google Now的便利。比如通过Booking.com(类似携程)定了酒店,或者kayak.com(类似去哪儿)定了机票,确认邮件都会发到笔者的Gmail邮箱。Google会很“智能”地分析(偷窥)这些行程邮件,并在航班即将起飞前几小时提醒你航班的具体信息及航站楼甚至登机口信息。在你到达新的城市的时候,自动弹出你即将下榻酒店的导航路线以及联系电话等信息。出国旅行的时候,Google Now会自动弹出当地的货币汇率,以及祖国的时间。它也会细心地记住你家和公司的位置,在下班时间准时提醒你回家的交通状况,虽然还并不能那么智能地了解到你今晚又要加班!
这里再说说Google Now 的诞生
Google Now,也是传说中的Google 20% Project的产物。Google工程师 Baris Gultekin在2010年的时候,因为个人兴趣想利用手机上丰富的传感器来做一些有趣的事情,这个想法跟时任Google Map负责人的Andrew Kirmse不谋而合。两人在业余时间里面搭建了一个原型,并展示给当时还在Google的梅姐 Marissa mayer。
在梅姐的支持下,队伍渐渐壮大,并且也加入了用户通勤的时间预测和对Google Calendar事件的整合。碰巧的是,在2012年初,Larry Page正好要求Android和Search团队搭建一个类似的东西。于是在Android老大Andy Rubin的支持下,两人加入了Android团队,得到了大量的设计方面的资源,并且在2012年Google IO上第一次发布Google Now。
发展了这么多年,现在Google Now已经被整合进Google搜索的App中。
最近某国外科技网站也传出了Google Now团队解散的谣言,说是成员全数离职,还联系到最近Google架构变动,颇有阴谋论的意思。部分骨干成员离职确有其事,但这早在几个月前就发生了,非常正常的人事变动。
Google Now本身作为一个出色的产品,从Android组移入Search组,从技术角度来讲,能得到大Search组更多的技术资源,对早日完成智能Google这一伟大目标是大有好处的,这明显是个好消息!
别看这个App界面简单,就一个搜索框和一排卡片,里面的技术可不简单。
介绍完狭义的Google Now推荐卡片,我们一起来看看Google Now这个小app里面,蕴含了很多Google的黑科技:智能推荐(Google Now card),热词唤醒(OK Google),语音识别和语义分析。
首先说下智能推荐
推荐的原则是“Just right information at right time”,即合适的时间推荐合适的信息。那么如何知道哪些信息是用户真正想要的,而不是机器自作主张,这个度需要拿捏。虽然现在统计机器学习方面这几年已经大规模地应用在工业界,但是巧妇难为无米之炊,在无法得知用户生活方方面面信息的前提之下,算机器学习算法再高级,也无法做出太智能的推荐,所以一般公司都会采用规则+机器学习相结合的策略。
从现有产品看来,Google Now推荐的东西也相当保守。
Google能够通过你在某个地点待的频率,猜测你家和工作单位的位置,并且在每天指定时间自动提醒你回家的交通情况。
前面也提到过,行程邮件卡片、酒店预订卡片、出国旅游的汇率和祖国时间卡片等等。难点不在有多高深的推荐算法,而在于Google能尽量收集用户的生活信息的点点滴滴,并且通过深思熟虑的规则,尽量不打扰地推荐给你。在国外,由于邮件普及率高,Google坐拥Gmail(顺便说一下,Gmail当年出生跟Google Now很像,也是诞生于传说中的20% project),做出Google now,Google占了天时地利人和。
热词唤醒
在Google Now 软件主界面,对着手机喊一声“OK Google”,则自动触发语音识别接受用户语音查询。
热词唤醒作为启动语音识别的钥匙,目的是以尽可能低的功耗来接受用户的唤醒。
因为需要持续开着麦克风,对输入的音频进行运算,使得CPU一直无法得到休眠,会严重影响已经很紧张的手机电池续航。
所以手机上热词唤醒要维持高水准,需要考虑的重点,除了准确率(用户叫你的时候能马上响应,用户不在叫你的时候不要听错),还有能耗。热词唤醒不需要像通用语音识别一样识别千变万化的自然语言,它只要识别“OK Google”这个固定的词,所以在算法方面也不必要采用复杂的传统语音识别,抛弃高大上的各种HMM、语言模型,用简单直接的分类的方法在用户输入语音流中寻找“OK Google”这几个字,简单但好用。
当然,这也有个例外,几年前Moto X刚出来,就是主打24小时全程语音唤醒待命,人家可是有2颗低功耗芯片,专门等待着用户随时输入语音命令。
语音识别就不用说了,Google的强项
几年前微软研究院的一篇基于深度学习应用于语音识别的论文,定义的算法准确率超越了传统的基于HMM-GMM的语音识别。但Google领先将其工业化,并应用到当年的语音搜索产品中。DNN直接在最原始的音频数据上进行语音识别,并且需要大量的训练数据,来训练大量的神经网络参数,因此对硬件要求也很高,这正好是Google的强项。
经过几年的积累,Google的语音识别已经初具规模。值得注意的是,作为Google Now的竞争对手的Siri,Siri的语音识别一直用的是nuance家的技术(nuance是世界最大的语音识别提供商,可以理解为讯飞在
本文来源:不详 作者:佚名