天下网吧 >> 网吧天地 >> 网吧行业 >> 网络追踪 >> 正文

微软研究院和计算的演变:语音机器翻译实时演示

:微软研究院和计算的演变:语音机器翻译实时演示

里克·雷斯特在“21世纪的计算大会”上的主题演讲:微软研究院和计算的演变

演讲人:Rick Rashid博士

微软公司全球首席研究官,美国工程院(NAE)、美国文理科学院(AAAS)院士

演讲标题:Microsoft Research and the Evolution of Computing

一.微软研究院的创立初衷

我是21年前加入微软,并开始创立微软研究院的。当时工作环境就像是一个大学的环境,跟在座各位现在的学习环境相差无几。我来自于美国卡内基梅隆大学,在那里学习到了一些最基本的研究方法。21年前,我加入微软,其实是肩负着一个使命的:要创建一个最基础的研究机构,就像我在美国卡内基梅隆大学的研究环境一样。我想要,在微软这样一个软件公司里创建一个和卡内基梅隆大学一样的计算机科学研究机构。21年前,微软还是一家很小的公司。你们很多人可能不相信,当时公司只有很少的产品,只有几千名的员工。正是这样一个公司,你很难想到它居然会对基础研究给予长期投资。但是,当时微软董事会做出了一个重要的决定,他们决定要对未来进行投资,而且是长期的投资。这是非常重要的,这也是他们为什么找到我,让我加入微软的原因。

二.微软研究院的使命

像我以上所说的那样,我们的目标是在企业里创造跟大学一样的环境。微软研究院初创时,我就秉持这样的理念,我认为这可以引导这个机构始终如一。首先,最重要的一点,也是我们使命的第一部分,就是要不断提升整个计算科学领域的发展。这和你们在大学里面做的研究工作是一样的。注意一点,这里并没有提到微软,为什么呢?因为如果我们要做基础性研究,就是要尽我们的所能提升整个计算科学领域的发展,不断地推动技术的进步。做不到这一点的话,我们就不能给微软带来最终的价值。因此,我们必须要走在科技的最前沿。

使命的第二部分,是和微软有关的。当我们有一些非常好的想法、一些问题的解决方案、一些新的技术时,我们就要努力把它投入实用的领域,把它变成可用的产品。最好的办法就是通过我们的产品部门,把我们的技术和理念转化成产品,这些产品可以让全球几十亿人口共享。

最终的目标,也就是使命的最后一个部分,就是保证微软有一个非常好的未来。为什么像微软这样的公司能够在基础研究上投资,尤其是在我们一开始很弱小的时候?因为我们相信未来,相信这种投资可以帮助我们实现未来的发展。微软研究院是从21年前的小规模发展起来的,到如今,我们在全球各地都设有研究院。现在,在美国以外工作的人员比在美国国内的还多。请看这张地图,我们在雷德蒙、加州、华盛顿,还有新西兰、纽约、印度的班加罗尔、中国北京等都有研究院。此外,我们在德国、以色列等国家还有一些先进技术的联合实验室。我们一直在不断地发展,过去是如此,未来也会一如既往地保持下去。

三.微软投资基础性研究的根本原因

我在前面提到,微软在早期就做出决策,要在基础性研究上进行投资长期。很多人在考虑这个决策的时候,不管是在大学还是在企业中,都会疑问:“为什么要做基础性研究方面的投资呢?花很多的钱却不能带来短期的效益。如果在大学里面做这样的研究,我们产出的不是一些产品,不能带来一些短期的经济效益。那么,微软这样的一家企业为什么做这件事情呢?”以下是大家经常给出的三个答案,但这不是所有的答案。有些人说:“我知道你们为什么做基础性的研究?因为你们想去拥有属于自己的知识产权,去研发能够应用的技术。”当然,是这样的。微软研究院为微软所带来的知识产权数量超过了其他的部门。确实有很多有科学价值的技术从我们这儿被研发出来。这些技术被IEEE这样的国际组织认为是对科学界最有价值的技术。微软研究院所研发的技术确实对我们产品的产生深远影响,但这并不是我们微软做基础性研究投资的主要原因。

此外,大家给出的第二个做基础性研究的答案就是解决问题。我们有非常聪明的人,就像各位所在的大学拥有很多的聪明人才一样,我们也有这些人。当遇到一个问题的时候,我们非常喜欢去就这个问题做研究,并找到答案。这非常有趣,我就经过这方面非常好的培训。我们非常喜欢这样做,也很善于这样做,正如在座的各位一样。那么,在微软有很多这样的人才,在大学里也有很多的人才,我们这样做,可以为社会解决问题,对社会有益处。但是这第二个答案也不是微软做基础性研究的主要原因。还有些人可能会说:“因为你们要建立一个早期的预警系统,你们可以看到未来,因为你们通过微软研究院,你们看到了未来。你们会预见到一些新的技术,或者新兴的技术。”我们确实这样做了,但这也不是微软做基础性研究投资最根本的原因。

那么,到底最根本性的原因是什么呢?其实就是求生存。不管是一个国家,还是一个社会,做基础性研究的投资,是因为你们认为这非常重要。你们认为在未来会出现一个问题,需要有聪明才干的人去使用技术,并把它作为手段工具去解决这个问题。这也是为什么美国有自然科学基金的原因。那么曾经有这样一篇论文谈到“美国应该在基础性研究上进行投资”。这是在二战之后的一篇文章上说的:“我们应该在基础性研究上进行投资,那么即使出现战争、饥饿、疾病等问题国家能够有足够的资源去应对。”

所以,对于微软这样的公司来说,道理是一样的。一旦出现新的竞争对手、新的技术以用商业环境改革时,你当然希望拥有足够的人才、技术、想法能够帮助你迅速的调转方向。我们知道,变化是必须的,而且是经常性的。那么毫无疑问,出现这样一个新环境时,我们必须调整自己,改变自己,适应新环境。所以我们认为微软研究院的价值,对于微软来说就是这样的。这也是为什么微软这家公司至今仍然屹立不倒,为什么二十一年前微软的那些同辈的公司,几乎都消失了,但是微软仍然在市场上活跃着的原因。这就是我们所说的求生存的意义。这就是我们为什么说微软做基础性研究的目的,不光是为了社会,更是要求生存的原因。

四.展示微软研究院的前沿技术

微软研究院在这21年所做的工作,对微软而言确实产生了深远的影响。我们看到的这些产品,它们的所采用技术,比如说数字媒体,都是微软研究院研发的,成就了像Xbox这样的拳头产品。事实上,这正是我在微软研究院亲自领导的一个研究项目,那是在1996年。此外,我们还将一些自然语言的技术应用用于Windows、Office等产品。我们一直在帮助微软使用这些技术,不断地发展,屹立于市场之上。大家看到画面上的产品,其实只是我们微软研究院所研发的技术中的一部分产品。无论是基础性的技术、产品技术、产品本身,亦或是用于开发产品的技术,都是微软研究院研究的领域。

1.Flash Fill:全自动程序合成

下面为大家播放一段短片,展示一个非常特别的技术,是由我们微软研究院做出来的。这是我们从编程分析和编程生成,这样的基础性研究方面所产生的技术,也是微软刚刚发布的最新版本的Office所用到的技术——Flash Fill。

(主要是展现Flash fill的功能,可以进行快速的数字填充,可以说它是一种跨学科合成的编程方法。这个技术能够从一些程序中抓Bug。现在这种编程合成和以前用的是相反的一种方式。比如说我们可以生成大量的程序,而这些程序的结构是可以非常具有逻辑性,我们使用机器技术去运转这些程序,它可以在电子表格中给出所要的输出结果。也就是说可以用这个例子,比如说可以自我学习。)

(第二个片子里,你们可以看到,在这一列中,有一些可能是空白缺失的地方,假设我的目标是要清洗这个数据,加入正确的数字,Flash将会使用一个简单的程序进行数据准确性的分析。那么,可能它会注意到第五行或者第六行数据不对,那么这个时候,第六行被用户手动更正之后,简单的程序就会自动的修改其他行。比如说第七行可能出现的错误。假设我的目标就是要抽取掉,比如说某一列某一行可以做什么工作,就可以列入我要求的操作或者是函数。然后在第二列的时候就可以自动的生成输出的结果。)

我觉得Flash Fill非常好的的一点就是,有史以来第一次可以进行全自动化的程序合成。这个技术被用于量产的产品,让普通人有效地自动生成程序,进行数据的导出。这可以说是基础性研究被应用于这样的一种产品:这个产品可以为用户自然的、轻松简单的使用。这事实上是我们最新版本Office上提供的功能,大家可以下载这个程序,然后使用这个产品的功能,就像变魔术一样。

我们看到计算机科学在过去几年里,出现的几个重大的变化。我们正在全球构筑巨大规模的数据中心,它收集了海量的数据。不同的数据源都可以被访问,因此这是一个全新的世界,这是一个虚拟化的大数据的世界。我们所面临的不是TB级的数据,而是PB级的数据。这让我们考虑到新的解决世界问题的方法。比如说你们可能想收集所有的医院医生的数据,从而全新的了解疾病治疗方案。比如说在探讨基因学,如果我们能够从大部分人身上收集基因图谱的信息,这样我们就能够去攻破无法治愈的病,比如说像艾滋病,或者乙肝,还有像疟疾这样的疾病。

2.FetchClimate:获取全球气候数据

目前微软研究院和剑桥做的一个研究项目,就是我们所说的全球气候,我们正在使用大数据的概念来去解决这个问题。我们在收集来自于世界不同地点的有关气侯的数据,把这些数据提供给全球的科学家和研究员使用。下面我再放一段视频:FetchClimate。

(FetchClimate介绍:大量可用的气候数据覆盖着整个地球表面。但是,即使是专家们也会发现,要想获得所需的气候信息却是异常的困难:定位数据集、谈判获取许可权限、下载大量文件、统一文件格式、再查找其他数据库、过滤、插值、重建网格等等!请进入FetchClimate:一种在Windows Azure上运行的快速而智能的气候数据检索服务。你可以通过装有Silverlight的Web界面或从任何.NET程序内部调用FetchClimate。FetchClimate可以在从全球范围到方圆几公里的任何网格分辨率、从1900年到2010年任何年份跨度、一年内的某几天、甚至一天内的几个小时的时间上工作。当有多个数据源可用于回答您的查询时,FetchClimate会自动选择最适合的,并返回所请求的值,以及不确定性参数和数据出处。整个查询可作为单一的URL实现共享,让其他人也能获取完全相同的信息。)

我认为关键点是我们现在能够提供这样的服务给任何一个人。只要你想了解全球气侯方面的问题,了解过去几年发生的气侯变化,不管是过去60年还是100年的气侯变化,都可以这样做。不光是科学家,普通人也可以获得这样的数据。我们能够非常简单的,比如说用Windows Azure的云服务来提供。这是一个非常好的大数据的应用,帮助我们解决那些世界性的问题。

3.Digits: 数字手势追踪腕式传感器

本次大会的主题是"计算,自然而然!"。我知道在座的很多人都玩过Kinect。Kinect是第一次让人们可以去使用电脑生成的三维动画,而且是在家庭中使用它。那么,人们是如何实现人机互动的呢?我和我的家人也使用过Kinect。不光是我的孩子们喜欢,它们全身都可以调动起来控制游戏。更有意思的一点就是,他们玩游戏赢了之后,可以去庆祝。你们可以看到人机之间确实发生了交互,实体以虚拟的方式投射到了电脑屏幕之上,这是最关键的一点。到底什么技术实现了Kinect呢?那就是因为我们在很多激动人心的技术方面取得了突破,像机器学习技术还有可视化等。这也是为什么微软研究院和微软的产品组之间要精诚合作,来打造一种全新的人们使用电脑的体验的原因。它再造了人与机器之间的交互方式。现在电脑也和人一样,具有了一定的感知能力。这就是我们所谈到的如何改变人机之间的交互方式。它不光是改变了消费领域,也改变了人们研究的方式。

事实上,全球很多的研究机构认为Kinect这个技术可以帮助他们去实现一些全新的人机界面的研究。比如说如何和电脑系统进行互动沟通;比如说远程的摄像头,你站在这个摄象头前面,如果这个摄像头成为你人体的一部分,这个系统就能够更加简单地跟踪个性化的想法、动作。现在为大家展示Digits的视频,这是跟踪手的三维移动的传感技术,你可以看到,它可以实时的捕获,以及可视化的手指的运动,比如说点。那么可以用它来非常快的识别人的手掌运动,可以用于不同的场合,比如说做三维游戏,以及我们所说的增强现实。

这个设备并不需要视线,不需要外部的传感器,用户就可以做非常微妙的手指运动,可以被Digits识别。这是硬件的总设备,还有红外的摄像头,并且有一个摄度系统的内嵌,还有三维空间识别技术和我们平板电脑的触摸技术结合在一起。也就是说你的手指移动时,不需要让手指真正触摸到平板电脑的屏幕,只需要通过手势操控。

还有一个非常有意思的应用,也就是我们所说的不需要可视的方式,也就是非可视化的一种使用界面。比如说移动设备仍然放在口袋里,不用拿出它,就可以用手的手势操控进行控制。如调整音量或接听电话。Digits同时也可以用于做非常细颗粒度的三维,比如说做三维游戏的时候,用手势做出射击的游戏参与。这就是Digits,它能够捕获游戏玩家手指实时的运动。这就是我们在做的一些新型的技术研究,找到人机互动的新的方式。我们想尽量地了解如何能够更好的进行方便的交互。

五.微软研究院其他领域的成就

我前面提到微软研究院现在是一个非常大的机构,拥有超过850名博士生。但是,不管多庞大,我们还是非常庞大的科学研究领域的一个小部分。其实,我们使命的一部分,就是微软研究院要努力地跟学术界进行广泛的合作,能够在计算机科学以及更广泛的领域里,支持他们新的科学家和新的研究人员。

我们来看一下,微软研究院今天所做的工作:我们的解决方案可以解决一些个性化的医疗问题;我们找到一个治疗艾滋的疫苗,我们提出新的技术:这些技术能够应对我们医生,包括一些患者的要求;我们看一些环境的建模和保护,以及找到一种办法,能够改进我们水的清洁。比如说在加利福尼亚的峡谷里面可以保持水的清洁;还有包括我们的奖学金、助学金;在全球我们也支持教职员工的研究。我们有非常强大的研究奖学金;我们运行最大的、拥有上千名学生的有导师指导的实习生项目。。我们希望这些能保证他们后来能够继续保持理念创新。非常好的技术并不是只纳入到计算机的科学,而且能够进入到工程或者更加广泛的科学领域当中去。

六. 语音机器翻译实时演示

现在,我想再回到之前谈到的自然用户界面(NUI ,Natural User Interface)上。其中对于人最自然的语言,就是我们人类的语言。在过去60年当中,计算机的科学家们找到了一种方式,能够听懂和了解、识别人类的语言,就是语音。人们一开始解决这个问题的时候,就是语音识别,他们主要是作为这样一个模式匹配的办法。早期的系统就是采用一种形式,来自于一个说话的人,这个话音的模式,然后进行匹配,就是让人知道可以代表某种词汇的术语。这些都是比较分散的,比较破碎的,因为每个人讲话的语音是不一样的。一个单一的语言,经常不同的方式会有不同的说法,取决于上下文的语意等等。

在70年代末的时候,在人们决定来做语音识别的时候,发生了一个重大的变化。使用的方式就是统计建模,就是真正把很多的数据,来自很多不同讲话者的数据,提出更加强劲的演讲的方式,这是很大的改进。在过去三十年当中,语音识别系统已经比以前能力更强大了,更好了。当然,语音识别会出现很多的错误。但还是局限在很小的范围内,就是能够做得非常成功的语音识别界面。比如说我在美国跟同事打电话的时候,我是跟一个计算机在交流,而不是跟人在交流。这个计算机可以回答一些关于我银行帐户的简单问题。或者必要的话,他可以帮助我和一个实在的人联系起来,如果是比较大的问题,需要跟银行员工探讨的话。

几年前,微软研究院的研究人员在和美国卡内基梅隆大学进行合作,开发一个突破性的语音识别的成果。他们的一些想法就是使用一种技术,它是我们人类大脑的模式,深度神经网络(DNN, Deep Neural Networks),使用更多的数据,比以前要求的数据更多,极大的提升我们的识别率。这样一个突破性的技术使我们的语音识别提升了30%左右,这是非常大的进步。从差不多四五个字要出一个误差,改善到差不多七八个字才能出现一个问题。当然也不是很完美,还有很长期的路要走。

但是,大家已经看到我们取得了巨大的进展,就是在人类语音识别的领域。其中我们解决一个问题,就是机器翻译的问题。在过去几年当中,结合统计数字的技术,还有大数据的技术,我们把这项工作做到了更好,实现了通过机器把一些网页或者其他的信息进行翻译,翻译成其他的语言。比如说今天来自微软研究院研发的语音翻译系统,它翻译着上百万的页数。这是极大的应用,需要非常庞大的系统。

如果要把我的话翻译成中文,我们可以把我说的内容文本放到翻译系统里面。这需要将英文的文字,差不多是一个字、一个字进行翻译,转化成中文的文本。我们很快能够在这个屏幕上看到,它基本上就是把英语的文本放到翻译机器里面,然后重新安排顺序,变成中文。因为中文的文字顺序跟英文的顺序是不一样的,要重新进行组装,使它像中文演讲者说话一样。所以要通过翻译机器,把我说的内容转化成中文,。

最后,用中文讲出来。不是一种文本,而是语言,口语。这需要大量的信息,要收集很多中国人讲话的数据,用文本的方式转化成中文的语言方式。如果需要,我自己花几个小时的时间,把它变成一个标准的语言系统,进行调整。你们可以看到这些变化的结果,我用英文讲话,我希望你们听到的是我用自己的声音讲出的中文。当然这个还不是很完美,其中还有一些误差。在这个方面我们还需要做大量的工作。但这种技术是充满希望的,我们希望在今后几年当中,能打破人们之间语言的障碍。这会让我们进入更加完美世界!

本文来源:微软亚洲研究院 作者:里克·雷斯特

声明
声明:本站所发表的文章、评论及图片仅代表作者本人观点,与本站立场无关。文章是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。 Email:support@txwb.com,系统开号,技术支持,服务联系微信:_WX_1_本站所有有注明来源为天下网吧或天下网吧论坛的原创作品,各位转载时请注明来源链接!
天下网吧·网吧天下
  • 本周热门
  • 本月热门
  • 阅读排行