以下为文章全文:
挖掘数据
微软位于北京的研究人员正在使用从互联网中挖掘的数据来改进在线汉英词典以及语言练习服务。该技术有朝一日将被用在一些类似的工具上,使得所有语言学习者都能够使用。
英库(www.engkoo.com)是“英语”和“仓库”的合成词。该产品的核心是翻译数据。这些数据是微软在一些获得出版商授权的词典中提取出来的。除此之外,微软还通过对同时具备中英文两个版本的网站的扫描来充实数据库。
微软的电脑会对这些网站的段落、语句和单词进行校正,然后计算出一个翻译的质量等级并存档。
当用户在英库的输入栏中输入一个单词或语句时,无论是中文还是英文,该网站都可以从数据库中提取数据对其进行翻译。英库还可以显示一些使用相似单词的例句,很多情况下还会提供该例句的来源链接。
英库是今年“华尔街日报亚洲创新奖”(Asian Innovation Awards)最终优胜者。
更多创新
尽管谷歌翻译(Google Translate)等翻译工具也使用了一些类似的方法,但英库的研究人员还通过其他一些技术拓展了语言练习工具的范围。
但与谷歌相比,英库的触角仍然很有限。谷歌号称是全球最大的免费翻译服务,提供57个语种的翻译。谷歌还将翻译技术整合到了多款服务中,包括手机、搜索引擎以及Chrome浏览器。
微软也为用户提供了必应翻译器,可以对文本和网站进行翻译,覆盖32个语种。
微软的研究人员还计划推出其他语言版本的英库,包括日语和英语。微软亚洲研究院技术战略总监埃里克·常(Eric Chang)表示,帮助英语用户学习汉语也将成为他们的目标之一,但该公司的研究目前主要还是着眼于汉译英。
英库上的多数英语例句都为用户提供了语音版本,这些语音是利用英语国家的人朗读的语音文件生成的。他们还试图模仿真人的声调,尽管抑扬顿挫的变化无法达到真人发声的水平。
谷歌翻译也为用户提供部分语种的语音版本,包括中文。
视频辅助
微软的研究人员表示,从互联网收集翻译信息可以帮助数据库随着语言的变化而不断更新,包括口语表达和科技词汇。英库用户还可以提交他们发现的翻译错误。人工编辑可以修复任何严重的错误,并提升技术,甚至可以防止同样的错误再度出现。
微软亚洲研究院的一个开发小组主管马特·斯科特(Matt Scott)说:“随着时间的推移,该系统会越来越聪明。我们希望翻译能够反映互联网的变化。”
微软的研究人员还在为英库开发一项视频功能。与音频相同,目前已经出现在该网站上的视频也是从英语母语人士的样本对话视频中提取出来的。其目的是帮助用户学习母语人士的嘴唇运动,尽管所有视频都是由机器生成的。
由于舌头运动对于发音至关重要,但通常无法看到,因此研究人员还为英库上的视频提供了同步的超声波数据。据微软亚洲研究院首席研究员弗兰克·宋(Frank Soong)介绍,其中一种选项可以将黑白的超声波脚本转换成为更加吸引人的动画,从而为用户演示母语人士发音时的舌头运动情况。