对着手机大声说出你想要找的,不管是伦敦奥运金牌榜还是今天天气如何,话音刚落,搜索结果很快出现在屏幕上。如果你想输入短信,那就让让手指歇歇,说出来就行。想听歌也同样直接,告诉它“我要听《月亮代表我的心》”,在线播放器自动准备就绪,你点一下就在线播放了。即便手机丢了,也不必担心别人看到你的手机内容,有了声纹解锁,只有你的声音和正确的话语才能启用手机……一系列只要“动动嘴”就行的生活场景,日前在百度多媒体部的语音技术环节对外曝光。据了解,这是百度多媒体研发团队首度对外公开亮相,展示其在语音、图像等多媒体技术的最新成果。
预见到在移动时代,语音和图像会成为重要的交互内容,语音必将成为重要入口之一,百度早在两年多以前就低调进行多媒体技术研究。百度多媒体部正是百度为此抽调精兵强将,在全球范围内广揽顶尖技术人才组建的一支“特种部队”。这支团队在内部以“入选严、水准高、能打硬仗”而著称,其领军人物为国际知名人工智能技术专家,既有在斯坦福大学授课的学术背景,亦有在知名科技企业研究院率队研发十余年的工业背景。在其带领下,优中选优的数十人多媒体团队实现多地协同研发,专注于百度在语音和视觉等多媒体交互的技术研发。
在语音方面,围绕语音识别与智能理解,百度语音团队已经独立开发和掌握了海量语言模型、复杂声学建模和高速解码等关键技术。深厚的技术积累让百度多媒体技术厚积薄发,进入高产期。目前,多项语音技术已经实现了产品端应用,主要用于语言输入和语音搜索,百度语音输入法、百度语音搜索等产品中的语音识别功能就源自百度多媒体部的研发成果。而类似于声纹解锁等一系列全新应用技术也正处于产品排期当中。
作为全球最大的中文搜索引擎,百度发展语音技术有着得天独厚的优势,搜索与语音结合是智能语音最自然的应用场景,更像是互联网搜索的自然演化。百度拥有顶尖语音技术人才,对中文自然语言处理和用户需求理解的长期技术积累为发展语音技术提供了优越土壤,而百度长期投入产业链建设,如框计算、开放平台、海量数据等,更是为智能语音搜索提供了强大的后台资源。
与苹果Siri满足人们娱乐交互需求的出发点不同,百度语音技术更为贴近搜索本身,通过使用语音技术来缩短人们获取信息的过程,实现“即说即得”的全新搜索体验。目前,百度语音搜索功能主要内嵌于掌上百度,百度搜索手机客户端,百度手机地图、百度手机浏览器等产品中。百度内部和第三方测试结果显示,在语音搜索的效果方面,百度的中文语音搜索识别率已达到业界最高水平。下一步,百度语音技术将从提高单个词语言识别的准确率到语义理解的转变,届时更多的百度语音产品将变得更加智能。
多媒体技术是移动时代用户与移动终端交互的底层技术,通过掌握这项核心技术,百度不仅自身可以更好地满足移动终端用户的需求,持续改善搜索体验,更重要的是,百度还可以将多媒体相关技术作为百度云开放平台的重要技术模块,实现能力输出。目前,百度已计划将多媒体技术通过API接口逐步开放给第三方开发者,帮助开发者引入这项技术进行创新应用开发,进而促进移动互联网的生态繁荣。