许多人曾经怀疑,搜索技术还能走多远,甚至前几年,还有人说,搜索能够做的90%的事情都已经做完了。但谷歌里的极客们认为,这种观点是固守杜威分类时代传统思维的短视和浅薄之见。谷歌的极客们有资格不屑于这种观点,因为他们最了解搜索的科学。“搜索是一个可以不断发展几百年的科学”,谷歌副总裁玛丽萨·梅耶尔曾说。谷歌也不止一次对外宣称,搜索的最终目标是理解人的“意思”,即人工智能。如同谷歌创始人谢尔盖·布林曾经提到过的“搜索直接连接大脑”的概念。
搜索的科学
布林关于“搜索直接连接大脑”的概念如果换成不那么“理工男”的浪漫一点的说法,就是人类的知识最终会由激情来分类:信息流的任何一个结点、神经元活动中的任何一波电子火花都能成为一个知识分类的标签,《新数字秩序的革命》一书的作者戴维·温伯格就持此观点。
这并非幻想,而的确是科学,至少谷歌信仰这种科学,而且已经有了发展这一科学的方法论和路线图。谷歌的首席研究员阿密特·辛格是谷歌中少数几个有资格谈论谷歌方法论和路线图的人,他在2001年重写了谷歌搜索引擎的算法。他是把这套方法论变得更系统、可执行的一位提炼者,同时他也在制定和推动谷歌搜索路线图前进的每一步。 简单讲,阿密特讲述的搜索科学的方法论就是,算法和工具的双螺旋循环。 首先是工具,阿密特认为,人类智能的发展是一个不断发明和改进工具的过程,“针对每一种工作都有其工具,我们将愈发精雕细琢。”阿密特·辛格对记者说。他说的并不是模糊的宏大趋势,这恰恰就是搜索科学的基础。“直到显微镜和望远镜被发明出来,长期在黑暗中探索的生物学和物理学才有了实质性的突破。所以,搜索的真正伟大的阶段其实并没有到来。”玛丽萨·梅耶尔用生物学和物理学在15、16世纪的例子来形容今天的搜索科学。谷歌在不断为云端和各种接地设备提供新产品,因为谷歌认为这些应用工具就是搜索科学的显微镜和望远镜,能照亮搜索通向大脑和世界的未来之路,源源不断搜集数据。
秘密配方
算法的改进所依赖的正是这些数据。算法一直是谷歌的“神秘配方”,实际上,谷歌的搜索引擎在2001年后进行了多次重大改造,其中就包括阿密特·辛格2001年的算法重写。谷歌机器人做的工作首先是对数据进行抽取、分类和结构化(通过文字进行组织,就像书本的目录),难点在于排序,这像是让一个机器人表演同时抛起200个瓶子的高难度杂技。机器人程序的编写者更像一位艺术家,他要让机器人理解数据的上下文,“所有搜索引擎都会引入上下文,但没有一个像谷歌引入得那样多、应用那样自如。PageRank(网页级别)本身也是一个信号,同时也是页面的一个属性(指其相对于其他网页的重要性),该属性可以帮助确定其与查询内容的相关性”,《连线》杂志在今年2月的文章中介绍。 标题通常被予以特别关注,锚文本可以通俗理解为超链接,对于用户可能没有看到,但对于谷歌机器人,它是非常重要的指标。随着网页功能日益复杂化、智能化,机器人对网页数据的抽取和结构化也日益复杂。新鲜度(对于一些查询,新近的页面比较早的页面更有价值)和地理位置(谷歌知道搜索者的大致地理坐标,会将本地信息排在前面)成为越来越重要的信号。“谷歌目前使用200多种信号来帮助确定搜索结果的排序。”《连线》杂志说。同时,阿密特·辛格还指出,用户在搜索过程中产生的数据被证明同样很有价值,这些数据包括他们点击哪些结果、不满意时对关键词的更改、查询关键词与所处地理位置的关系等。总之,机器人可以从 200多个维度来理解用户的搜索意图,可能是用户所处的情景模式,旅游或是购物;也可能是用户希望要的媒体形式——文字、图片、声音或者动态的实时资讯;也可能是用户所属的国家、地理位置或者使用的语言;还有用户的社交圈(需要登录谷歌个人账户)——机器人能够理解用户敲入关键词背后的复杂意图,提供个性化搜索。