要回答这个问题我们需要先从搜索引擎的技术原理说起。搜索引擎的技术实现其实非常复杂,特别是如果想实现的效果很好,需要花费大量的人力和物力,但是搜索引擎的技术原理其实并不复杂,简单来说就是三个步骤:抓取——索引——排序。
搜索引擎在工作的时候首先会使用一种叫做“Spider”或者叫“Crawler”(也有叫Robot的)的爬虫程序访问互联网访问网站,并将互联网网站中所有的URL抓取回来,然后再由分析索引系统对爬虫抓取回来的内容进行分析、计算、建立索引库。当用户在搜索框中输入关键词搜索时,检索程序从网页索引库中找到所有匹配的相关网页,并根据网页相关度排序将结果返回给用户。
这就是搜索引擎工作的全过程,无论是百度还是Google和360,都是这三个基本原理下工作的。只不过目前由于各家爬虫的能力、索引能力与排序策略,导致了各家搜索引擎在用户使用最终结果上的差异化呈现。目前的搜索引擎处于将信息转化成知识的初始阶段,例如如果要搜索CCTV,你肯定很高兴地看到CCTV主页出现在第一个搜索结果中。但事实是,搜索引擎根本不明白你要找的其实是“中央电视台(China Central Television)”,它只是在关键字上与“CCTV”相匹配而已。
虽然360在宣传自己的搜索引擎的时候说自己是安全的搜索引擎,但是如果真的想将搜索引擎的结果精华成真正意义上的安全内容,并不是一件简单的事情。首先360应该有一个足够全面的URL网址安全自动化检查系统,能够检测自己的爬虫抓取回来的内容,然后对其内容进行分析,将疑似是恶意的网页进行标注。或者另外的一个方法是,当网友进行搜索的时候,对网友的看到的搜索结果进行安全检查,然后在搜索结果呈现的时候将所有恶意的网页结果进行标注。
从这个过程中我们可以看到,搜索引擎中使用的分词、倒排索引、pagerank等都是方法,而不是实现安全的目的,真正想让用户看到的结果是安全的,必须有一个强大而完备的URL恶意网址库,并且这个库能够不断的更新。
以此次360被爆出的搜索结果出现大量恶意欺诈网址来看,360目前这部分工作显然积累的还不够,因此现在360就宣传自己是安全的搜索引擎有些吹牛的味道。估计周鸿祎也是为了商业利益,利用了网民心中对360品牌的安全定位,将自己的搜索引擎直接与安全划了等号,大概希望以此能够快速的从百度手中拉拢来大批的用户,并且迅速为360产生出广告收入,这或许才是360搜索的核心目的。至于到了用户使用时是不是真的安全,以周鸿祎的性格或许并不会太在意这件事儿。
有趣的是,此次360搜索爆出大量恶意网址的事件发生后,第一个对其恶意网址进行拦截的是腾讯电脑管家。目前百度也在联合腾讯电脑管家开展安全搜索的工作,使用的方式是百度调取腾讯电脑管家的网址云安全库,然后对将网页的结果与电脑管家云端库的数据,但百度选择腾讯电脑管家进行联手合作这一招胜算可能会较大,毕竟目前业内公认URL恶意网址库方面,腾讯是做的最好的。
最新的消息是,9月17日,360紧急将自己的搜索结果网址进行了加密,主要就是为了防止其他安全软件对自己的搜索结果中的网址进行检查。这与业内较为普遍的作法背离,Google的结果就较为开放,允许各个安全厂商对自己的搜索结果进行检查。但360却对自己的搜索结果进行了加密,将所有竞争对手挡在了自己的门外,也将用户置于了危险中……
诺顿提示Google搜索结果安全性
本文来源:ITBEAR 作者:佚名