天下网吧 >> 网吧天地 >> 网吧行业 >> 网络追踪 >> 正文

Google开始研究Web中的结构化数据

2009-2-3CSDN佚名
        互联网的搜索引擎们把主要精力都放在采集web页面的文本信息上,但是google却在研究如何分析和组织结构化数据方面小有所成,该公司的一位科学家上周五表示。

  “在web之外存在着大量的结构化数据,但我们却并没有很好地将这些数据展示给用户。”在马萨诸塞州技术研究院举行的新英格兰数据库日会议中,Alon Halevy在一次谈话中这样说道。

  Halevy还谈到了所谓的“深Web”源,比如为 Cars.com 或者 Realtor.com这类表单驱动型网站做后台支撑的数据库资源。Google一直都在不停的向各种表单提交查询请求,然后对返回的结果进行分析,最后将有用的内容加入到索引当中。

  但是该公司仍然希望web站点们能够将数据存放到结构化的表格中供google分析,Halevy说,例如在web页面上提供一个表格列举出历任美国总统。

  但是这样的表格也是数量巨大的,据Halevy说,google的索引中已经收录了140亿个。他“很快就意识到其中有超过98%的内容是用户不感兴趣的,”但即使经过了仔细的筛选之后,仍然有1亿5400万个表格值得被google索引。

  Google的一个终极目标就是把一个搜索请求的结果组织成“各个方面”返回给用户,特别是像“越南旅游”这种比较宽泛的关键字,而不是“越南人口”这种非常具体的关键字,Halevy说,前面的搜索请求可能会产生关于签证条件、气候、旅行团等这类信息。

  Kosmix已经在做这个点子了,但是google将会做的更多,Halevy说,“Kosmix的确能够展示出‘方面’,但是它依赖于特定的信息源。”

  在Kosmix上搜素“越南旅游”,它会给你提供一个结果集,包括纽约时报关于酒店的评论,来自雅虎和Flickr的图片,来自Shopping.com的购物信息以及来自google的其他信息。

  “而我们则不同,各方面信息都来自于web的搜索结果,但会以不同的方式组织起来。”Halevy说。

本文来源:CSDN 作者:佚名

声明
声明:本站所发表的文章、评论及图片仅代表作者本人观点,与本站立场无关。文章是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。 Email:support@txwb.com,系统开号,技术支持,服务联系微信:_WX_1_本站所有有注明来源为天下网吧或天下网吧论坛的原创作品,各位转载时请注明来源链接!
天下网吧·网吧天下
  • 本周热门
  • 本月热门
  • 阅读排行