Google开始研究Web中的结构化数据

2009-2-3CSDN佚名

【大中小】

　　　　　　互联网的搜索引擎们把主要精力都放在采集web页面的文本信息上，但是google却在研究如何分析和组织结构化数据方面小有所成，该公司的一位科学家上周五表示。

　　“在web之外存在着大量的结构化数据，但我们却并没有很好地将这些数据展示给用户。”在马萨诸塞州技术研究院举行的新英格兰数据库日会议中，Alon Halevy在一次谈话中这样说道。

　　Halevy还谈到了所谓的“深Web”源，比如为 Cars.com 或者 Realtor.com这类表单驱动型网站做后台支撑的数据库资源。Google一直都在不停的向各种表单提交查询请求，然后对返回的结果进行分析，最后将有用的内容加入到索引当中。

　　但是该公司仍然希望web站点们能够将数据存放到结构化的表格中供google分析，Halevy说，例如在web页面上提供一个表格列举出历任美国总统。

　　但是这样的表格也是数量巨大的，据Halevy说，google的索引中已经收录了140亿个。他“很快就意识到其中有超过98%的内容是用户不感兴趣的，”但即使经过了仔细的筛选之后，仍然有1亿5400万个表格值得被google索引。

　　Google的一个终极目标就是把一个搜索请求的结果组织成“各个方面”返回给用户，特别是像“越南旅游”这种比较宽泛的关键字，而不是“越南人口”这种非常具体的关键字，Halevy说，前面的搜索请求可能会产生关于签证条件、气候、旅行团等这类信息。

　　Kosmix已经在做这个点子了，但是google将会做的更多，Halevy说，“Kosmix的确能够展示出‘方面’，但是它依赖于特定的信息源。”

　　在Kosmix上搜素“越南旅游”，它会给你提供一个结果集，包括纽约时报关于酒店的评论，来自雅虎和Flickr的图片，来自Shopping.com的购物信息以及来自google的其他信息。

　　“而我们则不同，各方面信息都来自于web的搜索结果，但会以不同的方式组织起来。”Halevy说。

本文来源：CSDN 作者：佚名

上一篇文章：超多美女齐上阵红警3真人电影阵容公布

下一篇文章：日本一玩家建议未被采纳扬言炸毁游戏商

关于win7系统c盘programdata文件夹   Surface Book 2笔记本无缘微软春季发布会：还没准备好   乐视任命高峻为乐视体育COO  强化运营管理加速商业化变现
微软Surface Book 2外形设计将回归传统  起售价更低   戴尔XPS 13变形本 VS 苹果MacBook：究竟谁更值得买？  Surface Book比拼Book One：微软和保时捷之间的终极较量
合肥Dragon网咖，网络与咖啡都在Dragon  电竞馆logo设计从哪些方面入手   网咖水杯logo都怎么设计的
联想发布Yoga 720和Yoga 520笔记本电脑：配备独显

聚合推荐

2022年网吧恢复营业时间网吧卫生网吧电脑配置开网吧网吧键盘网吧配置网吧GHOST ROS 网吧软件故障解决网众无盘网吧游戏菜单网吧活动网吧优化网吧精品网吧新手

声明

声明：本站所发表的文章、评论及图片仅代表作者本人观点，与本站立场无关。文章是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本网联系，我们将及时更正、删除，谢谢。 Email:support@txwb.com，系统开号，技术支持，服务联系微信：_WX_1_本站所有有注明来源为天下网吧或天下网吧论坛的原创作品，各位转载时请注明来源链接！

天下网吧·网吧天下