天下网吧 >> 网吧天地 >> 网吧行业 >> 网络追踪 >> 正文

美国国会图书馆收录1700亿条Twitter推文

[导读]国会图书馆称,Twitter推文是一种重要的新型馆藏资料。然而,这些堆积如山的信息要以什么样的方式向大众开放?国会图书馆也还没有考虑清楚。

美国国会图书馆收录1700亿条Twitter推文

美国国会图书馆收录1700亿条Twitter推文(腾讯科技配图)

腾讯科技讯(苏格)北京时间1月6日消息,据国外媒体报道,2010年美国国会图书馆曾与Twitter达成一项合作协议,后者向前者提供所有公开的推文。日前,美国国会图书馆宣布已经完成对现有1700亿条推文的收录。

在你阅读这篇新闻的几分钟之间,Twitter上又增加了300万条新推文。此时,美国国会图书馆正忙着收录这些疯狂增加中的信息,包括2006年Twitter上线以来发布的所有内容。Twitter平均每天产生4亿条推文,这意味着国会图书馆已经收录的推文数量达到1700亿条之巨。

国会图书馆称,Twitter推文是一种重要的新型馆藏资料。有学者指出,这些资料十分重要,可以向研究者和后来人提供历史快照。然而,这些堆积如山的信息要以什么样的方式向大众开放?国会图书馆也还没有考虑清楚。

国会图书馆副馆长罗伯特·迪萨德(Robert Dizard)表示:“人们希望能查看带有完整索引的数据库,但是为庞大的数据制作索引是一件很困难的事。档案存取的技术必须要跟上引发信息爆炸的技术。Twitter的功能是生产和发布信息,而我们要收集这些信息,并提供存取便利。这两种方式完全不一样。”

总部位于科罗拉多州的Gnip公司负责归档推文,每条归档的推文函括50项不同的诠释数据——推文作者、作者粉丝、被转发次数等等,但是并不包含图片和视频内容。出于安全考虑,推文档案一共有两份。

目前,国会图书馆还没有着手分类或过虑这多达133TB的Twitter内容。

迪萨德说:“数据很原始很粗糙。常常有人把Twitter比喻成一个消防栓,它会源源不断地向外涌出信息流。我们所收录的数据就像是一个巨大的湖泊,而且消防栓不断往里面注水。我们需要新技术去研究和利用这个信息之湖。”

从成本上考虑,向研究者开放这些数据是不可能的,国会图书馆已经在数据收集上面花费了一大笔资金。雪上加霜的是,近年来政府开始推行财政紧缩政策,导致国会图书馆经费紧张。由于缺乏升级计算机基础设施的资金,最简单的查询请求也无法满足。目前,国会图书馆已经收到世界各地研究人员的约400个查询请求。

本文来源:腾讯科技 作者:腾讯科技

声明
声明:本站所发表的文章、评论及图片仅代表作者本人观点,与本站立场无关。文章是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。 Email:support@txwb.com,系统开号,技术支持,服务联系微信:_WX_1_本站所有有注明来源为天下网吧或天下网吧论坛的原创作品,各位转载时请注明来源链接!
天下网吧·网吧天下
  • 本周热门
  • 本月热门
  • 阅读排行