美国国会图书馆收录1700亿条Twitter推文(腾讯科技配图)
腾讯科技讯(苏格)北京时间1月6日消息,据国外媒体报道,2010年美国国会图书馆曾与Twitter达成一项合作协议,后者向前者提供所有公开的推文。日前,美国国会图书馆宣布已经完成对现有1700亿条推文的收录。
在你阅读这篇新闻的几分钟之间,Twitter上又增加了300万条新推文。此时,美国国会图书馆正忙着收录这些疯狂增加中的信息,包括2006年Twitter上线以来发布的所有内容。Twitter平均每天产生4亿条推文,这意味着国会图书馆已经收录的推文数量达到1700亿条之巨。
国会图书馆称,Twitter推文是一种重要的新型馆藏资料。有学者指出,这些资料十分重要,可以向研究者和后来人提供历史快照。然而,这些堆积如山的信息要以什么样的方式向大众开放?国会图书馆也还没有考虑清楚。
国会图书馆副馆长罗伯特·迪萨德(Robert Dizard)表示:“人们希望能查看带有完整索引的数据库,但是为庞大的数据制作索引是一件很困难的事。档案存取的技术必须要跟上引发信息爆炸的技术。Twitter的功能是生产和发布信息,而我们要收集这些信息,并提供存取便利。这两种方式完全不一样。”
总部位于科罗拉多州的Gnip公司负责归档推文,每条归档的推文函括50项不同的诠释数据——推文作者、作者粉丝、被转发次数等等,但是并不包含图片和视频内容。出于安全考虑,推文档案一共有两份。
目前,国会图书馆还没有着手分类或过虑这多达133TB的Twitter内容。
迪萨德说:“数据很原始很粗糙。常常有人把Twitter比喻成一个消防栓,它会源源不断地向外涌出信息流。我们所收录的数据就像是一个巨大的湖泊,而且消防栓不断往里面注水。我们需要新技术去研究和利用这个信息之湖。”
从成本上考虑,向研究者开放这些数据是不可能的,国会图书馆已经在数据收集上面花费了一大笔资金。雪上加霜的是,近年来政府开始推行财政紧缩政策,导致国会图书馆经费紧张。由于缺乏升级计算机基础设施的资金,最简单的查询请求也无法满足。目前,国会图书馆已经收到世界各地研究人员的约400个查询请求。