北京时间8月12日消息,据国外媒体报道,今年是大数据(Big Data)发展史上一个重要年份,由技术圈进入了主流市场。
大数据是瑞士达沃斯世界经济论坛上一个重要主题,与会者发布了题为《大数据,大影响》(Big Data, Big Impact)。3月份,美国联邦政府公布了一项耗资2亿美元的大数据计算研究计划。
《纽约时报》在文章标题中也采用了“Big Data”这一术语,例如“The Age of Big Data”(大数据的时代)。大数据概念普及的一个确定迹象出现在上个月,斯科特·亚当斯(Scott Adams)创作的《Dilbert》漫画中,一幅漫画的文字内容为,“它无所不在,无所不知”(It comes from everywhere. It knows all),下一幅漫画的内容是,“这就是大数据”(its name is Big Data)。
“大数据”术语成功的原因有两个,其一是术语本身技术性不强,其二是术语包含着“前程远大”的一系列不断进步的技术。
大数据是一个速写符号,意味着将人工智能工具——例如机器学习,用于处理非标准数据库中的数据,其中包括用户上网浏览习惯资料、社交网络用户信息、传感器数据和监视数据。
海量数据和智能软件算法的结合为企业捕捉新商机提供了可能。例如,谷歌(微博)和Facebook都是大数据公司。IBM的Watson超级计算机去年在问答节目《Jeopardy》中战胜人类是大数据计算的胜利。从理论上说,大数据能改进商业和医疗等过程中的决策,使决策越来越信赖于数据和分析而非直觉和经验。
康奈尔大学计算机科学家乔恩·克莱因伯格(Jon Kleinberg)称,“大数据这个术语本身很模糊,但在某些方面却又非常具体。大数据是可能改造一切的一种过程的标签。”
一直以来,不断增长的数据都是一项挑战。19世纪末,人口普查员不知道如何统计和分类快速增长的美国人口。1890年的人口普查中出现了一项创新性突破,那就是由赫尔曼·霍勒瑞斯(Herman Hollerith)发明的可以由机器处理的穿孔卡片,这项技术成为IBM的基础。
大数据是一个修辞学意义上的词汇,在数据方面,“大”(big)是一个快速发展的术语。据数名计算机科学家和业内高管称,2008年“大数据”这一术语开始在技术圈内出现。《连线》发表了一篇文章,中肯地阐述了数据泛滥带来的机遇和挑战。《连线》称,大数据是“Petabyte时代”的开端。这是一篇很好的文章,但“Petabyte”技术性过强,很难在主流市场上流行开来。人类将会创建比petabyte量级更多的数据——exabyte、zettabyte和yottabyte。
起初,许多科学家和工程师都嘲笑“大数据”只不过是一个营销术语。2008年末,“大数据”得到部分美国知名计算机科学研究人员的认可,业界组织“计算社区联盟”(Computing Community Consortium)发表了一份有影响力的白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》,作者是一位知名计算机科学家,卡耐基·梅隆大学的兰道尔·布赖恩特(Randal E. Bryant)、加利福尼亚大学伯克利分校兰迪·卡兹(Randy H. Katz)、华盛顿大学的爱德华·拉佐斯加(Edward D. Lazowska)。
他们的认可对“大数据”术语提供了智力支持。IBM技术专家、新兴互联网技术副总裁洛德·史密斯(Rod A. Smith)表示,他喜欢“大数据”这个术语,因为它使人们的思维不仅局限于数据处理的机器,“大数据真正重要的是新用途和新见解,而非数据本身”。
IBM在营销中使用了“大数据”术语,尤其是在与客户沟通后。2008年,史密斯的团队建立了一个网站,解释“大数据”的概念,该网站的内容已经得到极大丰富。2011年,IBM引进了Twitter标签——#IBMbigdata。IBM还建立了大数据邮件列表,今年1月份出版了一本标题为《理解大数据》(Understanding Big Data)的电子书。
创办于1976年的SAS Institute(以下简称“SAS”)开发了遍历数据库、获取有价值信息的软件。SAS所处的业务领域出现了许多术语,其中包括“数据挖掘”(data mining)、“商业智能”(business intelligence)和“数据分析”(data analytics)。
最初,SAS首席营销官吉姆·戴维斯(Jim Davis)认为“大数据”不过是业界的另一个营销用语而已,“最初我对它不感兴趣”,他指出,数十年来,SAS的大企业客户——例如银行和保险公司,一直在“挖掘”海量数据。
但是,大数据技术能利用企业数据库之外的全部Web数据。随着SAS的技术能够利用这些互联网时代的海量数据,其营销也随之发生了变化。去年,SAS开始使用“大数据”、“大数据分析”(Big Data analytics)术语。多年来,SAS一直使用“高性能分析”(high-performance analytics)术语。5月份,SAS任命了一名负责大数据业务的副总裁保罗·肯特(Paul Kent)。戴维斯说,“我们必须‘人云亦云’。”
“大数据”也有负面意义,因为“Big Brother”、“Big Oil”、“Big Government”等词汇带有贬义。大数据技术的支持者称,使用“大数据”术语的好处大于风险。