全球知名的咨询公司——麦肯锡,最早提出了“大数据”这一说法。美国是信息通信和技术相对发达的国家,在大数据概念刚刚提出时便在全美范围内掀起了大数据研究和应用的热潮,美国把“大数据”作为全球性发展战略计划进行研究和应用。2012年2月,以奥巴马为首的美国政府宣布推出“大数据的研究和发展战略计划”并投资了将近2亿美元,在美国国防部、国家科学基金会等4家政府部门的共同协作下,积极地推动与大数据相关的采集、存储、加工、组织、分析及技术的发展等。著名的IT行业领军企业Microsoft、IBM和Oracle都加入到大数据的行列,他们将通过收购与大数据相关的软硬件技术供应机构,从而实现大数据的软硬件技术融合和大数据信息处理的技术研发,希望在“大数据”时代、新的信息竞争环境中抢占数据处理的主导地位。美国密歇根州立大学、伊利诺伊州立大学等知名大学也都开设了与大数据相关的课程和研究方向,希望通过学科教育提高对数据的认识。此外,一些图书馆研究人员也参与了大数据相关技术的研究,通过研究如关联开放数据运动(Linked Open Data Initiative)和图书馆数据监管(Library Data Curation)等来预测图书馆信息服务的发展。国外的这些研究为我图书馆信息服务提供了借鉴和参考。
国外对大数据的研究一直处在领先的水平,对数字图书馆研究起步较早,目前已渐趋成熟。他们将大数据和图书馆信息服务联系在一起研究,主要集中在网络计量学和文献计量学。媒体报道称,哈佛大学图书馆将把1200多万种图书大数据公布于世,信息用户可以通过美国数字公共图书馆(Digital Public Library of America)进行免费的数据下载。哈佛大学图书馆实验室的一位副主任曾发表声明称:我们将通过提供每种馆藏高达100个不同属性的值来促进世界范围内图书目录和信息产品的开发。美国加州大学伯克利分校图书馆的Hywel指出:大数据与数字图书馆是完美搭档,大数据十分有益于图书馆员对用户进行研究,数字图书馆对用户行为信息采集的领域十分值得探索。2003年,哥本哈根举办的第五届世界图书馆联盟欧洲会议讨论了联盟建立、成本分配、评估等联盟内部管理问题以及Elsevier Science的“Big Deals”和未来发展问题;2011年,第三次世界图书馆联盟欧洲会议探讨了电子信息资源的采购问题以及如何更好地提供数字图书馆信息服务成为会议重点。由此看出如何从大数据时代海量的信息资源中提取有用的信息以提供更好的信息服务成为国外数字图书馆的重要发展方向。加州大学尔湾分校的Renaud、麻省理工学院的Britton等人借助大数据技术分析挖掘数字图书馆的用户行为信息,进而辅助学校关联分析学生的阅读行为。加州大学洛杉矶分校的Christine等人利用嵌入式技术,在数字图书馆系统中嵌入传感器,采集有关数据,为研究人员开展研究提供数据,为数字图书馆增添了新功能。还有其他众多学者将研究触角伸向数字图书馆对大数据中学术信息的采集、处理、关联,从而帮助数字图书馆通过利用大数据提供更人性化的信息服务。
美国是信息技术领域的领先国家,其非常重视数字图书馆资源的开发、利用、共享和信息服务能力的提升。1967年美国成立总部位于俄亥俄州的联机计算机图书馆中心OCLC(Online Computer Library Center),作为提供数字资源信息服务的机构之一,不仅面向国内开放信息资源,更将世界范围内的数字资源加以共享,时至今日该中心仍是世界上最大的图书情报服务机构之一。20世纪90年代美国实行数字图书馆先导计划,该计划由美国国家科学基金会负责,第一期计划为1994—1998年,实现了推动收集、存储、组织数字化资源技术手段的发展,使数字化信息能够通过网络进行查询、存储和管理。1999—2004的二期计划参与的大学数量由一期的6所增加到20所,并进行了以人文和系统为中心的信息服务研究。其他国家如德国、澳大利亚、新西兰、日本等也纷纷效仿开展了本国的数字图书馆信息服务发展计划。由此看出,政府的支持力度是影响数字图书馆发展的重要因素之一。
除政府引导的项目之外,国外数字图书馆推进信息服务的大数据实践主要还有以下几种方式:一是传统图书馆建立信息服务社区实体行为智能分析引擎,例如20世纪90年代数字图书馆的个性化信息服务功能开始兴起,美国康奈尔大学图书馆、弗吉尼亚公共健康大学图书馆、华盛顿大学图书馆以及亚洲的新加坡国立图书馆等都逐渐提供此项服务,其中比较具有代表性的数字图书馆个性化信息服务系统是My Library,该系统通过采集用户数据分析挖掘用户行为习惯,建立实体行为智能分析数据库引擎。二是数据资源服务公司积极利用大数据技术拓展业务。美国俄亥俄州Over Drive公司,在2012年4月的第一季《大数据报告》发表声明:我们和图书馆有长期的合作,我们能从图书馆获取大量的数据,并且我们可以将这些数据提供给出版商和其他跟自己图书馆有合作关系的图书馆,允许他们自由下载,不收取任何费用。我们的数据很丰富,包含了电子图书、有声图书、图书下载情况、访问浏览记录等等。Over Drive公司利用数据挖掘和分析技术对这些数据进行分析,得出的结论是:电子图书的浏览和下载情况对图书出版社和图书经销商都有很大的影响,即图书出版社和图书经销商都可以根据读者对电子书的浏览下载情况来出版和进购书刊。三是众多研究机构积极开展大数据项目的研究与实践。如美国Library Journal举办的“Future of the Academic Library Symposium: E—Text Big Data and Access”学术研讨会;2009年8月,约翰霍普金斯大学图书馆构建一座数据研究基础设施,用来管理过去从教学和科研中产生的海量增长的数字资源;部分高校数字图书馆对于大数据的侧重点在“数据监护”上,如2012年初,巴斯大学成功完成Research360项目的研发,该项目定义了基于终端对终端的360机构科研生命周期的概念,并列出了图书馆在科学数据管理的不同操作过程中能够提供什么样的信息服务,最终实现了图书馆内部对数据的高效管理。