现今社会是高信息化发展时期,互联网、物联网、云存储和云计算等新技术快速发展,网上购物,在线阅读信息,社交网站已经进入人们的活动,随之产生数量庞大的非结构化数据,半结构化数据及结构化数据,数据量增长迅猛。依据相关分析显示,在2009年世界范围内数据量大小是2ZB左右。在2010年数据量比零九年增加了百分之四十,而2011比零九年增加了百分之八时,这个数据量相当于平均每人产生数据量大于二百GB。面对如此大的海量数据,如何进行管理和利用成为人们关注的重点。目前人们习惯把海量数据称为大数据,大数据对人们生活和工作有着十分重要的影响。目前大数据被广泛应用到各行业中。在互联网中,社交网随着人们交流分享信息增加,数据量快速增长。在社交网中每天发布的日志,分享资源信息,发布视频音频等数据量越来越大,数据类型非常复杂,使用传统数据处理手段无法完成大数据处理工作。当前使用混合型非关系数据库可以处理大数据,并且混合型非关系数据库具有非常强的容错性和较高的可扩展性,能够为用户更好地提供服务。当前被人们广泛使用的微信、微博、搜索引擎等都面临大数据所带来的挑战。随着网上购物的兴起,淘宝、京东商城、易购网等在线购物网站同样要处理大量数据和交易信息,这类问题可以使用分布式文件系统完成数据处理和大数据分析。
随着信息化和数据化技术的发展,在大数据环境下图书馆资源建设具备了技术条件。在大数据环境下图书馆要提高自身的竞争能力,图书馆在分析清楚能够在大数据环境中获取什么数据。当前图书馆中数据可以分为以下几种:
第一种,纸类期刊及图书,期刊主要有现刊、期刊合订本等,包含了各个学科的内容。图书包括外文图书、中文图书。外文图书主要有外文地理图书、外文语言图书、外文历史图书等科目。中文图书主要有自然类图书和社会类图书。
第二种,图书馆数据化建设资源,图书馆通过数字化建设,使图书馆数据库资源积累和海量电子图书信息,大量视频音频资源。图书馆数字化建设是图书馆资源重要组成部分,它可以存储海量数据,其资源量随着时间推移还在快速增加。
图书馆传统数据主要包括纸类期刊及图书数据和图书馆数字化建设数据,它们增长速度很快,但都是结构化类型数据,在传统图书馆管理技术下可以满足读者使用需要。在大数据环境下,图书馆传统数据不能满足读者对数据动态查询需求,图书馆可以通过大数据获取非结构化数据和半结构化数据,这两类数据是图书馆在大数据环境下需要使用的数据资源。图书馆通过对非结构化数据和半结构化数据采集、筛选、重组,实现资源动态信息查询,从而满足读者使用需要。
大数据主要包括社交网络平台数据,读者浏览查询资源时产生的数据,单位或机关发布实时信息三类。社交网络平台数据主要由微信、微博等社交类网站提供,主要包含读者发布交流信息,以及学者和名人的观点看法,还有非正式出版物信息数据,这足以说明社交网络在人们生活中的地位。图书馆大数据可以通过社交网络采集读者信息、阅读习惯、兴趣爱好等。图书馆根据采集信息为读者定制个性化服务,提高服务质量和品质。读者浏览查询产生的数据在图书馆传统管理模式下,是无法保存和查询的,随着网络发展移动设备,平板电脑等设备被广泛应用,读者使用以上设备浏览查询信息数据,可以使用对大数据的采集、分析、重组保存到图书馆非结构化数据库中,从而使图书馆大数据更加完整。单位或机关发布实时信息大部分是社会关注热点信息,这种信息大部分以非结构化和半结构化形式存储,图书馆可以使用大数据技术采集这类信息,这些都是图书馆完善服务体系,提高服务质量提供非常有价值的参考信息。