高校图书馆本身拥有很多纸本资源,随着信息化建设的发展,大量的数字资源,如电子图书、期刊、数据、网络资源涌人高校图书馆。智能手机、平板电脑等移动终端的普及使读者不受时空限制即可获取知识,随之而来的是高校图书馆的移动客户端、WAP网站、数字图书馆等如雨后春笋般涌现,使用户的数据量爆发增长.面对如此海量的数据,高校图书馆应主要分析、挖掘用户的借阅记录、查询日志、社交活动、移动终端使用记录等各类半结构化数据,因为这些数据中包含了很多隐性价值,对改善服务方案、提高服务效率、开展个性化服务有很大帮助。
随着各种新信息技术的不断发展,网上数据库、网上书城以及公开免费的网上图书资源充斥着互联网,给传统的高校图书馆带来了压力,读者流失日益严重。而大数据为高校图书馆解决这一问题提供了新的思路。高校图书馆可以借助大数据技术对读者需求数据(包括借阅记录、咨询记录、荐购记录等)进行分析,不仅可以了解读者的信息行为、需求意愿及知识运用能力,还可以深度挖掘读者在交互型知识服务过程中的潜在需求,从而有针对性地开展服务并吸引读者,以应对生存危机,同时利用读者不断增长的信息需求促使高校图书馆的拓展服务持续延伸、完善。
高校图书馆的核心价值就是为学生、教师服务,教师的科研成果、学生的论文成果在某种程度上代表着高校的教学、科研水平。图书馆只有了解师生的需求,掌握其阅读习惯,才能量体裁衣提供优质服务,进而提升整个学校的科研水平。高校图书馆要充分利用大数据技术和大数据思维,发现潜在价值信息,为师生提供高效、智慧的服务,这是未来高校图书馆发展必须做到的。
首先,高校图书馆应用大数据具有现实可行性。教师、学生在使用图书馆时会留下使用痕迹、用户行为日志等这就形成了很多有价值的数据。其次,高校作为科研重地,对新技术、新思想的敏感性很强,在高校图书馆中使用大数据技术并不是什么难题。此外大数据技术不是一项具体的技术,而是数据采集、数据存取、数据处理、数据挖掘等技术的整合,这些技术相对来说已经很成熟。高校图书馆面对新技术、新思维的冲击,要抓住发展契机,转变服务模式,实现可持续发展。
大数据是一把“双刃剑”,它涉及隐私问题,包括用户姓名、邮箱、电话号码等,具有关联性和累计性,一旦信息泄露、滥用,将对用户造成极大危害。高校图书馆存在着大量的读者数据,如用户查询记录、用户借阅数据及手机客户端访问日志等。图书馆为了改善服务方式,提供优质服务,需要对这些数据进行分析,通过数据挖掘、知识发现等技术,了解用户阅读行为。另外,这些数据除了用于记录读者的个人信息外,还隐藏着许多重要信息,如电话号码、邮箱、行为记录、社交网络信息等。高校图书馆应高度重视读者隐私,树立高尚的职业操守,在正当、合法的范围内使用读者数据。
高校图书馆大数据的来源也呈多样化特征,除了传统的电子图书、期刊、论文数据库等结构化数据资源外,还包括以下大量的非结构化信息资源:
(1)智能设备数据
像RFID数据信息,装有RFID图书的信息,可以自动实现资源的跟踪和分析;像门禁系统,保留有大量读者的进馆出馆信息,可以帮助我们根据读者的来馆时间,做好相应的人员配备,提供更好的服务。
(2)物联网数据
可以通过在图书馆不同位置或环境中放置传感器,来对所处的环境和资源进行数据采集,通过长时间积累,可以产生巨大的数据量,有助于我们分析图书馆的使用情况,优化资源配置。
(3)互联网数据
随着社交网站的普及应用,这部分数据的产生速度超过以往任何一个传播媒介,由于参与用户众多,且数据中包含用户丰富的情感特征,是图书馆服务的一大评价指标来源。另外像OPAC读者的检索记录、数据库读者的访问记录等一些用户行为数据,也包含着读者丰富的信息。是图书馆大数据的重要组成部分。
(4)科研共享数据
高校图书馆作为一个科研服务中心,需要构建科研数据共享平台。科研数据是指数字形式的研究数据,包括在研究过程中产生的能存贮在计算机上的任何数据,也包括能转换成数字形式的非数字形式数据,如调研结果、神经图像、实验数据、传感器读取的数据、遥感勘测数据、来自测试模型的仿真数据等。科研数据是研究过程中重要的研究成果,包含着巨大的研究价值。长期以来,高校虽然有丰富的科研数据,但是往往局限于本课题组、本单位使用,没有经过有效的整理和建库共享,造成了科技资源的极大浪费。因此科研共享数据是图书馆需要重点收集的一个大数据来源。
(5)移动互联数据
随着高校移动图书馆的普及,图书馆可以利用移动互联技术,获取大量读者访问数据,从而分析读者的使用习惯、阅读倾向等,进而帮助我们开展有效的分析、预测其知识服务需求。
随着图书信息资源的不断发展,读者对于图书馆的要求也越来越高,在大数据时代,图书馆开始具有大数据特征。
首先,图书馆的数据资源既有一些基本的文献资源、光盘数据资源、网络资源等,也有一部分读者信息和提供服务的信息,还有图书馆自身发展的数据信息,这些数据在编码和格式上在内部都无法达成统一,形成了大量的异构数据;
第二,图书馆的数据资源每天都在增长,全国图书馆数字资源总量是一个庞大的数据集。图书馆必须根据用户的服务信息等数据做出相应的服务策略转变,对大量数据的分析与潜在价值挖掘显得不可避免;
第三,图书馆一些新兴服务方式的出现,比如,24小时服务、其他网络服务等,增加了用户的数据信息,要对这些数据进行挖掘和整理需要一些限定的条件和环境。最后,虽然图书馆已经进入了一个发展比较迅速的阶段,数据库的记载与统计也达到了新的水平,但是这些数据还需要进行异构处理,找出新型服务方式。
大数据的价值在于可以通过人工智能、计算机科学、数学统计、信息技术等多个交叉学科的大数据技术的应用来挖掘找到隐藏在大数据背后的世界。目前高校图书馆利用大数据的价值主要包括以下几方面:
(1)为资源采购提供决策支持
通过读者使用资源的交互数据,像图书浏览、借还记录、数据库访问、下载记录等,可以有效地评估读者对各种资源的使用情况,通过较集中的访问历史可以预测读者关注的热点,从而为资源采购部门提供决策支持,对需求大的未购买资源增加订购,而使用率不高的资源可以减少或取消订购,从而让有限的资金购买更适合读者需要的资源。
(2)为读者提供个性化服务
高校图书馆里包含有大量读者个人使用图书馆的记录,通过读者的咨询记录、借阅记录、数据库访问记录、检索记录、下载记录等用户使用图书馆资源的所有足迹,同时可以结合读者的专业,及其教务部门提供的个人选课信息、成绩情况等,可以分析读者的兴趣点、服务诉求、学科需求。从而把适合的资源向其主动推送,为读者提供个性化服务,实现图书馆由被动获取转为主动服务的职能转变。通过不断地主动为用户进行探测性的推荐服务,持续性地获取用户的反馈信息,从而对其服务需求进行修正,提高个性化服务的可靠度和精度。
(3)为学科提供研究方向及热点变化
图书馆可以利用大数据对学科进行聚类分析、热点预测、网络分析、可视化分析、引文分析、知识关联分析等技术构建学科的知识图谱,从宏观上分析相关学科领域的研究方向和热点,为科研人员特别是新进入研究领域的学者,以及面临选题困难的硕士生、博士生大幅度的提高研究、学习和创新的效率,让他们可以节约文献调研的时间,迅速地洞察学科领域的研究进展,确定自己的研究方向。
(4)为科研人员提供学术共享环境
高校科研人员在长期的科研活动中,通过观测、探测、试验、调查等科学手段积累了大量的科学数据,这是高校宝贵的数据财富。图书馆有义务采集这方面的数据,同时利用科研人员相同或类似的资源需求,为相同学科或研究方向的科研人员构建虚拟社区,形成学术交流圈,共享科研数据,创造良好的学术共享环境。
大数据的应用将为图书馆大规模数据处理、数据分析、资源整合、开展个性化服务、提升服务能力和服务水平提供新的思路和方案。我国图情界学者已从不同的视角对大数据与图书馆的相关问题如机遇、影响等进行了研究,这对于推动大数据在图书馆的应用、提升图书馆的服务品质有着较大的理论价值和现实意义,同时我们还要关注大数据视角下的图书馆定位及新动向。
(1)图书馆的业务与服务重点应向上游转移
不管是在传统图书馆还是数字图书馆,从资源的利用流向来看,图书馆的业务与服务重点均在下游,即资源的组织、利用与保存。然而在大数据时代,图书馆用户服务并不仅仅依靠结构化数据,如书目资源库、机构知识库、语义化信息等,还可能依靠大量的非结构化数据和半结构化数据,如用户的信息查询行为、阅读习惯等,通过数据挖掘、数据分析等方法为用户提供有针对性的个性化服务。因此,数据的收集、存储、分析、处理将成为图书馆的主要业务,即通过大数据的某些关键技术将海量的复杂数据进行协同处理,再通过数据挖掘、可视化分析等形成具有情报价值和决策参考价值的服务信息提供给用户,以便用户通过图书馆获得准确、及时、有效的信息知识,实现业务与服务的上游转移。
(2)图书馆应成为公共数据存储、处理、分析与服务中心
图书馆特别是公共图书馆作为现代社会公共文化服务的重要组成部分,在文献传递、社会教育、娱乐休闲等方面起着举足轻重的作用,加强信息技术的应用,延伸图书馆服务是近年来我国图书馆界的主要建设目标。但随着全社会进入到了一个以密集型数据的相关分析、处理来推动社会创新发展的大数据时代,同时图书馆服务拓展到了大数据分析、处理领域,图书馆的定位将不只是社会文化服务机构,而是要集社会公共数据存储机构、公共数据分析机构、公共数据处理机构、公共数据服务机构于一身,担负起时代赋予图书馆的更加重要、更加凸显社会存在价值的使命。
(3)图书馆应是一个完整的网络体系
大数据技术对于图书馆的价值所在即是其在用户服务中的应用,目前讨论最多的是数据分析、数据处理和数据服务,而这些技术的实现则需要充足、大量的数据支持,应既包括用户在图书馆的信息行为数据,也包括在社会场所的数据;既包括在一所图书馆的借阅行为、人际社交等数据,也包括在其他信息机构的此类数据,因此,在大数据时代,图书馆应借助于可能产生对象用户数据的多个图书馆的数据支持,甚至还需要借助包括商业中心、社会服务中心、娱乐中心和工作空间等在内的信息中心的数据支撑,只有图书馆间形成协调工作的有机网络体系,才能真正实现数据的共知共享,最大限度地满足用户需求。