工程科技大数据资源作为工程科技研究过程所产生的数据形式,涉及论文、发明专利、科研人员、科研团队与机构、项目等众多类别。当前,工程科技大数据已成为一个国家和区域第一生产力和第一动力形成的基础性、战略性资源,极大地扩展了面向创新的知识服务范围。在实践中,明确工程科技大数据与知识服务的概念与内涵,对于推动工程科技大数据和智能知识服务融合发展具有极其重要的意义。
大数据又称巨量数据、海量数据,最早由麦肯锡咨询公司于2010年10月发布的《大数据:创新竞争和提高生产率的下一个新领域》研究报告中正式提出,泛指由数量巨大、结构复杂、类型众多的数据构成的数据集合 [1] 。工程科技大数据作为大数据的一种下位体概念形式,特指工程科技领域内的海量数据与复杂类型数据的集成。不同于一般意义上的网络及行业大数据,工程科技大数据一般具有海量性、高增长性、多样性、时效性、可变性、价值高等特征 [2] 。在大数据、云计算、人工智能、移动互联网和物联网等新兴信息技术深度融合的大背景下,工程科技大数据作为新的生产要素资源,支撑供给侧结构性改革、驱动创新发展和绿色发展的作用日益显现,正成为引领工程领域质量变革、效率变革、动力变革的第一动力。
究其本质,工程科技大数据作为区别于传统文献数据的数据集合,其内容主要包括工程科技领域内的成果数据、活动数据及各类资讯数据 [3] 。其中,成果数据主要包括工程科技领域内各学科所记录形成的数据、资料、文献、报告、网络科技报道等承载知识的数据;活动数据主要包括工程科技领域内的实体数据与知识关系数据,其中实体数据主要有科技项目、学术会议、科技团队、科技组织、科技人才、科技机构、科技奖项、科技主题、科技概念、研究设备、研究模型、研究方法等,而知识关系数据主要是语义关系及计量关系等数据;资讯数据是指网络或平面媒体每天发布的工程科技信息,这类信息具有及时、权威及互动性较好的特点。
工程科技大数据可以将数据分析和整合的结果应用于为工程科技研究提供决策支持,也可以将分析与建模的成果转化为具体的应用集成到各个业务流程中,为科研活动直接提供数据的支持 [2] 。从这个意义上来说,工程科技大数据已日益成为科研创新的“助推剂”与“支撑点”,其在这一过程中所发挥的作用主要体现在以下几个方面。
1.面向工程科技大数据的知识资源已成为供给侧结构性改革的有力抓手
面向工程科技大数据的研究与应用能够解决科学决策、产业行业航标方向、学科发展规划布局及科技前沿研究等领域的相关问题。这意味着在实践中,工程科技大数据在知识资源的全面性、权威性、深度性和及时性方面已成为资源供给侧结构性改革的有力抓手。同时,工程科技大数据亦能助推科研管理的现代化,其作用主要表现在:工程科技大数据资源来源广泛且类型丰富,包括开放资源、商业资源、二次加工资源与知识计算资源等类型,其应用能够突破传统以“文献”为主的资源,实现“文献+资讯+专业数据集+科研实体”的知识资源供给,从而能够从不同层面、不同角度满足用户对数据资源的个性化需求。
2.工程科技大数据是支撑人工智能发展的核心知识资源体系
党的十九大报告提出,推动互联网、大数据、人工智能和实体经济深度融合。在我国全面实施国家大数据战略、构建数字经济、建设数字中国的大背景下,工程科技大数据作为核心知识资源,能够记录科学真理验证过程、实验观测/研究结论、网络交流等科技情报知识线索,利用自然语言处理和专家系统的工作基础,通过将其进行语义化和数据化,使之成为“人—机—物”三元计算的数据基础,而人工智能发展的核心之一是高质量、海量、可计算的数据,有效帮助机器更好地理解物联网和认知人类知识,特别是具有结构化、语义化与关联化的工程科技大数据资源则更加有利于人工智能算法模型的训练与生成 [4] 。
3.工程科技大数据是预防技术突袭与渠道科技成果转化的数据基础
科技成果作为科学研究与技术开发所产生的具有实用价值的成果,其转化在国家创新体系建设中具有重要战略意义。而工程科技大数据所蕴含的专利技术、前沿项目及科技论文等科学技术研究成果,目前已经成为科技创新、产业技术分析、企业转型升级、前沿技术预测预警的基础环节 [1] 。在科技成果转移转化的渠道流程中,工程科技大数据是承接上游企业与下游科研机构的关键环节。在科技情报的生成中,利用工程科技大数据计算推测出领域科学技术发展的重点机构、重点任务与发展趋势,对企业技术革新与科研机构科技成果的深入转化应用具有极其重要的意义。
大数据智能是指运用数据挖掘、深度学习、机器学习、可视化等技术形式,面向大数据进行分析、处理和加工,提炼出其中的信息和知识,并以易于理解的方式展现给用户,从而赋予大数据“智能”,为用户基于大数据的决策和预测提供客观、准确和科学的智能支撑 [5] 。当前,随着战略性信息技术的飞速发展,人类社会正在步入大数据智能时代,国家层面上的“大数据”“智能+”和“新基建”等战略的实施,推动了大数据智能在金融、交通、医疗、商业等多个社会领域的融合发展,使其成为面向新兴决策的重要知识来源,极大地提升了决策与预测的效率和稳定性。
在实践中,由于各方需求的差异,大数据智能的本质也呈现出多维性:就技术而言,大数据智能是人工智能与大数据的融合,其能够搭建相关模型来探索解决方案,实现面向事物与现象的预测;而从管理的角度而言,大数据智能的本质则是服务于决策,即通过应用一系列预测性分析与处理技术提取大数据中有价值的信息和知识,支撑科学与高效的决策,从而提升面向复杂社会实践行为的管理能力 [5] 。由此可见,尽管大数据智能的本质在不同需求表达下表现出较大的差异化,但其作用的目标则具有同一性,即为主体决策提供相关信息和知识。“大数据+方法+计算能力+场景”已成为大数据智能形成的核心范式 [6] 。在这一范式中,大数据是基础,方法是思维方向(特指人工智能),计算能力是依托,场景则是需求表达的媒介。
在工程科技领域中,大数据智能的本质更多地体现为知识发现过程,即借助算法和特定的工具,解析工程科技大数据中的结构化和非结构化信息,从中提炼出新的知识,以支撑工程科技领域的创新与决策 [7] 。在这一过程中,大数据智能所发挥的作用主要体现在以下两个方面:
(1)驱动式知识发现,即依托各类算法对数据的分析,产生并揭示新的知识,从而在工程科技领域拓宽知识发现的前景,同时也促进数据挖掘、分析和加工等各项技术的变革,驱动大数据在工程科技各学科中的跨界扩展。
(2)融通式知识发现,即基于大数据的智能化知识整合。在这一范畴下,工程科技领域中的原有知识能够更加灵活地进行整合,形成新的知识,极大地扩展了工程科技中各学科的交融与扩展,推进了跨学科知识的交叉、融合与管理。
知识服务作为大数据时代突破“信息过载”和“知识饥渴”壁垒的新型服务形式,其能够应用人工智能等先进信息技术和各领域所储备的专业知识资源,根据不同的需求提供知识产品和相应的解决方案,以支撑用户的决策,解决用户的问题。知识服务的概念最早是美国专业图书馆协会(SLA)于1997年在其会刊 Information Outlook 上提出的 [8] ,这一概念体系指出知识服务的价值并不仅在于所提供的信息资源的数量,更多地体现在服务所蕴含的知识量。此后,国内外学者从不同的角度探索并界定了知识服务的概念与内涵。目前,尽管学术界对知识服务的认识还存在分歧,所提出的各种定义侧重点各异,但对其实质的探讨则在3个方面基本达成了共识:一是知识服务的基础来源于服务人员的知识储备;二是知识服务的目标在于应用信息、知识或产品提供解决方案,以辅助解决用户的实际问题;三是知识服务的价值取向源于问题解决的价值效益 [9] 。
在工程科技领域,由于所涉及的学科众多,各类问题与环境繁杂,因而在这一领域中知识服务的本质呈现出一种连续性、多层次的状态,即知识服务能够贯穿工程科技创新的全过程,并根据不同阶段所涉及的知识资源不同而分为不同的层次 [10] 。这意味着,工程科技领域的知识服务只有在某些特殊的层次上才具有个性化和专业化的内涵,而对于一些共性的问题则需依靠标准化和通用化的解决方案,从而达到服务节本增效的目标。此外,通过应用工程科技大数据所提供的丰富信息资源,知识服务还能够借助先进的信息分析、挖掘、重构和检索技术,深度融合大数据智能,有针对性地开展知识资源和相关性关系的探索,提供导向性的服务,辅助用户解决问题,以满足用户的知识需求 [11] ,从而进一步激发科研人员的创新性思维。在这一过程中,基于工程科技大数据智能的知识服务所展现的新内涵主要体现在以下几个方面。
1.集成化与集约化融合的服务形式
面向工程科技大数据智能的知识服务能够借助各类分布式信息资源和先进的信息技术,将知识服务专家、研究人员及各类知识理论和经验融合为一体,形成主体间条理清晰、关系纵横的学术网络,充分发挥各学科间资源、人员、服务和系统的整体优势,以集成化和集约化融合的服务形式解决传统方式无法面对的问题,以实现高效服务的目标。
2.资源密集型的服务样式
面向工程科技大数据智能的知识服务本质上是一种基于知识内容的服务,其价值更多体现在知识服务所供给产品所蕴含的知识“浓度”,即知识量与知识内容的深度。这意味着在工程科技大数据体系下的知识服务更加注重挖掘、萃取、集成和分析知识资源内在的价值,以资源优势为基础,精准地为用户提供解决方案,提升用户对知识的获取、利用和创新能力,并以此强化知识服务的价值。
3.以过程性为主的服务特性
面向工程科技大数据智能的知识服务所蕴含的过程性主要有两个层次的含义:一是知识服务能够辅助科研人员开展面向知识资源的获取、吸收、应用和再创新等系列活动,并依据实际需求将这一过程反复迭代,调整和优化其所提供的各类产品和方案,以满足科研人员的创新需求;二是知识服务可以融入科研人员创新的整个过程,高效捕捉科研创新不同阶段的知识需求,实现“融入环境,嵌入过程”的目标。