作为互联网的重要应用之一——万维网Web自产生之日起就显现出蓬勃的生命力。从最初页面互联、信息互联的Web1.0 到现在的知识互联Web,从人人互联的以社会软件为主体的Web2.0 到将来的智能互联Web3.0,无论是哪个发展阶段,推动Web不断向前发展的主要动力就是资源共享、集成和协同的更高需求。
当前,Web上的应用主要有通信功能、娱乐功能、商务功能、科学研究功能等,其中,媒体文件共享、在线电子商务、搜索引擎、各种在线社区等成为主要功能增长点。
在媒体文件共享中,为了快速、准确地给用户提供其所需要的高质量资源,必须对不同类型的媒体文件进行有效的内容管理和质量管理。在搜索引擎中,需要对抓取到的海量Web资源进行聚集、分类、组织和更新等。在现代全球大力推进的扩展型网络应用——物联网中,为了实现物理世界、人类社会、信息社会的融合,需要多源软件的协同、多源数据的有效集成。由此,资源共享协同问题成为各类网络应用中急需解决的关键问题。
总之,无论哪种网络应用,智能服务是它们共同的最终目标,智能服务离不开资源间的智能协作,而智能协作必须要有资源共享作为其基本支撑。可以看出,无障碍的资源互通、有机的资源组织、高效的资源传递将是实现资源共享的一种有机架构。
网络资源的表现形式多样、开放和动态变化引发了资源共享中的第一个关键问题——资源异构性问题,它是网络资源互通、集成和共享协同的主要瓶颈。当前网络技术的发展已实现了资源间的硬连通,阻碍深层次资源连通的问题主要是资源语义异构问题。因此,需要在适应当前网络资源多样性特征和拓扑的情况下,建立资源语义互通方法,以支持资源的集成与共享。通过对当前相关研究的分析,我们发现学者们一般从以下三个方面进行研究:研究网络资源的表示和描述方法,以表现出资源的全面语义特征;设计算法,让具有不同描述形式的(不同表示语言的)资源间能相互识别及资源集成;设计机制,在不改变现有网络结构的情况下,使异构系统间能够共享资源。只有资源语义互通,异构资源才可能实现真正共享,从而提升网络服务质量。其中,资源表示的结构化和知识化处理、语义相似计算等成为当前解决网络资源异构性的主要途径之一。
资源语义互联互通使得分布异构多样的网络资源共享协作、集成成为可能,但这仅是提升网络效能的最基本的第一步工作。网络资源的海量性、资源质量的多样性,需要有效的资源组织管理机制来提升网络服务质量。以当前网络服务的主要应用之一——搜索引擎为例,先进的计算方法和技术使得网络可到达多种资源并可抓取回资源信息,但人们仍然需要在返回的大量信息中逐条进行判断。
人类在认知事物时,喜欢按照分类体系进行;而自然界和社会事物在分布时,总会呈现出一定的“物以类聚,人以群分”的聚集性。所以,从表面无序的资源分布中发现有序特征并加以利用,建立网络资源的再组织管理体系或虚拟组织,可有效提高网络资源定位和路由效率。另外,网络的动态开放性使得无法界定固定的资源管理边界,网络向人类生活的渗透所引发资源的社会性使得资源具有局部自主性,这些使得运用集中控制管理的方法对资源进行组织已远不能满足高效充分使用资源的要求。因此,现在的网络资源还需要分散、灵活的组织管理,以及灵活的资源协作体系。现代计算科学和数据挖掘技术的发展,以及网络数据的可收集性等,使得研究者们可以通过观察和统计分析,得到网络资源的分布特征,然后基于其宏观特征,设计新型的资源管理模式,由宏观引导微观,微观反过来又影响宏观,使得网络资源之间可以更好地协作。
具体来讲,当前Web资源管理可以分为以下四种模式。
信息资源的直接管理是一种直接面向网络信息资源单元的组织管理方式,它主要表现为文件、自由文本、超文本、网页或网站等组织管理方式,是最简单,也是粒度最小的Web资源管理方式。
信息资源的再组织管理是对资源直接管理模式所组织信息的再组织。根据该再组织体系对用户可见还是不可见,信息资源的再组织管理可以分为两大类:一类是用户可见的组织管理模式,典型代表就是目录指南方式。目录指南方式也称为主题树方式,它将信息资源按照事先确定的概念体系分门别类地逐层加以组织,然后显式地提交给用户,用户先通过浏览的方式层层遍历,直到找到所需要信息的线索,再通过信息线索链接到相应的网络信息资源。它的缺点是必须事先建立一套完整的主题目录分类体系,而且用户必须对分类体系有一定的认识,同时,为保证主题树的清晰性和资源的可用性,主题目录体系结构又不宜过于复杂,每一类目下的信息索引条目也不宜过多,这就与体系的完整性产生了冲突。
另一类组织管理模式是用户不可见的,搜索引擎是这类模式的一个典型代表。搜索引擎是一种Internet网络服务,它的主要任务是在Internet中主动搜索其他Web站点中的信息并对其自动索引,其索引内容存储在可供查询的大型数据库中。当用户利用关键字查询时,该网站会告诉用户包含该关键字信息的所有网址,并提供通向该网站的链接。它的资源组织方式对用户来说是不可见的,其优点是能够高速处理大量结构化和非结构化的信息,对于信息处理也更加规范化,特别是在信息大数据量的环境下,其优点更为突出,但它对用户提出了一定的要求,要求用户必须掌握一定的检索技巧,包括关键词及其组配的选择。
信息资源的内容重组管理是在对源信息所含知识内容进行分析解构的基础上,运用一定的科学方法将源信息进行重新组合,从而得到新的信息产品,实现信息增值的过程。例如,返回给用户查询的结果不再像传统搜索引擎一样,提供的是不同链接的列表,而是一个结果页面,其中包含了不同来源网站或网页中满足查询需求部分的内容组合等,这也是下一代智能搜索引擎的服务目标之一。
互联网是无中心控制的分布式网络,在表面无组织的网络运行过程中,经常会隐含、甚至会涌现出一些有序的组织结构,这些有序的组织结构对于保持网络稳定、鲁棒性,以及发现网络中的重要信息都具有非常重要的价值。所以,在网络资源管理中,除了上述三种管理模式之外,许多研究者们开始从网络资源组织结构发现的角度进行研究,尤其是许多新兴计算结构和应用模式的出现,使得网络资源更加丰富和多元化,网络资源间的关系也更丰富和复杂,因此,通过对网络资源间可见的关系进行分析,发现资源间隐含关系,引导资源组织和有序构造,将有效提高资源的使用。这方面的研究随着网络数据的可得性、计算技术的进步等成为当前研究的热点。
这里以网络上新兴资源Blog和新型计算模式对等结构为例进行介绍。
Blog是继E-mail、BBS、ICQ之后出现的第四种网络交流工具,是一种借助于网络来表达个人思想的出版方式,它其实就是一个网页,通常是由链接和简短且经常更新的帖子所构成,这些发布的文章都按照年份和日期倒序排列。Blog资源提供主体是社会的人,资源在网络上所呈现的关系隐含着人的知识、认知及社会结构信息。由于Blog资源的提供门槛低,数量飞速增长,还有Blog所隐含的人类社会信息,使其成为网络上的一种重要资源,社会学、计算机界等不同领域的研究者们开展了Blog结构关系发现的研究,其主要研究方法就是通过链接关系分析,实现对Blog资源的组织管理和基于Blog的社会关系发现。
对等结构模式(P2P,Peer to Peer)是一种架构在互联网上的新兴计算模式,其节点间关系是平等的,即没有客户端和服务器之分,资源提供者同时也是资源使用者,所以,P2P网络中资源数量大、内容丰富,许多文件共享、视频共享、即时通信等都是基于这种模式。但是由于P2P节点具有自私性和自主性,资源质量混杂、变化快、数据量大等特点,使得资源管理和使用成为对等结构在更多、更广领域发挥效能的瓶颈。同时,它的节点角色的平等性使得网络系统不可能从全局角度进行资源组织管理的整体控制,需要设定局部策略,使节点间协作通信,从而构成一定的有序结构。这种自主构造的结构有时是显式显现的,有时呈隐式,对这种结构进行发现并进行引导,可以有效提高网络资源的服务效能。
可以看出,通过制定标准规范,建立一定的搜索、筛选、分析、排序、存储等手段使分散、无序的信息形成一个有序的结构;发现资源隐含关系,设计资源协作策略,促进资源自主形成有序结构,这两种组织管理方式对当前网络资源管理和使用都具有重要意义。第一种研究是从网络资源表现形式对资源进行的组织管理;第二种研究将挖掘资源背后的特殊属性,尤其是其社会属性、认知属性和意识属性等,通过对其可见特征分布的分析,建立其分布模型,并在微观层面建立局部节点策略,促进协作和有序结构的生成,以利于资源的高效利用。两类研究中,前者着重于主动的全局设计和规范,后者着重于适应性地发现和局部设计,两者相辅相成,将大大提升资源管理和使用的效能。
这也成为本书内容结构组织的一个重要依据。在本书所介绍的知识通信架构中,通过探讨资源模型语义表示规范及语义计算等问题,建立显式的信息门户模式(我们称之为“资源共享平台”),实现了标准规范支持的Web资源组织管理;同时,通过发现网络信息资源的宏观拓扑规律,构造微观自组织协作构造方式,宏观指导微观,微观适应宏观并促进宏观发展,实现了灵活可扩展的Web资源自主管理和使用功能。
由于对等结构的广泛应用和对等结构有待挖掘的巨大潜能,本书中的自主协作的网络资源组织方式研究主要以对等结构为背景展开。
实现网络资源的互联互通,并在此基础上建立或构造良结构的资源管理,就好像各种类型的交通子系统(公路、铁路、水路、航空等)具有统一地图描述,并且根据地域等信息进行了有效组织和联通,但是要想在这样的交通网络中实现快速、准确的运行,还需要优化的路径规划。在路径规划中,必要信息的获取和传递是路径规划质量保证的前提。网络资源的使用也是如此,资源互通和资源组织管理,构成了可高效利用资源的基础设施,但还需要高效的资源信息传递,才能最终实现高质量服务。通信协议是通信各方事先约定的规则,用来实现网络连接。要实现网络资源共享,支持不同资源间互联互通的协议是不可缺少的部分。在现代网络技术中,TCP/IP协议使得不同终端的计算机设备得以相联相通,但是新兴网络应用对其提出了许多智能适应性功能需求。例如,无线网络、移动网络、Ad hoc网络、汽车平台通信网络等动态网络的快速发展,需要智能协议体系等支持其动态复杂环境中信息的准确、快速传递。由此,许多对内容感知、环境感知的路由协议框架成为当前研究的热点。
语义互通、资源组织和智能协议是当前应用层网络资源共享研究领域的三个重要问题,其关注点各不相同。但这三个问题又是环环相扣,具有一定的内在联系的,前者可以作为后者的基础设施,后者是基于前者的进一步工作。
已有相关研究工作一般都是面向网络层,而现代新型网络技术及计算机技术的发展,为在更高层次实现新的功能、提升服务质量提供了新的途径。