语义网、社会网络计算与Web资源共享最新章节_王莉著

2.1 数据、信息和知识

计算机网络资源具有多种形态，有学者称现在的网络是“数据海洋、信息孤岛”，还有学者称当前网络资源使用中存在的主要问题是“信息爆炸、知识贫乏”，那么，网络中的资源哪些是数据？哪些是信息？哪些是知识？针对计算机网络资源，如何区分这三种不同的资源表象？

本节将以计算机网络资源为背景，对这三个概念进行阐述和分析，并总结出一种计算机领域的以可计算为视角的知识概念。

关于数据、信息和知识这三个概念间关系和区别的阐述，最早是出现在诗人T.S. Eliot ^[6] 的诗句中。在哲学、知识工程、计算机等不同领域中有多种描述。

数据：Applehans等 ^[7] 认为数据是一系列外部环境的事实，是未经组织的数字、词语、声音和图像等。也有学者认为，数据泛指对客观事物的数量、属性、位置及其相互关系的抽象表示，以适合于用人工或自然的方式进行保存、传递和处理。在计算机领域，数据是计算机程序加工的“原料”。随着计算机软、硬件的发展，以及计算机应用领域的扩大，数据的含义也扩大了。当今计算机可以处理的图像、声音、视频等都被认为属于数据范畴 ^[8] 。

信息：1948 年，信息论的创始人C·E·香农在研究广义通信系统理论时把信息定义为信源的不定度。1950 年，控制论的创始人N·维纳认为，信息是人们在适应客观世界，并使这种适应在被客观世界感受的过程中与客观世界进行交换的内容的名称。1964 年，R·卡纳普提出语义信息。语义不仅与所用的语法和语句结构有关，而且与信宿对于所用符号的主观感知有关，即语义信息是一种主观信息。20 世纪 80 年代，哲学家们提出广义信息，认为信息是直接或间接描述客观世界的，并把信息作为与物质并列的范畴纳入哲学体系。

信息和数据关系紧密，但信息建立在数据之上。20 世纪 90 年代以后，一些关于数据和信息关系的经典定义有：

（1）数据是从自然现象和社会现象中搜集的原始材料，根据使用数据人的目的按一定的形式加以处理，找出其中的联系，就形成了信息。

（2）信息是有一定含义的、经过加工处理的、对决策有价值的数据。信息＝数据＋处理。

在计算机领域，人们较为承认第二种定义。

建立在信息之上的是知识。关于知识的一些经典定义有：

（1）知识是人们在对信息进行归纳、演绎、从定量分析到得到定性结论的过程中所实现的、抽象的、逻辑的东西。

（2）国际经济合作组织组编的《知识经济》中对知识的界定，采用了西方20 世纪 60 年代以来一直流行的说法——知识就是知道了什么（Know-what）、知道为什么（Know-why）、知道怎么做（Know-how）、知道谁（Know-who）。这样的界定可以概括为“知识是 4 个W”。

（3）Polanyi在 1958 年出版的《个人知识》中把知识分为隐性知识（Tacit Knowledge）和显性知识（Explicit Knowledge）。根据野中郁次郎（Nonaka）和竹下（Takeuchi）的定义，所谓隐性知识，就是高度个性化而且难以格式化的知识，人们的理解、直觉和预感都属于这一类。所谓显性知识，就是能用文字和数字表达出来，容易以数据的形式交流和共享，并且经编辑整理的程序或者普遍原则。

（4）孔繁胜在《知识库系统原理》中从计算机科学的角度对知识进行了分层和分类，即知识包含四层：事实、概念、规则和启发式知识；两类：一种是表示“是什么”的陈述型知识，另一种是关心“怎么做”的过程性知识。

（5）从计算的角度，中科院计算机语言信息中心董振东教授在 2003 年 11月“知识的计算与《知网》”讲座中说，“知识是一个系统，它揭示了概念与概念之间，以及概念的属性与属性之间的关系；知识体系的广度与深度取决于上述关系的多少。对于面向计算机的知识体系的质量的关键是它的可计算性，以及由此为具体的应用而能够提供的服务。”

可以看出，知识之所以在数据与信息之上，是因为它与决策相关，更接近行动。信息从数据中提取出了具有一定意义的内容，但它的价值往往会在时间效用失效后开始衰减，只有在人们对信息进行归纳、演绎、比较后，沉淀有价值的部分，并与已存在的人类知识体系相结合，这部分有价值的信息才会转变成知识。

总之，信息来源于数据并高于数据，信息的内容靠数据来体现。知识来源于信息并高于信息，知识的内容是人类在认知过程中所得到的有价值的信息。数据、信息和知识的层次结构关系如图 2-1 所示。

图 2-1 数据、信息和知识的层次结构关系

分析计算机网络资源形态，由于其载体的特殊性，我们认为，所有计算机网络资源的本原都是数据；当以一定逻辑关系组织这些数据并在网络中呈现，使其变成有具体含义的数据流时就构成了信息；知识是信息经过加工、整理、解释、挑选和改造、被进行了结构化处理并被结构化表示出来的具有意义（语义）的系统 ^[9~10] ，计算机可根据其语义和结构进行计算，即从已知的输入，在特定的控制下，经过有限次操作得到新的输出。基于此定义，我们可以看到，当前计算机网络技术的发展，使得计算机网络上承载了越来越多的知识资源。这是因为，为了使网络资源互通并有效利用网络资源，许多资源描述语言，如HTML、XML、RDF、OWL等被提出并应用。网络的开放性和生长性使得这些不同表现形式的资源共存于网络。XML提供了资源描述的轻量级语法结构；RDF给予语法和部分语义支持；RDF Schema提供了资源语义关系说明；本体提供了一种共享概念模型的明确的形式化规范说明，并被用来进行网络资源信息的结构定义和语义关系的清晰描述，是一种支持知识共享和重用的形式化理论，它可以支持复杂的自动查询、维护和访问信息资源，构成了具有结构的、可计算的、并可推出新信息的知识 ^[11~13] 。当前许多资源发布者在发布资源时采用RDF、OWL进行描述，许多领域本体被创建，许多中间件产品被应用，以支持非结构化资源到结构化领域本体的映射，从而使资源描述结构化和知识化。同时，网络信息资源已经不仅是静态页面信息，而且还包含多模态链接关系，这些链接关系构成一定结构，通过这些结构能够发现一定的知识体系。所以，王克宏 ^[5] 说，当前计算机处理的对象已经从各种类型的数据发展到具有丰富内容的知识。也就是说，资源表示语言的发展和各种工具的支持，使得当前网络资源共享已经从以前的数据共享上升到了知识共享，出现了许多新需求和新挑战，同时也为在更高层次提升网络服务质量提供了新的契机。

所以，为在更高层次实现Web资源共享，需要面向网络知识资源共享的新理论和框架。