本节将开始介绍计算传播学知识传播研究的新方法。网络文本分析(Network Text Analysis)是一种半自动化的知识发现技术,能够通过非结构化的文本中提取实体和实体之间的关系 。个体所使用的词语,反映了这些词语在当前语境下在个体脑海中的关联性 。也就是说,词语在句子中的共现关系,是因为在个体的认知层面上,这些词语之间存在着某种关联性。从这一角度而言,语言可以表示为以概念和共现关系所组成的网络 。这种包含了实体以及实体之间关系的文本网络,通常会根据研究对象和研究领域的不同而被具体命名,例如概念网络 、知识网络 、心智模型 、语义网络 ,或者是元网络 。网络文本分析可以从网络结构的角度出发对文本的特性进行测量,可以通过一些变量来衡量文本或者主题在网络中的位置,并且可以根据文本的关联程度发现文本主题等等 。图2.1展示了文本网络分析基本步骤,即获取原始文本、将原始文本转换为网络表达、进行进一步数据分析。
图2.1 文本网络分析步骤示意图
虽然文本网络在不同的研究语境下具有不同的名称,但是其建构本质是相通的。以概念网络为例,概念网络以概念为节点,以概念之间的内在关联为连边建构网络结构 。概念网络的建构为文本分析提供了一种实证分析方式。概念网络可以被认为是语言的社会结构,或者是现存社会知识的表征。
概念网络的基本元素可以归纳为:概念(Concept)、关系(Relationship)和陈述(Statement)。在概念网络中,每个概念都被表达为网络中的一个节点,概念之间的关系通过节点之间的连边进行表达,而所有的概念和关系都是提取自陈述(即概念所在的文本)。概念提取的依据来源包括专家建立的知识库以及各类公开的词典、词表等工具 。概念网络的提取方式有很多种,可以分为人工提取、计算机提取和人工与计算机辅助相结合的提取方式。例如AutoMap就是一项可以在非结构化的文本中自动提取概念网络的工具 ,且在社会科学中被广泛应用 。
在概念网络的分析中,网络所包含的词汇量(Vocabulary)也就是网络的节点数,被记为 n ;需要被分析的概念被称为焦点概念(Focal Concept),如果想对整个概念网络进行完整的分析,则需要将每个概念依次作为焦点概念分析。概念之间的连边也可以分为直接连接(Direct Link)和间接连接(Indirect Link),例如A和B同时出现在一个句子中,B和C同时出现在一个句子中,则A和B、B和C之间分别具有直接连接,A和C通过B实现了间接连接。一个焦点概念的局部网络(Local Network)指的是和它直接连接的概念所构成的网络。扩展网络(Extend Network)指的是一个更大的概念集,首先通过设定边权阈值,只保留大于边权阈值的连边,然后由这个焦点概念出发,所有它可以到达的概念共同构成扩展网络。
网络结构影响网络的功能,因此每个概念在这个概念网络中的位置都具有其内涵。在概念网络中,每个概念的相对网络位置可以沿多个维度进行测量。在网络文本分析的早期,对概念的位置特征考察主要关注的是概念的语义含义所表现出的位置特征。例如凯瑟琳·卡利(Kathleen M. Carley)认为概念的位置测量可以从密度(Density)、传导性(Conductivity)和强度(Intensity)三个维度进行。这三个维度又可以从局部网络和扩展网络两个层面分别进行考察。局部密度(Local Evokability)是指焦点概念的总连边数量。局部传导性(Local Conductivity)测量的是穿过焦点概念的路径数量(即只考虑焦点概念的一阶邻居之间的路径),其值等于局部指向它的连边数与由它指出的连边数之积。局部强度(Local Intensity)衡量的是焦点概念以及与其直接相连的其他概念直接相连的关系强度。局部强度可以通过核心概念连边中大于平均强度的连边比例来衡量(强度等于两个概念的连边次数),即大于平均强度的连边数量比上总连边数量。将焦点概念置于其扩展网络,又可以得到核心概念的扩展密度(Extended Density)、扩展传导性(Extended Conductivity)和扩展强度(Extended Intensity)。这三个维度共同反映了一个概念的传播能力。以密度、传导性和强度作为一个三维坐标系的坐标轴,每个概念都能找到自己的位置。例如,焦点概念自身的概念网络可以被认为是其内在意义的反映:内嵌意义的层次越多,焦点概念的网络的密度就越大;具有更大时效意义的焦点概念其传导性更高,或许因为这些概念更容易被唤起或者唤起其他概念;历史因素导致的概念网络中的焦点概念,可能具有更高的强度,例如由某个历史事件对应的概念网络。因此,概念的传播能力和它们自身的网络位置有着内在的关联。在这个三维坐标系中,所有的概念大致可以被分为八种类型,分别是普通概念(Ordinary Concepts)、原型(Prototypes)、流行语(Buzzwords)、事实(Factoids)、占位符(Place-Holders)、刻板印象(Stereotypes)、象征(Emblems)和符号(Symbols)。例如普通概念往往在三个维度的值都很低,大多数的概念都是如此;而流行语一般具有高传导性,但是强度和密度低;占位符则是指那些强度很低,但是密度和传导性很高的概念。
随着网络文本技术的推广,网络的分析方法逐渐被大家所接受,衡量概念位置特性的指标逐渐转向复杂网络分析中常用的度中心性(Degree Centrality)、介数中心性(Betweenness Centrality)等结构性指标。例如阿迪娜·内格斯(Adina Nerghes)使用了度中心性和介数中心性来代表概念的流行性(Popularity)和连通性(Connectivity) 。度中心性能代表一个知识概念在网络中的重要程度,或者说是代表其在网络中的地位。一个知识概念的度中心性衡量的就是它和多少其他知识概念有直接连边。度中心性高的概念在网络中的重要性更高,因为它在局部网络中的卷入程度很高,所以度中心性高的概念能够激活其他关键的概念 。在概念网络中,一个概念的介数中心性也是评估它影响力的重要指标之一 。对于不包含孤立节点的连通网络来说,网络中的每一对节点之间至少存在一条最短路径,使得路径通过的边数最小。节点的介数中心性就是经过该节点的最短路径的数量 。介数中心性反映了一个概念在网络中其他概念之间的关联链中的参与程度 。按照概念在网络中的度中心性和介数中心性,可以将概念划分到四个象限中,高度中心性且高介数中心性的象限包含的是扮演着全局中心(Globally Central)角色的概念,这类概念往往是热门话题,具有高流行度和高连通性。位于高度数中心性且低介数中心性的象限包含的是扮演者局部中心(Locally Central)角色的概念,这类概念虽然流行度很高,但是连通性不强,它们只是在局部流行。低度中心性且高介数中心性的象限包含的是“把关人”(Gatekeeper)概念,这类概念虽然流行度并不高,但是连通性强,在网络中扮演桥梁的角色,连接不同的主题或话题。低度中心性且低介数中心性的象限中包含的是边缘(Marginal)概念,这类概念流行性和连通性都低,在网络中的重要性相对较低。
此外,在网络文本分析的过程中,许多学者也会结合自身的研究目标和背景提出和使用了不同的结构指标来评估概念的位置特性。例如黄少滨等人在论文中提出了将度(Degree)、节点自身介数中心性(Ego Betweenness Centrality)以及特征向量中心性(Eigenvector Centrality)三个指标相结合的方式来评估网络中的重要的核心节点和桥节点 。
总结而言,信息科学领域中“焦点概念”为本书探究知识节点提供了理论与方法层面的测量。后续章节将依托于焦点概念特征,探究在线知识分享平台中的具体知识节点的网络特征(例如度、介数中心性等)。
网络文本分析不仅可以从节点层面开展,例如根据文本节点在网络中的位置识别关键文本,还可以从网络层面挖掘文本特征,发现文本的规律,阐释文本内涵。本书将从话题发现、知识发现和叙事框架分析这三个方面举例说明网络文本分析技术是如何从整体网络的层面进行分析的。
通过将文本表示为相互关联的概念网络,进行网络分析和可视化,能获得的不仅仅是对文本的量化 ,更能从中挖掘概念发展的趋势,这些信息在知识发现领域具有重要作用 。例如郑菲菲等人 根据“Library Hi Tech”中的数据抽取了Web of Science中2006—2017年522篇论文数据,通过研究论文关键词共现网络,以可视化的形式展示了历年来不同知识领域内的重点关键词及其使用变化,从而可以发现热点知识概念、预测知识领域发展趋势。德米特里·帕拉纽什金(Dmitry Paranyushkin) 打造了一款能够为研究者提供研究文献话题特征的工具InfraNodus。该工具首先建构文本网络,然后利用社团划分算法对网络中的文本概念进行聚类,识别网络中的不同主题,最后该工具通过发现网络中的结构洞区域,预测文本网络将来观点、话题发展方向。
文本聚类是指根据文本的“相似性”或者“距离”等信息,将大量的文本内容聚集到少数几个类别中 。在对文本进行内容分析时,经常会需要使用到文本聚类的方法,它能够帮助研究者迅速发现大规模文本背后的群组关系,识别文本所包含的主题类别,便于快速认识和了解文本数据。基于文本自身的聚类算法往往通过文本层面的特征计算其相似性并进行聚类,例如使用TF-IDF算法等。当然,除了基于文本层面的特征进行聚类分析,也可以借助网络分析的方式。当文本从非结构化的形式被重新建构为网络,网络中的每个节点都代表了一个词语、段落或文章。根据网络中节点连接的紧密程度,研究者可以识别出网络中是否存在一些内部连接紧密的群组,这些群组也就是网络中的社团,不同社团的节点即代表了这些文本所属的不同类别或主题。例如利维亚·塞拉多(Livia Celardo)和马丁·埃弗里特(Martin G Everett) 通过从文本中按照词语的共现关系建构文本网络,并采用经典的Louvain算法对网络进行社团划分,从而只通过文本的拓扑结构信息就能够得到文本的聚类结果。安德里·阿拉姆斯亚(Andry Alamsyah)等人 也通过文本网络的方式展示了政治选举中的关键概念,并通过社区划分的方式识别文本主题,探究意见极化现象。因此,文本网络的建构,尤其是文本聚类的结果,能够在一定程度上帮助研究者感知和提炼文本的主要内容与结构。
对定性文本数据进行定量的分析,这种交叉分析的方式是混合方法研究(Mixed-research)的特征之一。网络文本分析作为混合研究方法中的一员,其本质思想是将文本数据表现为网络的形式,并利用结构视角去观察和探究网络的特征。在使用网络文本分析时,不必局限于具体的方法路线,而是需要在把握其核心思想的基础之上,根据所研究数据和场景的特性,选择合适的方法。随着数据和技术的快速发展,网络文本分析的技术边界和应用场景不断被拓展。一方面,将网络文本分析、神经网络和深度学习等方法相结合的文本分析方式不断涌现,基于传统的复杂网络分析的关键概念识别、聚类、网络提取等环节在新技术的加持下不断升级 ;另一方面,关注文本时间信息的动态文本网络分析研究也得到越来越多的关注,对文本网络的动态观察,能够提升研究者对网络中主题的演化和发展的趋势等问题的认识。