购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第二章
文化学?

在自然科学中,研究者根据 初步证据(prima facie) 理论的基础来测量他认为重要的事物,而在社会科学中,往往认为可以被测量的东西才是重要的。有时会发展到这样的情况:要求我们只能用可测量的数值来表示理论所涉及的术语。

——弗里德里希·奥古斯特·冯·哈耶克(Friedrich August von Hayek),诺贝尔奖获奖者感言,1974年12月11日

文化数据分析、可视化和交互:案例

如今,许多学术领域、专业实践和各类出版物都会用到计算和大型文化数据集的研究。其中包括学术期刊、会议论文、博客文章、GitHub代码和存储库、大型长期机构项目,这些项目汇集了许多独立收藏的数字记录,例如Europeana.eu(欧洲数字图书馆)、公共空间和博物馆的短期艺术装置,以及数据艺术家(data artists)和设计师的交互项目。

让我们看看这项研究的一些案例及相关学术刊物和会议。在计算机科学中,分析文化内容与文化交流相关的刊物和会议论文已经达到了数十万。其中的一些研究出现在“社会计算”(social computing) [1] 和“计算社会科学”(computational social science)的主题会议上。其他研究则涉及计算机科学的各个子领域,包括计算机多媒体、计算机视觉、音乐信息检索、自然语言处理、网络科学和机器学习。《自然》( Nature )和《科学》( Science )这两本最负盛名的国际科学期刊也发表了大量重要论文(我将先讨论其中的两篇)。 [2] 另一个使用计算方法分析大型社交媒体数据集的著名期刊是《公共科学图书馆·综合》( PLOS One )。 [3] 在以此类工作为特色的年度会议中,两个非常重要的会议是自1994年举办至今的国际万维网大会(WWW)和前文中提到的国际AAAI网络和社交媒体会议(2007年至今)。

在计算机科学领域中,这类研究一般都依赖于在社交网络上分享的大量用户内容和用户在社交网络上的行为数据,如一篇文章的浏览量、点赞数、分享数和粉丝数等。这些论文分析了微博、脸书、Instagram、Flickr、YouTube、Pinterest和Tumblr等流行社交网络及媒体共享服务上的用户行为。它们还通过计算和分析图片、视频和文字的特征,建立模型将用户行为与其联系起来。例如,在 计算美学(computational aesthetics) 领域,科学家通过创建数学模型来预测哪些图片和视频会更受欢迎,以及这种受欢迎程度是如何被内容和其他特征所影响的,如“记忆点”“趣味性”“美感”或“创造力”。 [4] 研究人员还提出了能够衡量这些特征的指标。

如果想进一步了解科学家如何分析媒体分享平台上的文化行为,可参考我们对Instagram的研究。2020年2月3日,我在谷歌学术上搜索了“Instagram dataset”(Instagram数据集),搜索结果显示了17110篇期刊文章和会议论文。其中一篇文章根据Instagram用户主页的照片分析了该平台最热门的话题和用户类型。 [5] 另一篇论文以410万张Instagram照片为样本,量化了滤镜对浏览量和评论数量的影响。 [6] 还有一篇论文,一组研究人员在Instagram上收集了550万张带有人脸的照片,分析了这些照片中自拍的时间和人口趋势。为了分别验证数据集中117个国家的用户上传自拍照片的原因,他们一共检验了三种假设。 更有论文用了1亿张Instagram上的照片,对全球44座城市的服饰和流行风格进行研究。

这些论文说明了计算机科学中大部分文化研究的共性,而且它们都是在近些年内完成的。因为这项研究十分依赖于用户创建的内容和用户活动的大量随机样本,例如百万用户在社交和媒体共享网络上发布的数百万条帖子。这项研究的主题和试图量化的内容是 大众文化(popular culture) ——即大多数人共同的兴趣、爱好和想法。(由于隐私问题,研究人员不能要求用户提供关于个人的背景资料或介绍自己。)

这种大规模集合的优势很明显(譬如,可以得出更可靠的统计规律)。但在这种规模上模拟并预测人类文化行为也可能是盲目的。当我们把所有的数据聚集起来并像分析单一群体一样去分析它时,世界文化中的“孤岛”——由小众的文化器物、文化行为和爱好组成的群体——很容易会被忽略,这一点我将在后面进行更详细的讲解。

常常出现在社交媒体、博客、论坛和其他在线平台上的当代大众文化在计算领域受到了最多关注,但我们也能找到在媒体历史领域有意思的定量研究。许多科学家发表了关于历史视听媒体的研究,他们富有创造性地使用了图像处理、计算机视觉和音乐信息检索领域的方法。我觉得很有趣的例子有《实现艺术家影响力的自动探索》 [7] 《衡量当代西方流行音乐的演变》 [8] 和《更快、更紧凑、更暗:好莱坞电影75年间的变化》 [9] 。第一篇论文提出了一种自动检测艺术家之间影响力的数学模型。该模型使用了66位知名艺术家的1710幅画的图像进行测试。虽然艺术史学家已经对部分结论做过解释,但该模型揭示了一些从未被发现过的“艺术家之间的视觉影响力”。第二篇论文使用了1955—2010年发行的464411首歌曲作为实验数据集,研究流行音乐的变化。第三篇论文分析了1912—2013年创作的9400部英文故事片的平均镜头时长的逐渐变化。

随着数字人文学科在文学研究领域的发展,对大量历史文本的文化分析已成为该领域的核心工作。这一领域的发展(尤其是在英语国家) [10] 始于1949年意大利牧师罗伯特·布萨(Roberto Busa)的一个项目,即为托马斯·阿奎那(Thomas Aquinas)著作作词汇索引,该项目最终得到了IBM的支持。关于该领域起源的其他历史,请参阅泰德·安德伍德(Ted Underwood)的《远距离阅读的起源》(“A Genealogy of Distant Reading”) [11] 和由瑞秋·萨格纳·布尔马(Rachel Sagner Buurma)与劳拉·赫弗南(Laura Heffernan)合著《查找与替换:约瑟芬·迈尔斯与远距离阅读的起源》(“Search and Replace: Josephine Miles and the Origins of Distant Reading”) [12] 。该领域在美国发展的重要制度里程碑包括《计算机与人文学科》( Computers and the Humanities )期刊(1996年至今)、计算机与人文学科协会(1978年至今)、NEH数字人文办公室(2008年至今)和国际年度数字人文会议(1989年至今)的创立。 鉴于其规模和多样性,我们无法对该领域做出一个相对完整的总结,但如果想对它自2015年的发展有一个大体了解,我推荐安德伍德的文章《人文主义者利用计算机来理解文本的七种方式》(“Seven Ways Humanists Are Using Computers to Understand Text”)。 [13] 我还可以举出许多有趣的数字人文研究的例子,但在这我只举一个我认为最有趣的调查案例:使用更庞大的文化数据质疑我们现有的概念和分析方法(即导言部分提到的关于文化分析的12个研究问题中的第一个)。在论文《复杂结构书卷中的可变体裁映射》(“Mapping Mutable Genres in Structurally Complex Volumes”)中,作者运用计算机方法分析了46.92万册电子版英文书籍的文本,这些书籍都来自不同的年代,时间跨度达到了数个世纪。 [14] 按照体裁对书进行自动分类有一个初始问题,即“体裁”的定义会随着时间的变化而变化,从而导致分类的不稳定性:

现有的元数据几乎没有关于体裁的明确定义。更加麻烦的是,当你深入研究这个问题时,在一个具有显著时间跨度的集合中,不管多少次的手动分类经验也无法总结出区分虚构和非虚构的界线在哪里,因为这种界线会随着时间的推移而变化。几个世纪前的文学形式和内容可能与现在的定义不尽相同。19世纪的传记发明了虚拟对话(imagined dialogue),读起来和小说完全一样;18世纪的散文,如理查德·斯蒂尔(Richard Steele)的《闲话报》( The Tatler ),也会用少许虚构的人物写非虚构的新闻报道。

在众多对文化数据进行计算分析的论文中,最有趣的是那些验证现有文化理论和/或提出新理论的文章。其中一项研究叫作《时尚和艺术周期受到精英竞争的反主导信号的驱动:音乐风格的定量证据》(“Fashion and Art Cycles Are Driven by Counter-Dominance Signals of Elite Competition: Quantitative Evidence from Music Styles”)。 [15] 该论文通过1952—2010年发行的800万张音乐专辑的数据来检验艺术和时尚周期的两种常见理论。作者总结道:“根据‘自上而下’的理论,精英成员通过引入新的符号(比如时尚风格)来表明他们的优越地位,而这些符号往往被处于低地位群体所采用。由此,精英成员会再引入新的符号来巩固他们的地位。‘自下而上’的理论则认为风格周期是从较低的阶级演变而来,并遵循基本上随机的模式。”在对历史数据做出定量分析后,作者提出了另一个由统计检验支持的理论:“每出现一位新的精英成功挑战了以前的精英霸权时,艺术和时尚风格就会发生变化。”他们指出,自1905年格奥尔格·齐美尔(Georg Simmel)的《时尚的哲学》这本书问世以来,社会学家们就一直对风格周期的机制感兴趣。通过建立和检验不同变化机制的量化模型,这篇文章总结了一种研究方法,用于研究除流行音乐以外的文化领域的风格周期。

处理大型文化数据集的工作内容不仅包括实验室分析和撰写论文,还需要科研人员将数据集制作成一个交互式网页界面,使观众能更好地探索这些数据集的趋势。其中一个比较具有代表性的项目叫作Ngram Viewer,它是由谷歌的科学家乔恩·奥万特(Jon Orwant)和威尔·布罗克曼(Will Brockman)于2010年以哈佛大学生物系和应用数学系的两位博士生设计的原型为基础创建的工具。 [16] 用户仅需要在Ngram Viewer的网站上输入几个单词或短语,就能立即查看这些单词在几个世纪以来出版的数百万本书中出现的频率对比图。

在众多为大型图像集合创建(交互)界面的实验中,不得不提到纽约公共图书馆(New York Public Library,简称NYPL)实验室的开创性项目。其中一个项目创建于2016年,它允许访客按照年代、类型、收藏和颜色类别,在线浏览纽约公共图书馆的18.7万张公开图片。 界面上显示了18.7万张图片的缩略图,单击则可以看到放大图和相关信息。另一个名为“摄影师身份目录”(Photographers’ Identities Catalog)的项目可以让观众对128668名摄影师、工作室和商家的数据进行探索,这些数据如同一部微缩的摄影编年史。 它的界面是一个交互式地图,可以显示城市中街道的详细位置。譬如摄影师在多个地方生活/工作过,地图上就会显示这些踪迹,绘制出这个摄影师的职业“生命线”。

我们在自己的实验室中创建了两个项目,访客有机会与大量的社交媒体图像和数据进行探索和互动。在“潮自拍”(SelfieCity,2014—2015)项目中,用户可以对全球6个城市分享的上千张Instagram自拍照片进行互动比较(见彩图5)。“百老汇”项目(2014)将触摸屏用于操控“数据城市”的界面——特别是沿曼哈顿百老汇21千米长的区域(见彩图11)。该项目中使用的图像和数据包括66万张经过地理编码(geocoded)的Instagram照片、800万次Foursquare(用户定位软件)签到,以及一年内2200万次出租车接送服务。我们的实验室成员负责收集和整理数据。界面设计和编程由以下团队成员完成:世界领先的数据可视化设计师莫里茨·斯特凡纳(Moritz Stefaner)、互动应用程序编程专家多米尼克斯·鲍尔(Dominikus Baur)、数据产品设计师丹尼尔·戈德迈尔(Daniel Goddemeyer)。

之前的项目案例可能会给人一种印象,认为文化分析只服务于学术界或艺术家的个人爱好。然而,文化分析经常是设计项目的一部分以创造新的或改进现有的数字产品和服务。从为博物馆和图书馆的数字馆藏设计新媒体界面,到分析城市用户的社交媒体以指导城市设计和政策,通过对人与媒介内容(media content)之间的互动,以及人与人之间互动的大规模分析,计算机将利用分析结果改进系统。例如,我们可以通过设计算法把更多类型的内容推送给用户,这也许是他们通常会忽略的内容。事实上,那些专门负责优化推荐系统的计算机科学家们投入了大量的精力研究如何在增加内容多样性的同时,保证内容的相关性。2018年10月,Spotify公司表示,过去的10年里, 听众的多样性 listening diversity ,即用户平均每月收听的艺人数量)以每年平均约8%的速度在增长。

计算机科学家一直在研究社交网络用户对视觉媒体的审美偏好和注意力变化,他们研究用户喜欢的图片或视频,以及如何从媒体内容和视觉特征中预测这些偏好。其中一个很好的例子来自一篇2015年的论文——《一张图片胜过一千次点赞》(“An Image is Worth More than a Thousand Favorites”)。 [17] 这篇论文的作者之一米里亚姆·雷迪(Miriam Redi),后来还和我一起分析了Instagram的图像。这篇论文使用了900万张具有知识共享许可的Flickr图片,提出“普通人对网络图片的审美感知分析”。在回顾大量使用大数据的定量研究时,作者指出:

社交媒体中注意力的变化往往遵循幂律分布(power law)。人们会把注意力集中在数量相对较少的热门话题上,而忽略了绝大多数普通的、由大众产生的内容。尽管受欢迎程度可以作为依据判断其在一定范围内的感知价值(perceived value),但是研究表明,内容的受欢迎程度与它的内在质量是不成正比的。因此,知名度低但质量高的内容潜伏在流行度分布的尾部,这种现象在图片分享平台中尤为明显,即高水准的摄影师由于不经常与网友进行互动和社交,导致其高质量的作品无法被人看到。

作者提出了一种算法,可以筛选出那些在美学质量上与热门图片相似却“不受欢迎”的图片(即只有一小部分用户浏览过的图片),这样的算法能让更多创作者为他们的作品找到受众。该研究也进一步说明了我们应该如何利用有关文化模式、文化环境的大规模定量分析提出具有建设性的解决方案。

历史与现在,专业人士与业余爱好者

如今,越来越多的学科选择使用计算方法分析大型文化数据集,包括计算机科学、数据科学、人类学、社会学、传播学、媒介研究、游戏研究、语言学、地理学、民俗学、历史、艺术史和文学研究,前一节我也列举了我们正在研究的一些问题。但我不想按照每一学科举例,而是想从单个例子引申到一个更大的问题上。这个问题是关于区分这些学科更大的知识范式的假设和目标——以及将它们聚集在一起,共同探讨参与文化分析研究的可能性。

这三个范式分别是人文与定性社会科学、定量社会科学、计算机科学。每种方法都有不同的研究目标、不同的研究方法,以及用来审视研究原创性的不同的视角。当研究文化数据时,研究人员使用什么数据及如何使用数据反映出这些范式的假设和内在规则。事实上,如果我们了解这些范式,我们可以预期每种范式的研究都会朝着自己的方向发展。计算机科学家想要寻找出能够描述大型文化数据模式的通用法则,并创建能够预测未来模式的量化模型,尤其是与线上用户行为(采纳建议、传播信息、购买等)相关的模式。量化社会科学家在提出一系列的社会学问题后,会使用他们常用于数据分析的统计方法。因为他们都热爱关注各种社会现象,所以线上的群体行为研究也可能成为他们日后的研究目标。人文学者的任务是分析特定的历史数据集和文化性质的文本,除此之外,他们还需要不断质疑现有的文化史并赋予它新的含义。

我们不是非要选择这些方法或目标中的一个。同样,文化分析无须在人文和科学之间做出抉择,也不一定要建立互相从属的关系。相反,我们希望把人文和科学的元素结合起来,共同用于文化研究。人文学科可以发挥它们的长处——专注于特定事物(例如,单独的作品或作者),善于剖析作品的含义,以及了解过去的情况。而科学则更具普遍性(例如,大规模性的规律),善于结合科学方法和数学方法,并对预测未来抱有兴趣。

在本节中,我将进一步研究人文学科、量化社会科学和计算机科学的一些假设和法则,并讨论文化分析如何潜移默化地将它们结合在一起。首先,让我们抛出一个问题:到目前为止,计算机科学和人文学科已经分析了哪些类型的文化数据?换句话说,在各个学科中,“文化”的定义分别是什么?

为了与人文学科的历史研究方向保持一致,研究人员一直使用计算机分析主要由专家所创作的历史器物(historical artifacts)。无论是中世纪学识渊博的僧侣创作的手稿,还是出版商付费创作的19世纪小说,如果你翻阅数字人文学科期刊,如《数字人文季刊》( Digital Humanities Quarterly ,2007年至今),或者了解下“国际数字人文年会”中提到的项目,就不难发现这种对历史数据的关注。

相比之下,如前文所言,计算机科学的相关刊物几乎只提到2005年之后的时期,因为它们分析的数据主要来自社交网络、媒体分享服务、在线论坛和博客。这些研究使用的数据集通常比数字人文学科中使用的数据集大得多。不仅有上千万或上亿的帖子和照片,甚至连几十亿的互动量也变得十分常见。由于绝大多数用户生成的内容是由普通人而非专业人士创造的,因此,计算机科学家们一直在默认研究 非专业的本土文化(non-professional vernacular culture) 。或者,如前文所述,这项研究所关注和量化的是 大众文化

因此,我们拥有两种系统,它们有着相同的计算方法,但被应用于不同的“文化”。在人文学科方面,我们有数百年甚至数千年的历史;在计算机科学方面,我们有始于21世纪初的“现在”。在人文学科方面,我们还有由专业人士打造的器物;而在计算机科学方面,除了器物我们还有大众线上行为。

计算机科学研究中使用网络和社交媒体数据集的规模之大,可能会让人文学者和艺术从业者都感到惊讶,因为大多数人可能都没有意识到有多少科学家在这一领域工作。虽然到目前为止,我已讲解了不少研究案例,但我没有说明在这些主题下发表的文章有哪些。让我们再来看看谷歌学术的搜索结果。我最近在谷歌学术上搜索“Twitter dataset algorithm”(Twitter数据集算法)、“YouTube dataset”(Youtube数据集)和“Flickr images algorithm”(Flickr图像算法),结果有数十万篇期刊文章和会议论文。我使用“ 数据集 ”和“ 算法 ”关键词将搜索结果缩小至所有与计算方法相关的论文,其中绝大部分的文章都是研究和文化直接相关的问题。

为什么计算机科学家很少使用任何种类的大型历史数据集?通常情况下,他们通过参考现有的行业应用来证明他们的研究,例如在线内容的搜索或推荐系统。一般来说,计算机科学是为了创造出更好的算法和计算机技术,为产业、政府、非政府组织和其他组织服务。而对历史器物的分析恰好不在这个目标范围之内,因此,没有多少计算机科学家从事历史数据研究(数字遗产领域除外)。

然而,我发现一些论文的本质还是在于解决当代媒体中比较典型的人文或媒体问题,但是使用大数据作为支持。例如《量化世界各地的视觉偏好》(“Quantifying Visual Preference around the World”)和《我们在Instagram上发布了什么:Instagram照片内容和用户类型的初步分析》(“What We Instagram: A First Analysis of Instagram Photo Content and User Types”)这两篇论文。 [18] 第一个研究项目通过179个国家4万人发布的240万个评分,分析世界各地的人对网站设计的偏好。传统上来说,美学和设计研究同样属于人文学科。第二项研究分析了Instagram照片中最常见的主题——这个话题可以与17世纪荷兰艺术流派的艺术史研究相比较。

另一篇颇具影响力的论文是《Twitter是什么:社交网络还是新闻媒体?》(“What is Twitter, a Social Network or a News Media?”) [19] 。该论文发表于2010年,后来被引用了7480次。 论文收集了4170万名Twitter用户的1.06亿条推文,是首个针对Twitter的大规模分析。作者将热门话题作为切入点,探索热门话题的类别、持续时间,以及用户参与数。我们可以把这种分析看作对传播领域经典研究的延伸。20世纪30年代末,保罗·拉扎斯菲尔德(Paul Lazarsfeld)和他的同事手动统计了无线电广播的主题,这被视为是开创性的工作。 [20] 与现在最大的区别在于,20世纪30年代这类广播是由少数专业电台创建的,比较小众;而Twitter的话题面更广,具有不同程度的共通性、持续时间和地理覆盖率。同时,考虑到Twitter和其他微型博客都属于一种新的媒体形式——如同之前出现的油画、印刷书和摄影,因此我们需要理解Twitter作为新媒体的独特性,以促进人文学科的发展。

常规性与特殊性

当人文学科关注“小数据”(即由单个作者或小群体创造的内容)时,社会学视角只作为补充参考——除非你是马克思主义者。但是,当我们开始研究数百万人的在线内容和活动时,社会学视角就变得尤为重要。当我们进行可视大文化数据时,文化和社会是处于一个重叠的状态。大量来自不同国家和社会经济背景(社会学视角)的群体开始创建、分享并与图片、视频和文本进行互动,与此同时,他们会表达出特定的语义和审美选择(人文视角)。皮埃尔·布尔迪厄(Pierre Bourdieu)是这个领域最具影响力的研究学者之一,他认为正是因为这种重叠,使得20世纪文化社会学(sociology of culture)中研究的各种问题都与文化分析直接相关。 [21]

人口统计学的分类方法很大程度上影响了我们对社会的思考,我们不仅会在潜意识中把人按照特征进行分类,而且还会比较他们的社会、经济或文化指标。例如,皮尤研究中心(Pew Research Center)会定期发布美国热门社交平台使用情况的统计数据,将用户按照性别、种族、年龄、教育程度、收入和居住地点(城市、郊区和乡村)划分。 如果我们要研究社交媒体的内容和用户行为类型,如分享和点赞的图片类型、使用的滤镜或自拍姿势,那么研究不同城市和国家、民族、社会经济背景、专业技术水平、教育水平等在内容和活动上的差异是合乎逻辑的。21世纪头10年的后半期,计算机科学领域的相关刊物数量第一次开始增长,但是它们将所有社交媒体用户视为一个无差别的群体。而后来,越来越多出版物开始将用户按照人口统计分类。

虽然这是一种进步,但仍有需要注意的地方。使用量化方法对文化现象和文化进程进行人文分析,不应简单地被归结为社会学,也就是说,我们应该更多地考虑群体的共同特征和行为,并参考一些公认的标准,例如年龄、性别、收入、受教育程度。正因如此,在见证社交网络上数百万人的文化选择(cultural choice)后,我思考是否仍有必要划分社会经济群体,并寻找这些群体的文化偏好和行为之间的差异。不论在古代还是现代社会,当人们的喜好都由既定的审美标准决定时,一个群体或个人具有一致的文化行为和喜好就会被视为有意义的(这是康德和皮埃尔·布尔迪厄所属的社会)。但是现今,琳琅满目的文化选择和简单的选择过程(只需要按一个键),让我们不禁意识到,稳定的偏好或稳定的文化人格(cultural personality)可能是一种幻想。

社会学传统关注的是发现和描述人类行为的一般模式,而不是分析或预测特定的个人行为。文化分析时常涉及模式,这种模式是从大型文化数据集分析得出的。但在理想的情况下, 大型文化模式分析也能突出个体创造者和他们特定的作品或文化行为 。由上文所述,每个个体都可以被进一步划分为许多个具有不同行为和在文化上具有不同偏好的独立角色。例如,对一位摄影师在其漫长的职业生涯中拍摄的所有照片进行计算分析时,我们可能会发现一些异常值(outlier)——与其他照片最不同的照片。同样,我们可以通过分析在多个城市分享的数以百万计的Instagram照片,发现每个城市特有的照片和最具原创性的本土摄影师。

换言之,我们可以把社会科学(和自然科学)与 常规性 普遍性 的科学概念联系到一起,把人文学科与 独立性 特殊性 联系到一起。前面提到的例子,是我们在利用大型文化数据集分析进行异常值检测时选用的相对简单的方法,但它不是唯一的方法。

文化学?定律,统计模型,模拟

科学的目标是解释现象,通过研究严谨的数学模型来解释这些现象的原理。其中,经典科学理论中,牛顿物理学的三大定律就是一个完美的例子。自19世纪中叶以来,许多新的科学领域都开始使用概率方法描述物理现象。最早的案例是气体分子速度的统计分布,由物理学家詹姆斯·麦克斯韦(James Maxwell)在1860年提出(现在称为麦克斯韦—玻尔兹曼分布)。

社会科学又是怎样的呢?在整个18世纪和19世纪,许多思想家都期望着能找到能像物理学一样统治社会的定量规律。法国数学家孔多塞(Condorcet)侯爵在他1785年发表的作品《论多数派决策的概率分析的应用》( Essay on Applications of Analysis to the Probability of Majority )中写道:“如果要把整个自然界归结为牛顿借助微积分发现的那些定律,所需要的就是有足够数量的观测数据和足够复杂的数学。”在19世纪,社会学的创始人奥古斯特·孔德(Auguste Comte)在《实证哲学教程》( Cours de philosophie positive ,1830—1842)中做了类似的陈述:“既然人类已经掌握了天体和地球物理学、机械和化学、有机物理学(包括动植物),剩下还有一门科学可以加入‘科学观察’系列——社会物理学(social physics)。” [22]

然而,这一切都和经典物理学的发生方式不同。19世纪的社会思想最接近于假定客观规律的是卡尔·马克思(Karl Marx)的理论。但到19世纪末,经济学家们证明了他的分析大部分是错误的,而20世纪基于他的理论创建的新社会多以失败告终。相反,量化社会科学在19世纪末和20世纪初开始发展时,概率性的方法也被采用。社会科学家们不再寻找社会的确定性定律(deterministic laws),而是研究可测量特征之间的相关性,并利用各种统计技术建立自变量(independent variable)和因变量(dependent variable)之间的关系模型。

在确定性和概率性范式之后,下一个是计算模拟——计算机上运行模型来模拟系统的行为。20世纪40年代,曼哈顿计划(Manhattan Project)创建了第一个大规模计算机模拟以用于模拟核爆炸。随后,模拟(simulation)在许多硬科学(hard science)中得到了应用,在20世纪90年代,它也被应用于社会科学。

20世纪的人文学科并不追求像物理学定律一样的文化定律,也不流行对文化进程进行概率性建模。尽管文学研究、艺术史专业,以及后来的电影和媒体专业都对它们各自的文化语料库中的语义模式和审美模式做出过详细的定义和描述,但计算模式在语料库中出现的频率以及分析这些结果并不被视作是人文学者的必做之事。也有例外,如20世纪30年代苏联的鲍里斯·亚尔科(Boris Jarkho)和20世纪70年代美国的巴里·索特(Barry Salt)。

21世纪初,以软件和网络为媒介的数字文化内容和线上互动呈现爆炸性增长,彻底改变了文化的运作方式。内容和用户互动的数量也让我发现了文化学的另一种可能性。比如,截至2015年夏天,脸书用户每天分享4亿张照片,发送450亿条消息。 [23] 截至2019年底,脸书全球月度用户数达到25亿。尽管这个规模还是比原子分子的规模小很多(1 cm3水含有3.33×1022个分子),但是,每周消息的数量(约1000亿)已经超过了一个普通成年人大脑神经系统的神经元总数(约860亿)。

文化学的概念可能会让一些读者望而生畏,但这是完全不必担心的。虽然我们常说“科学”是由一套严格的法则组成的,但这其实并不是“科学”唯一的定义。今天,科学至少包括三种不同的用于研究和理解现象的基本方法: 确定性定律(deterministic laws) 统计模型(statistical models) 模拟 。让我们探索这些方法中的哪一个对检验文化学的假说最有帮助。

计算机科学领域中,统计分析是社交媒体数据集的默认研究方法,这一点从论文中就可以发现——用概率来描述社交媒体的数据和用户行为。研究中常涉及统计模型的创建——指定变量之间关系的数学方程,这些变量可以用概率分布而不是具体数值表示。2010年以后发表的论文还使用了监督型的机器学习(supervised machine learning),这一种机器学习的范式是让计算机学习事先标记过的范例后,对数据进行分类或预测新数据的结果。请注意,在这两种情况下,模型通常只能正确描述或分类部分数据,而不是全部数据。这也是典型的统计方法。

计算机科学家使用统计学的方式不同于社会科学家。后者想 解释(explain) 社会、经济或政治现象——例如,家庭背景对孩子教育表现的影响。而计算机科学家通常不会通过参考外部社会、经济或技术因素来解读他们在社交媒体或其他文化数据中发现的规律。相反,他们通常选择自己动手分析社交媒体现象,或者直接使用从数据集中提取的信息预测外在现象。前者的例子包括社交网络中好友关系的亲密程度评估,或是预测滤镜对Instagram照片的浏览量和评论数的影响的统计模型。后者的一个例子是谷歌的流感趋势(Google Flu Trends,简称GFT),该产品根据谷歌搜索数据和美国疾病控制和预防中心(US Centers for Disease Control and Prevention,简称CDC)的官方流感数据来预测流感趋势。 [24]

确定性规律和非确定性模型的区别在于,后者只描述概率而不描述确定性。经典力学定律适用于任何宏观物体。相比之下,预测Instagram照片的浏览量和评论数与使用滤镜的关系的概率模型不能预测出任何精确的数字,而只能描述整体趋势。因此,如果是为了检验一个文化学的假说,后者显然更适合。相反,如果我们开始假定人类文化活动的确定性规律,那么自由意志的观念会发生什么变化?即使是看似完全自主的文化行为,例如获赞很多的美丽海滩风景或豪华酒店的照片,我们也不应该把人看作是一台自动的机器——在特定的条件(刺激)下就一定会做出相应的反应。

目前,计算机科学对社交媒体数据的研究侧重于线上活动的概率模型,而忽略了第三种科学范式:模拟。在社会学、经济学、政治理论和历史学中,模拟已经被使用了几十年,最近,一些数字人文学者也对这种范式表现出兴趣。 [25]

2009年,IBM爱曼登研究中心(Almaden Research Center)的科学家们用带有9万亿个突触的16亿个虚拟神经元模拟了人类的视觉皮层。 [26] 我们也可以尝试思考下面这种类型的问题:如何模拟Instagram每个月用户分享的所有内容?如何模拟主流社交平台中所有用户分享的所有内容?我们是否能够模拟社交网络中内容类型、审美策略的变化过程?

这种模拟的目的不是为了一劳永逸地避免错误的发生,也不是为了准确预测隔年的内容趋势。相反,我们可以借鉴《社会科学家的模拟》( Simulation for the Social Scientist )这本颇具影响力的教科书的作者的观点,他们指出模拟的目的之一是“更好地理解社会的某些特征”,而模拟可以被用作“一种理论发展的方法”。 [27] 因为计算机模拟需要对被模拟的现象建立一个明确而精确的模型,所以思考文化的模拟过程可以帮助我们建立一个更清晰而翔实的文化发展理论。 [28]

那么大数据呢?它是否能成为一种新的科学范式,使我们能够从不同的角度思考和看待研究的各种现象?大数据的影响在自然科学中取决于特定的领域。但如果我们谈论的是研究方法和技术,如21世纪计算机硬件的发展,包括CPU处理速度的提高和RAM(内存)大小的增加,以及GPU和计算集群的使用,它们可能比大型数据集更为重要。尽管在庞大的训练数据的帮助下,监督机器学习在一些领域取得了显著的成果,如语音识别、语音合成、图像内容分类等实际应用,但它在科学中的作用相对模糊。如果我们假设科学的目标是为某些自然或生物现象提供合理的解释并建立数学模型,那么能够准确分类新输入信号的机器学习系统,通常是无法解释这些现象的。

然而,正如我在本书中所说,大数据对文化研究来说无疑是至关重要的(特别参见第五章“为什么我们需要用大数据学习文化”一节)。但是这种影响的关系也与人文和媒体理论之前缺少科学原理和科学方法有关。因此,除了对大数据的探索,人文学科也在探索如何将科学思维和方法应用到学科当中。需注意的是,数据抽样(sampling)、特征提取(feature extraction)和探索性数据分析(exploratory data analysis)的概念与方法比数据自身的规模更加重要(参见第五章至第九章)。

注释

[1] The 22nd ACM Conference on Computer-Supported Cooperative Work and Social Computing, Austin, Texas, November 9–13, 2019.

[2] Joan Serrà et al., “Measuring the Evolution of Contemporary Western Popular Music,” Scientific Reports 2, no. 521 (2012), https://doi.org/10.1038/srep00521; Maximilian Schich, Chaoming Song, Yong-Yeol Ahn, Alexander Mirsky, Mauro Martino, Albert-László Barabási, and Dirk Helbing, “A Network Framework of Cultural History,” Science 345, no. 6196 (2014): 558–562, https://doi.org/10.1126/science.1240064.

[3] PLOS ONE, accessed September 18, 2019, http://journals.plos.org/plosone/.

[4] Miriam Redi, Neil O’Hare, Rossano Schifanella, Michele Trevisiol, and Alejandro Jaimes, “6 Seconds of Sound and Vision: Creativity in Micro-videos,” in CVPR ‘14 Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (Washington, DC: IEEE Computer Society, 2014), 4272–4279.

[5] Yuheng Hu, Lydia Manikonda, and Subbarao Kambhampati, “What We Instagram: A First Analysis of Instagram Photo Content and User Types,” in Proceedings of Ninth International AAAI Conference on Web and Social Media (Palo Alto, CA: AAAI Press, 2014), 595–598, https://www.aaai.org/ocs/index.php/ICWSM/ICWSM14/paper/view/8118/8087.

[6] Saeideh Bakhshi, David A. Shamma, Lyndon Kennedy, and Eric Gilbert, “Why We Filter Our Photos and How It Impacts Engagement,” in Proceedings of the 8th International Conference on Weblogs and Social Media (Palo Alto, CA: AAAI Press, 2015), http://comp.social.gatech.edu/papers/icwsm15.why.bakhshi.pdf.

[7] Babak Saleh et al., “Toward Automated Discovery of Artistic Influence,” Multimedia Tools and Applications 75, no. 7 (2016): 3565–3591, https://doi.org/10.1007/s11042-014-2193-x.

[8] Joan Serrà, Álvaro Corral, Marián Boguñá, Martín Haro, and Josep Ll. Arcos, “Measuring the Evolution of Contemporary Western Popular Music,” Scientific Reports 2, no. 521 (2012), https://doi.org/10.1038/srep00521.

[9] James E. Cutting, Kaitlin L. Brunick, Jordan E. DeLong, Catalina Iricinschi, and Ayse Candan, “Quicker, Faster, Darker: Changes in Hollywood Film over 75 Years,” i-Perception 2, no. 6 (2011): 569–576, https://doi.org/10.1068/i0441aap.

[10] Susan Hockey, “The History of Humanities Computing.” in Companion to Digital Humanities, ed. Susan Schreibman, Ray Siemens, and John Unsworth (Oxford: Blackwell, 2004), 3–19.

[11] Ted Underwood, “A Genealogy of Distant Reading,” Digital Humanities Quarterly 11, no. 2 (2017).

[12] Rachel Sagner Buurma and Laura Heffernan, “Search and Replace: Josephine Miles and the Origins of Distant Reading,” Modernism/Modernity, April 11, 1018, https://modernismmodernity .org/forums/posts/search-and-replace.

[13] Ted Underwood, “Seven Ways Humanists Are Using Computers to Understand Text,” The Stone and the Shell (blog), June 4, 2015, https://tedunderwood.com/2015/06/04/seven-ways-humanists-are-using-computers-to-understand-text/.

[14] Ted Underwood, Michael L. Black, Loretta Auvil, and Boris Capitanu, “Mapping Mutable Genres in Structurally Complex Volumes,” in 2013 IEEE Conference on Big Data (Santa Clara, California), 95–103, http://arxiv.org/abs/1309.3323.

[15] Peter Klimek, Robert Kreuzbauer and Stefan Thurner, “Fashion and Art Cycles Are Driven by Counter-Dominance Signals of Elite Competition: Quantitative Evidence from Music Styles,” Journal of the Royal Society Interface 16, no. 151, February 6, 2019, https://doi.org/10.1098/rsif.2018.0731.

[16] Natasha Singer, “In a Scoreboard of Words, a Cultural Guide,” New York Times, December 7, 2013, https://www.nytimes.com/2013/12/08/technology/in-a-scoreboard-of-words-a-cultural-guide.html.

[17] Rossano Schifanella, Miriam Redi, and Luca Maria Aiello, “An Image Is Worth More than a Thousand Favorites: Surfacing the Hidden Beauty of Flickr Pictures,” in Proceedings of the 8th International Conference on Weblogs and Social Media (Palo Alto, CA: AAAI Press, 2015), http://arxiv.org/pdf/1505.03358.pdf.

[18] Katharina Reinecke and Krzysztof Z. Gajos, “Quantifying Visual Preferences around the World,” in Proceedings of the 2014 ACM CHI Conference on Human Factors in Computing Systems (New York: ACM, 2014), 11–20, http://www.eecs.harvard.edu/~kgajos/papers/2014/reinecke14visual.pdf; Yuheng Hu, Lydia Manikonda, and Subbarao Kambhampati, “What We Instagram.”

[19] Haewoon Kwak, Changhyun Lee, Hosung Park, and Sue Moon, “What Is Twitter, a Social Network or a News Media?,” in Proceedings of the 19th International World Wide Web (WWW)Conference (New York: ACM, 2014), 591–600, http://www.eecs.wsu.edu/~assefaw/CptS580-06/papers/2010-www-twitter.pdf.

[20] Paul F. Lazarsfeld and Frank N. Stanton, eds., Radio Research, 1941 (New York: Duel, Sloan and Pearce, 1942).

[21] 参见Pierre Bourdieu, Distinction: A Social Critique of the Judgement of Taste, trans. Richard Nice (London: Routledge & Kegan Paul, 1979)。

[22] Quoted in Philip Ball, Critical Mass: How One Thing Leads to Another (London: Arrow Books, 2004), 69–71.

[23] Craig Smith, “By the Numbers: 400 Surprising Facebook Statistics (July 2016),” Expandedramblings. com, July 16, 2016, http://expandedramblings.com/index.php/by-the-numbers-17-amazing-facebook-stats/15/.

[24] Christian Stefansen, “Google Flu Trends Gets a Brand New Engine,” Google AI Blog, October 31, 2014, https://research.googleblog.com/2014/10/google-flu-trends-gets-brand-new-engine.html.

[25] Michael Gavin, “Agent-Based Modeling and Historical Simulation,” Digital Humanities Quarterly 8, no. 4 (2014); Graham Alexander Sack, “Character Networks for Narrative Generation: Structural Balance Theory and the Emergence of Proto-Narratives,”in Workshop on Computational Models of Narrative (Dagstuhl, Germany: Schloss Dagstuhl-Leibniz-Zentrum fuer Informatik, 2013), 183–197.

[26] Douglas Fox, “IBM Reveals the Biggest Artificial Brain of All Time,” Popular Mechanics, December 18, 2009, http://www.popularmechanics.com/technology/a4948/4337190/.

[27] Nigel Gilbert and Klaus G. Troitzsch, Simulation for the Social Scientist, 2nd ed. (Maidenhead, England: Open University Press, 2005): 3–4; italics in original.

[28] 有关如何使用基于主体的仿真研究人类社会演变的示例,参见Peter Turchin, Thomas E. Currie, Edward A. L. Turner, and Sergey Gavrilets, “War, Space, and the Evolution of Old World Complex Societies,” in Proceedings of the National Academy of Sciences of the United States of America 110, no. 41 (2013): 16384–16389. kBCvmamC/lwsX18OO+ydp2h82zHnAv8KmplnlePXZwoMkwVzwshCvLi0l7EL/SWO

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开