购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

导言
如何看到10亿张图片

然而,从长远来看,计算机对人文学科的影响将会比它对物理学和生命科学的影响更具有颠覆性……这与一门学科是否愿意接纳新技术所带来的优势有关。同时,那些对计算机依赖较强的学科,如统计学,对这一技术的使用也会更加广泛。更多而言还是取决于计算机能让我们“看到”什么——它是不是会像望远镜或显微镜那样有用?简单地说,使用适当的计算机技术可以使我们更好地发现数据中的相关性和规律性,即使这些数据在过往因为数量太大而无法被理解。同时,它也能使我们看到将想法应用于数据的书面结果。总而言之,计算机的崛起是势不可挡的。

——德尔·H.海姆斯(Dell H. Hymes),《导论》,载于《计算机在人类学中的应用》,1965年 [1]

本书内容横跨数据科学、媒体研究和数字文化三个领域。书中提到了文化数据计算分析的概念和方法。这些方法可用来探索数字化的历史器物与当代数字媒体,不仅可以用于单个或者多个文化器物(cultural artifacts) 的研究,而且在数量高达上百万的器物研究中显得尤为重要。

数字文化惊人的发展规模促使我从2005年就开始探索这些方法,并最终写出了这本书。如果每天都有数十亿张照片被记录,那么我们要如何去了解当代流行摄影作品?我们要如何从2000万创作者在SoundCloud(在线音乐服务平台)上分享的数亿首歌曲中了解当代音乐?我们又要如何一次性地了解图片社交分享平台Pinterest里40亿页的内容? 或者,如何从2019年每个月平均33万个聚会小组和84000个活动中了解Meetup(一款手机应用)上来自190个国家的人们以及他们的兴趣? [2] 刚才所说的“活动”也是数字文化的一种,因为它们是在Meetup上组织进行的。在我看来,要想研究大规模的当代文化规律、趋势和动态,我们必须借助数据科学方法。

要阅读这本书,读者不需要数据科学、编程、统计或数学相关的知识储备。它的受众目标是艺术、设计、人文、社会科学、媒体研究、数据科学和计算机科学领域的学术研究员和学生;设计、摄影、电影、城市设计、建筑、新闻、博物馆和图书馆行业、策展和文化管理行业的专业人员;以及所有从事社交媒体和网络工作的人(创作者、博主、策略师、经理、开发者、营销人员等)。

其实,就连对文化数据集(cultural datasets)分析不感兴趣的人,每天也在使用数据分析。也许你现在就正在使用脸书(Facebook) 、Instagram、微博的数据分析工具,或者是专门给博客和网站做数据分析的谷歌分析(Google Analytics),又或者在上班时候刷新社交软件的账户管理界面。即使你并不关注这些数据,但当你做任何有关数字化的任务时,你会不断地与计算分析的结果交互。例如,每次拍照时,手机摄像头的算法都会自动设置曝光度和调整照片的对比度,还会识别照片中的场景和拍摄对象的类型。 媒体器物(media artifacts)和用户交互之间的计算分析奠定了网页搜索、推荐、过滤、定制、与数字设备的交互、行为定向广告和其他操作功能的基础。例如,百度、必应、Yandex(俄罗斯网络服务门户)或谷歌等网络搜索引擎依靠对数十亿网页、在线图像和其他网页内容的连续型计算分析得出相关的搜索结果。

我个人认为,在这个时代,了解数据分析这项技术背后的核心操作和原则是十分重要的。这本书对其中一些想法进行了通俗易懂的介绍。因此,本书将教你如何探索自己的文化数据集,同时解读我们的社会是如何通过数据和算法进行思考的。

用计算机看文化

书中有不少计算机文化分析的案例是出自许多研究者或者我自己的实验室。接下来我会用两个例子来说明这种分析的可行性和挑战性。

第一个案例来自我和同事从2018年以来一直从事的项目,名叫“在别处”( Elsewhere )。这一项目调查了当代文化的增长速度和传播范围,除了各国大型首府城市外,研究范围也包含了许多小型城市。如今,那些首府城市在媒体、研究性学习和各种评级中获得了更多的关注。因此,很容易得出这样的结论:只有少数大城市可以作为“世界”中心,处于边缘位置的地区往往需要历经比中心城市更长的时间来接受新讯息。然而,真实的情况是这样的吗?全球化和新型通信技术的兴起到底是如何影响文化的地理位置的?我们是否能在成千上万的小城市中找到每一种当代文化的发展趋势呢?是否有一些城市由于其距离中心远、面积小,在文化上反而更具创新性?时至今日,世界上是否仍有很多地方没有意识到这些趋势,并且也没有开拓创新?自全球化以来,当代文化是如何在世界各地发展和传播的?增长速度是均匀的还是不均匀的?在特定的时期发展是加速还是减速?不同文化领域的增长模式是相同的还是不同的?

当然,没有任何一个科研项目能回答以上所有的问题。“在别处”项目的目标是根据文化活动及其举办地点等信息,研发和测试一种公共数据的处理方法。现如今庞大的信息量就是所谓“大数据”,我们可以利用数据科学方法直接进行分析。这种思路可以让我们绘制出一幅比现有的文化工业研究与相关机构所能提供的更为详尽的当代文化地图和时间轴。同时,我们对组织者发布的所有活动的描述性文字进行文本分析:上百万次的展览、讲座、研讨会、节日、兴趣小组会议和其他活动的介绍性文本。因此,我们可以通过主题、兴趣和“关键词”来寻觅跨地域、跨时间的文化模式(cultural pattern)。

图Ⅰ.1 文化活动的数量由时间推移带来的增长(数据来源:“在别处”项目)。

图I.1是各个文化活动推广、组织平台或网站上的活动数量走势。我们的数据集来自6个不同的网站上发布的活动通知,其中包括6个大洲的200个国家21072个城市的4380946个活动事件。这些平台或网站分别为Behance(创意设计类平台)、E-Flux(当代艺术网站)、Arts and Education Network(艺术与教育网)、Meetup、TED Local Events和TimePad。[就Behance来说,所谓 “事件”(event) 是注册一个新用户账号。]

如图所示,随着时间的推移,每个网络平台上的文化活动数量一直在增长。2006年,我们的数据集中包含了11642个事件(将所有数据源加在一起);截至2009年,累计举办了102211场活动;截至2018年,累计举办了781697场活动。当然,虽然已经有一个平台列出了所有的全球文化活动,但我们还是要对特定来源的结果做出审慎的思考。这个项目很好地向我们展示了将数据现象运用到真实环境中时会遇到的问题与考验。来自这6个数据源的增长是否真的能代表大多数国家的情况?也许这种增长只不过是一种数字文化的扩散现象,表明越来越多的国家和组织开始选择以上几个平台来推广它们的活动?或者我们只是看到了“赢者通吃效应”(winner-takes-all effect),即人们更倾向于使用那些占据了主要市场的平台?总之,我们的数据很可能被上述的所有因素影响。随着时间的推移,我们看到的一些增长是因为平台本身越来越受欢迎。而其他增长则反映了文化场所(cultural places)、演员和活动数量的真实增长。

“在别处”项目分别采集了活动通知的日期、位置、种类和文字信息。第二个例子中,我们利用数据科学和可视化技术对真实的媒体器物进行研究。通过分析超越一般媒体研究所需数量的作品,我们需要学习不同领域的当代文化。这里介绍的项目是我和杰里米·道格拉斯(Jeremy Douglass)、威廉·休伯(William Huber)在2009年开始着手的“100万页漫画集”(One Million Manga Pages)。图Ⅰ.2展示了其中的一个可视化界面,它的数据是由883部日本漫画中的1074790个页面提供的。漫画素材来自当时最受欢迎的,由日本漫画粉丝制作的网站——OneManga(onemanga.com)。该网站的大量作品都是由漫画迷们扫描并翻译成多种语言后上传的。

图Ⅰ.2 根据每页计算提取出的两个视觉特征,对1074790个漫画页面进行可视化排序:灰度值的标准差(x轴)和灰度值的熵(y轴)。

OneManga上连载时间最长的漫画始于1976年。该网站上最受欢迎的漫画是《火影忍者》(1999—2009年共出版了8835页)和《海贼王》(1997—2009年共出版了10562页)。除了这种长篇漫画,我们的数据集还包含了2000年以后出版的短篇漫画,它们的连载时间一般为1—3年。

通过自己的图像分析软件,我们对每一页的漫画作品都进行了分析,并将视觉元素一一转换成数字特征。根据两个数字特征,可视化处理便可以将漫画作品转化在含有 x 轴和 y 轴的图像上。 x 轴表示每页的像素灰度值(pixels’ grayscale value)的标准差, y 轴表示每页的像素灰度值的熵(entropy)。这些数值在实践中意味着什么?在该图像中,可视化底部部分的页面是最具图形化的,细节较少;右上角的页面有很多细节纹理;对比度最高的页面在右边,对比度最低的页面在左边。

在这4个极端之间,我们几乎找到了所有画风的变体。不过在我看来,当我们在研究大型文化数据集时,“风格”这一概念可能并不适用。因为它预设我们可以将一组文化器物分成几个独立的类别。在我们的“100万页漫画集”数据集的例子中,我们发现几乎有无数种绘画上的变化。要是将它们也划分成不同的风格,会显得十分武断。

可视化还显示了哪些绘画方式是漫画艺术家更常用的(页面“数据云”的中心部分),哪些是更少见的(底部和左侧部分)。我们可以思考日本漫画在视觉上的演变过程:为什么有些绘画方式出现得很频繁,有些很少出现,有些则几乎从不出现。如果我们想了解一部新漫画的视觉原创性(通过可以测量的特殊视觉特征来表示),我们可以将它的页面添加到这样的可视化中,如果我们愿意的话,甚至可以将原创性进行量化。在本书的后面,我将再次对这一个数据集进行分析,并对其视觉风格、读者的性别和漫画流派之间的联系进行研究(见图7.1、图7.2和彩图9)。

文化分析:5个想法

2005年秋,我第一次开始思考当代数字文化的大规模分析和可视化处理的可行性。那时,计算机科学领域的研究人员就已经对大量的网站和博客进行了计算分析尝试。然而,计算机科学是一个巨大的学科领域,包括许多分支学科,这项研究在各个分支学科的期刊和会议上都有出现,却还没有专门的名字。譬如在人文学科中,“数字人文”(digital humanities)这个术语在2003年才被首次引入并逐渐为人们所熟知。但是,文化数据集的计算分析只是这个新兴而庞大的领域中的一部分,这个领域还包括了史料的数字化和出版、用于教学的数字工具以及其他一些活动。对我而言,“数字人文”一词还有另一个局限性:数字人文学者几乎只研究历史文学文本的数据集,而不涉及其他种类的媒体和当代数字文化,所以这个词既宽泛又狭窄。最后,在我了解到的一些大型文化数据集中,可视化的艺术和设计项目里令人印象深刻的都不是学院派的,也没有专门的术语。

我认为,现在不少领域的大规模文化数据的分析和可视化都在逐渐形成新的研究范式,却没有一个专门的名字来指代研究 当代数字文化 (不局限于历史文化)趋势的计算分析方法,并且可以涵盖对各种媒体(不局限于文本)的分析。2007年春季 ,当我们建立了自己的实验室来做这项研究时,我立刻想到了“ 文化分析 ”这个词。

实验室有两个目标,第一个是实用性:通过使用计算机科学、数据可视化和媒体艺术的方法,探索和分析不同类型的当代媒体和用户交互。第二个是理论性:我们想知道,这种方法和文化媒体的大数据集是否会撼动现有的关于文化的观念和研究方法。它们能揭示多少种不同的可能性?它们适用于任何媒介吗?算法和大规模分析的局限性是什么?

事实上,我们实验室专门研究视觉数据集的可视化和分析。研究数据集包括:Instagram和Twitter 上数百万张分享的照片、100万页的漫画、数十部故事片、数千本杂志封面等。如此一来,关注我们实验室的人便自然会将计算机的使用、可视化技术探索大型可视化集合与文化分析这一概念联系在一起。在过去几年里,“文化分析”一词开始被许多学者广泛使用,特别是在两次研讨会中; [3] 2016年,加利福尼亚大学洛杉矶分校为期4个月的研究项目,汇集了来自大学和行业实验室的120名顶尖研究人员; 在2016年创立的学术同行评议期刊《文化分析期刊》 [4] 中,该术语在电话会议和学术职位列表中被使用。此外还有一些学术项目与本科生和研究生课程使用了该词。

2019年9月,我关注到一些项目和课程:英国伦敦国王学院的文化分析学学士课程;美国北卡罗来纳大学信息和分析理学硕士的文化分析专业;美国坦普尔大学图书馆文化分析硕士证书;爱尔兰都柏林大学学院文化分析中心;美国达特茅斯学院的文化分析课程;俄罗斯圣彼得堡国立信息技术、机械与光学研究型大学数据、文化和可视化硕士;加拿大麦吉尔大学的“文化分析:文化的计算研究”课程;位于加拿大西部大学的CulturePlex实验室(正在进行“文化分析和数字创新”方面的研究);美国加利福尼亚大学洛杉矶分校的远程阅读和文化分析课程;爱沙尼亚塔林大学的文化数据分析实验室。以上所有项目和课程都提到了“文化分析”这一术语,但场景不同(例如,在文学系、信息科学系等),术语的使用方式也不同。

纵观《文化分析期刊》最开始3年刊登的论文,我们可以看到各种主题,尽管对文学文本的分析数量远多于其他媒体类型,包括19世纪及当代的英语小说、19世纪的插图报纸、晚清中国文学、民俗分类、美国餐馆的菜单和电视剧。 [5]

“文化分析”这个词对不同的人来说,意义也不同,在不同的语境也有不同的作用。我理解这点,也并不想去局限它的使用范围。本书并不试图总结出所有的文化分析研究,或者覆盖所有研究相关的内容(如描述统计与推断统计、有监督与无监督的机器学习、文本分析、地理空间分析、音乐数据分析、网络分析、基于代理的模拟,以及其他我没有提到的话题)。我并不想写一本包含了所有话题的技术型百科全书,而是想专注于个别主题并对它们进行深入的探究。

项目主题的选择也反映了我最初想要借助计算机研究当代文化的原因。2008年以来,我在实验室中经手过40个实践项目;2006年以来,我每年都为本科生和研究生开设实用文化分析课程;我还在不同的国家多次举办研讨会,在与其他学术研究人员和设计师的合作中学习。你可以通过目录看到我研究的所有主题。每个主题都是按照自上而下的研究顺序排列的:第一部分是计算文化分析的例子,讨论了从20世纪90年代的“新媒体”到21世纪头10年“更多媒体”的转变,这也促使我开始思考文化分析这一概念;第二部分讨论了文化数据的类型与如何将文化发展转化成可计算数据的技术;第三部分介绍了使用数据可视化技术探索文化数据集的概念;最后重点介绍了最近开发的图像和视频采集的探索方法。

这本书中提到了许多的主题和想法,其中有5个是我最感兴趣的,它们共同组成了这个版本的“文化分析”。当然,其他的版本、想法、使用方法和定义也是合理且受欢迎的。以下是这5个想法:

(1)我最初研究计算方法和大数据的原因是,我意识到现有的研究方法已经不再适用于21世纪的文化规模。因此,在本书中 文化分析一词是指使用计算和设计方法(包括数据可视化、媒体和交互设计、统计和机器学习)来探索和分析大规模的当代文化 。这些探索的第一个目标是 让我们看到当今世界上数亿人正在创造、想象和重视的东西 。这包括了所有文化创意产业的学生、专业和非专业人士举办的文化活动:每年举办的几百场设计周和时装周、几千场电影节、上万个教育项目、数十万个通过网络和社交媒体进行宣传的文化项目和展览等。于我而言,文化分析主要且实际的目标是让大众对文化现状和文化历史有一个更加包容和民主的理解。这意味着让文化生活的“长尾”充分可见,并让那些被当代和历史文化叙事排除在外的城市、国家、群体、个体创造者和器物重新回到我们的文化地图上。

第二个目标是提出适应当代全球数字文化的规模、速度、多样性和连通性的 新理论概念(new theoretical concept) 。这与20世纪的文化理论有何不同?我们的新概念不应仅是理论上的,还应该是实质化 定性(qualitative) 的。也就是说,我们不仅可以对数字文化的维度进行测量,也可以对不同地理位置、网络、创意领域的风格、品味、想象力、文化行为进行比较。(这意味着我们可能会将现有的概念,比如“风格”,形式化和量化。)但由于量化的局限性,我们需要对那些无法被现有的方法观测到的文化视角和维度保持警惕。

(2)数值表示(numerical representation)、数据分析、可视化技术可以作为一种新的描述文化器物、文化体验和文化动力的语言。正如我在第七章中所说,人类的语言功能在人类进化过程中发育较迟缓,它并不善于捕捉人类感官和文化经验之间的类似特性。这大大地限制了我们在研究具有新型规模的当代文化时,对数千、数百万或数十亿件文化器物进行比较。通过使用数字和可视化,我们可以更好地捕捉大量文化器物个体之间与分组之间的细微差异。其中,数据科学有许多方法来描述任意数量的对象之间的关系,像聚类分析、降维、网络分析等。

数字和可视化还为我们提供了一种可以表示 渐变和持续时间变化 的语言。现在,我们可以描述一些用语言难以形容的文化发展特征。例如,视觉文化漫长的发展史、艺术家职业生涯中(随着时间)视觉形式的变化。

为了更好地对视觉文化展开分析,我认为首先需要对 模拟维度(analog dimensions) 这个概念进行重新定义。使用数值表示的计算机可以更好地捕捉自然语言无法充分描述的维度,例如动作或节奏。

(3)我虽然在书中提到了各种类型的数据,但我最关注的仍是 视觉媒体(visual media) 。我想通过大量例子来解释我们是如何利用计算和可视化技术探索视觉集合、提出关于文化的趣味性问题的。迄今为止,人文学科所涉及的计算绝大部分都集中在文学文本、历史文本记录和空间数据上。相比之下,其他类型的媒体,如静态和动态图像、交互式媒体,则受到较少关注。尽管情况已经逐渐改善,但直到我写这篇文章的时候,视觉媒体分析仍然只是数字人文学科的一小部分。 这不难从数字人文组织联盟组织的年度会议或相关领域的期刊中看出。而《人文学科的数字学术》期刊于2017年发表的一篇文章的标题更加概括了这一领域的局限性,“数字人文——重文本,轻可视化,缺少模拟”。 [6]

事实上,计算机科学家从20世纪50年代末就已经开始研究图像分析方法。如今,这些方法已被应用于许多数字服务和设备中,包括网络图像搜索引擎、数码相机和手机内置摄像头、Photoshop这类的图像编辑软件、图像共享网络等。在从属于计算机科学的计算机视觉和多媒体计算领域中,研究人员多年来一直在发布新的算法,用于自动检测图像内容、艺术风格、摄影技术、电视和视频的类型,并将其应用于逐渐庞大的数据集合当中。 [7] 我们的实验室一直在使用这些方法来分析过去和当代的多种视觉媒体。例如,纽约现代艺术博物馆(Museum of Modern Art,简称MoMA)收藏的两万张照片、奥地利电影博物馆(Austrian Film Museum)收藏的吉加·维尔托夫(Dziga Vertov)的电影、在Instagram上发布的全球17个城市的1600万张图片、Twitter上分享的全球2.7亿张图片、100万页漫画集、100万件来自著名艺术作品共享网站DeviantArt的艺术品。在本书中,我会逐一介绍上述的项目与其他研究人员的论文和成果(一般为计算机科学领域),以及他们是如何利用算法分析视觉内容的。

(4)我们是否可以 不在系统的分类 下,对文化媒介的集合和文化行为的记录进行研究?在统计分析的过程中,我们是否可以避免使用 量化、测量和总结 的方法呢?我们可以 不通过数字 来研究大型文化数据吗?

这些问题的答案看似否定,但在文化分析中,它们都是有可能发生的(至少对某些类型的媒体而言,如图像和视频)。任何数据测量方法、语言类别、标记组、网络或其他表现形式,无论其描述能力的好坏,或者是否能发现对象之间存在明显的相似性和关联性——它们都是一种 省略 。举个例子,今天的计算机视觉技术能够在摄影作品中检测出数千种物体类型 ,但任何学艺术的学生或专业摄影师都知道,一张照片并不仅仅是物体或人像的合集。文化分析的目的不是最终用算法取代人类的观察能力,而是 提供新的技术和交互形式来增强人类处理庞大数量的文化数据集和流(flows)的能力 ——这与道格拉斯·C.恩格尔巴特(Douglas C. Engelbart)在其1962年的著名报告《增强人类智能》(“Augmenting Human Intellect”)中提出的计算机能力的愿景是一致的。 人类可以因此观察到更多的维度,这是非常有意义的;还可以辨别真正重要的细节信息,并将信息置于比目前算法所能承受的更庞大的上下文语境中。除非“人工通用智能技术”(artificial general intelligence)有足够的飞跃,否则在不确定的未来,这种情况仍将存在。但是人类是否真的能通过提升自身的能力,自如地应对全球大规模的文化生产和文化参与呢?例如,我们真的能看到10亿张图片吗?

(5)文化分析不仅包括使用现有的计算方法对文化数据集和文化数据流进行数据分析,还包括 对这些数据科学方法及其假设进行批判性检验 。与数字媒体的交互及在社交网络上获取个人信息的渠道,都是通过软件系统来调节的。它们不断地分析着大型文化数据——我们分享的数十亿媒体器物的内容,我们在网上与这些媒体器物的互动,以及我们其他的线上和线下行为。在文化分析研究中,我们经常使用相似的方法来达到不同的目的,例如,观察文化史的规律,探索当代设计师的作品,检测数十亿人在网络上分享的照片内容和风格。对比现实行业和文化研究,这些方法的使用有什么异同?行业内已经被广泛使用的方法是否值得我们再反复推敲?是否由于哪些历史因素造成了某些方法更受大众的欢迎?解决这些问题是推动文化分析发展的关键。

一般来说,在许多研究领域都有对数据科学、算法、数据在社会中使用的批判性审查,包括科学和技术研究、数字人文、数字文化研究、关键算法与数据研究 [8] 及软件研究。在社会科学和人文学科的众多学术期刊中,我推荐《大数据与社会》( Big Data & Society )。同时,你还可以了解一下该领域的其他出版物和学术会议,或者与科研兴趣相关的论文。

本书中,我将讨论我个人觉得文化分析中最有趣和最有前途的研究方向。我所谓有趣是指,这种分析能使我们以新的方式思考当代文化,并帮助我们质疑那些我们本认为理所当然的文化研究的概念和方法。其中一些方向可以通过现有的研究工作加以例证,而另一些方向则还没有被深入研究过。如果你要深入了解文化分析,我希望这本书能让你有所启发。

文化分析在2005年后开始发展,这无疑是享受了文化和社会“大数据”的红利,但它并不是唯一的学科,其他学科包括:数字人文、计算社会科学(computational social science)、社会计算(social computing)、数字人类学、数字史学、城市科学、城市信息学和文化组学。 与此同时,大型文化数据集开始被分析和应用于多个计算机科学领域,如机器学习、人工智能、计算机视觉、自然语言处理、计算机多媒体,以及网络科学和通信研究。从21世纪10年代初期开始,艺术史开始“量化”,2015年开始出版的《国际数字艺术史期刊》( International Journal for Digital Art History )确立了这一转变。在电影研究领域,第一篇使用定量分析方法和数据可视化分析单个电影导演作品的专题论文发表于2018年。 [9] 同个10年期间,有不少新的研究项目被提上议程,希望从社会科学和人文学科的角度解决算法、数据和人工智能系统的日益增长的应用问题。这些研究领域包括机器行为,以及已经提到的算法研究和关键数据研究。[2017年开放获取文集《数据化社会:通过数据研究文化》( The Datafied Society: Studying Culture through Data )收录了大量文章,阐述了学术研究中使用数据和算法时涉及的方法论和伦理问题。 [10]

如果不是因为受到同行和同一领域其他项目的启发,这个研究项目就不可能实现。我之所以写这本书,并不是为了划分文化分析和其他领域的界限,也不是为了强调我们取得的研究成果的独特性。对我来说,文化分析是一种质疑所有范畴和界限的方法。因此,最好不要给文化分析的研究设限,尤其是在跨专业的学术研究中。

文化分析:12项研究挑战

一直以来,我都将刚成立实验室时确立的一系列理论和实践问题看作是研究的风向标,它们在日后的工作中引导着我,也影响着我对文化分析的思考。以下我全面地列举了这些问题,其中某些我长时间研究的,我会在本书后面详细介绍。其中,问题1—8是我在2005—2007年遇到的问题;经过多年的研究,我们又遇到了新的问题,即问题9—12:

1.如何利用大型文化数据帮助我们质疑现有的文化偏见、假设、概念和基本知识?

2.在计算方法和大数据的背景下,理解与研究视觉和媒体文化的新的基本方法是什么?

3.如何探索包含了数十亿张图片和视频的海量视觉集合?

4.如何将计算媒体分析与定性媒体研究的方法和理论结合起来?

5.如何使用计算方法分析交互式媒体及相关体验感受(例如,玩电子游戏、在Instagram上互动、体验交互装置),而不仅仅只是研究静态媒体器物?

6.什么样的理论概念和模型可以支持用户生成规模越来越大的内容与用户之间越来越快的交互速率?

7.在一个内容制作者和作品数量均呈爆炸式上涨的年代,要如何对当代全球数字文化的多样性进行分析和可视化处理?

8.被大量的文化数据集和计算引领的“文化学”会是什么样子的,它的局限性又会是什么?

9.我们能否设定一些对多种媒体类型、不同时段和不同文化(尤其是我们现在这个时代)有意义的量化标准?如文化的变异性、多样性、时间变化、差异性、影响力和独特性。

10.既然统计和数据科学方法是基于数据的精简和总结,那么我们如何去分析计算上的微小差异,以及个别文化器物的独特细节?

11.我们能否对一个文化进行客观的描述,并将其视为元素、主题与策略的统计分布和组合?或者,根据文化格式塔,文化的整体并不等于部分之和(如果真的是这样,文化分析就不成立)?

12.假设我们先在数十亿个文化器物、经验交互中选取一些主题、风格和文化技巧;同时,我们在全世界追踪这些文化的DNA,当我们检测到属于这一文化的DNA时,就添加新的进来。那么,当我们从数十亿个文化“对象”中筛选目标时,什么程度的简化是合适的?不同程度的简化又分别损失了什么?例如,如果我们提取10000个主题,然后将它们再整合成1000个主题,然后再到100个,这个过程中有多少信息会丢失?这种简化是有弊端的吗?如果创作者们想要追求作品和经历的不可复制性,我们在追求大趋势的过程中是否会不可避免地错过了真正独特的事物。

我认为最后一个问题是最重要的。我们是否应该将大型文化数据整合,并将其简化为只包含最常出现的思想、主题、风格、规律和行为的少量结构?在这一点上,我们继承了统计学的发展历程与计算机科学文化中量化研究的范式。在这个范式中,我们关注的是一些对象之间的共同点,排除偶然出现的情况。或者,我们是否应该研究相反的范式,不做聚集和简化,而是关注大量人造器物、行为与个体的多样性、变异性和差异性?在这个范式中,用到了所有的数据,并且我们会特别关注偶然的或罕见的现象。

我将借由这12个问题阐述我对文化分析的研究动机和兴趣。这也是和从事这一领域的其他研究人员不同的地方,因为我的主要动机是利用大型文化数据来质疑我们自身对文化的了解(1),并不是仅仅在已经确立的范式中取得技术进步;接受“发明一种新型的数字文化”的挑战(5);了解如何在理论概念层面和可衡量的特征层面应对这种文化的规模、速度和多样性(6、7、9)。当我们将当代社会的“数据认知”(即数据科学的假设和方法)套用在那些并不适用这些方法的主题(文化生活、经验、人造器物)上时,就会出现其他挑战(2、3、4)。因为文化分析的无限可能性,我对它一直抱着非常乐观的态度,可当我意识到统计和计算方法的局限性——把文化看作是我们可以追踪的元素组合时,我的信心就不复存在了(10、11、12)。

本书中介绍的分析方法都十分有用,因为文化分析可能是面对当今文化规模唯一能够进行处理的方法,并且它还可以揭示一些计算机在目前都无法解释的现象,如美感。这并不是说,计算机本身不可能理解美的含义。事实上,问题出在它们的老师,也就是我们身上。如果我们自己都不明白,为什么杂志编辑会在数百张看似相同的照片中选出其中的一张(照片的数字特征相差无几),那么我们又怎么指望教会机器去理解呢?当然,我们可以利用神经网络,为它提供数百万个训练样本,教会计算机如何预测出“最好”的照片,但这种视觉概率并不等同于真正的理解。

文化分析不是什么

在我看来,在定义了文化分析的关键思想和12个研究问题之后,我们还需要思考这样一个问题——文化分析不是什么?2007—2015年,社交网络的快速发展和社交网络数据集的公开[通过API(application programming interface,即应用程序编程接口)]促进了相当多领域的研究数量的增长。我们的实验室也牢牢抓住了信息化发展的历史机遇,尽可能地收集文化数据。2012—2015年,我们与我们的合伙人使用了来自Twitter、Instagram和VK(俄罗斯社交平台)的公开图像/信息的数据集,创建了许多可视化数据,并在几篇已经发表的论文中介绍了该项目的研究成果。尽管社交网络的API均提供了用户名信息,但我们从未在任何出版物或展览中披露过这些信息。API的开放帮助了上万名科学家获取并使用社交媒体的大数据集。事实上,在最近几年的计算机科学和数据科学课堂上,从Twitter下载数据并进行分析已经成为一个常见的训练。

2007年之后,社交网络和媒体分享网站在全球的增长证实了我之前提出的文化分析的必要性。然而,文化分析并不是一直都与这类媒体及数据“联姻”。在漫长的媒体历史中,社交媒体网络是晚近的,且未来可能不会以同样的形式存在。事实上,2005年我甚至没有考虑过使用社交媒体数据,因为当时社交网络还不是很受欢迎,而且不具备数据下载机制。相反,我考虑了从众多独立设计师、文化中心、出版物、艺术学校、博物馆的网站收集信息,并分析当时已经非常流行的文化相关的博客。我幻想着从全球不同的网站上获取内容,并实时地将那些有规律的变化以可视化的形式呈现出来(见彩图1和彩图2)。

几年内,自由地使用社交网络中的内容让大规模的文化观察和分析成为可能,同时也充满了挑战。然而,文化分析并不依赖于社交媒体本身或任何指定的来源。如果在未来的某个时候,网站和社交媒体不再以现有的形式存在,那么它们很可能会被其他可以发布和分享内容的媒体所取代。

几乎可以确定的是,旧的科学技术会不断被新技术代替,但我们在21世纪头10年所创造的新环境将继续存在:新的文化规模和文化在当代社会中日益增长。其中包括了更多元的文化(更多的文化生产者、更多的对象和活动、更多要求审美基础的社会领域等)和更多的文化信息(网站、网络帖子、出版物、数据集)。如何在新的文化规模下看待、思考文化是文化分析亟待解决的问题。

文化分析、媒体理论和软件研究

本书是一本关于 媒体理论 的书。我认为,若想系统地研究当今的全球媒体文化,那么媒体理论需要朝着数据科学的方向发展。计算方法的重要性不仅体现在可以帮助我们分析和归纳全球文化,还在于可以助我们 ‘看’ 到这些信息。

如果只相信网络上的信息、算法推荐的内容、人类的直觉,那么我们注定只能接收到被个人的认知和历史因素过滤之后的内容,用一种片面的眼光看世界。 [11] 学术界有自己的过滤机制,在这个机制中,建立完整的研究范式会让学者忽略他们本应该关注的新兴文化活动类型。例如,虽然交互设计已经成为我们日常文化体验的重要组成(比如手机应用程序、网站和连接设备),但在媒介研究或人文学科中它还没有得到充分的研究。

当然,计算方法和大型数据集并不能保证更多的客观性和包容性。但是,它们能帮助我们直面那些所谓假设、偏见和刻板印象。还能让我们注意到那些我们无法看到的东西——那些没有获得搜索引擎推荐的内容和创作者们,那些因未入选前10名、前100名从而被认为“不存在的”东西。

如何研究数字文化的长尾呢? [12] 许多计算机研究人员一直在使用随机取样的方法,从Twitter、YouTube、Instagram和其他平台上发布的数百万的文字内容、图片和视频中取样分析。虽然大样本能很好地捕捉网络上世界各地的动态,但它们无法分辨不同地理位置或不同人口群体发布内容的本质差别。我们将几个实验室项目的采样策略更换成:选择一个小的地理区域,然后收集这个区域内共享的所有内容。例如,对于 “百老汇”(On Broadway) 项目与调查纽约和其他全球城市的社交媒体 “不平等”(Inequaligram) 项目,我们分析了为期5个月的Instagram上所有定位在曼哈顿的照片。 我们没有过滤掉任何内容;没有局限于任何主题的标签;没有只看获得高赞的图片;没有将“艺术”与“非艺术”、“原创”与“复制品”、“网络红人”与“普通用户”区分开来。事实上,在这5个月内用户上传的所有带有曼哈顿位置信息的帖子,其中包含了由1890585名用户上传的7442454张带有定位的照片、标签和描述信息,都被收录在我们的实验中,而且每张图片对日后的分析都起着同样重要的作用。

在我们准备为当代媒体建立理论基础之前,我们需要先认清它的全貌。鉴于它新的规模,我们必须借助计算机的帮助才能实现这一点。因此,在我的《新媒体的语言》( The Language of New Media )一书中,计算不仅是主题性分析,也是研究媒介的实用工具。

自1984年以来,我一直以不同的身份从事数字媒体工作:担任过动画师、动效设计师、软件开发人员、媒体艺术家和数字艺术教授。我从1992年开始教授数字艺术实践课程,2006年开始教授数据可视化课程,2013年开始教授数据科学。我还编写过用于大型数据可视化的软件,供自己和实验室使用。我这些年积累的实践经验,包括设计、编程、数字媒体教学、可视化和数据分析,都反映在这本书里。对我来说,对数据集的探索、操控和可视化延续了我的艺术生涯和一个我自1984年开始的爱好——用代码做设计。

文化分析也是我曾经研究过的新媒体理论的直接延伸,区别在于当时(20世纪90年代至21世纪头10年)和现在数字文化的规模。在20世纪90年代中期,使用算法工作的艺术家非常少,甚至在一场会议上你就能见到所有人。两个重要的年度会议分别是始于1979年的林茨电子艺术节和始于1988年的每年一度的国际电子艺术研讨会(International Symposium on Electronic Art,简称ISEA)。1994年在赫尔辛基举行的ISEA大会上,约有150名与会者聚集在一起,极大地提升了新媒体艺术在国际上的地位。

现在,成千上万的人自称“数字艺术家”“创意技术专家”或“创意程序员”,并且随着可照相手机的普及,几十亿人都成了“数码摄影师”。2016年1月15日在YouTube上输入“How do I edit my Instagram”(“如何编辑我的Instagram”),你会得到150000个Instagram用户分享的教程视频。在2017年10月11日进行同样的搜索时,则有228000个视频。搜索结果靠前的视频,每个都有数百万的浏览量。 [13] 面对这样全新的媒体生产和互动规模,我们需要新的研究方法、新的概念和新的工具,也正因如此才诞生了这本书。在这个数字媒体是由几十亿人(不像25年前那样只有几千人)创造的世界里,我们必须重新开始,找寻文化研究的意义。

《文化分析》还结合了软件研究领域的观点,探讨软件是如何影响当今世界的。在《由软件来掌控》( Software Takes Command )一书中,我写道:“如果我们想进一步了解控制、通信、表示、模拟、分析、决策、记忆、视觉、写作和交互等当代技术,我们必须对计算机软件程序有所了解。” [14] 《由软件来掌控》对流行的媒体创作工具,如Photoshop和After Effects,进行了理论和历史分析。《文化分析》的核心概念和假设都是基于一个以数据为中心的视角。它向读者追问:我们的社会是如何使用数据和算法进行思考和行动的?基于用户内容和交互的行业内的算法分析是如何塑造当今文化的?

我相信所有的创意行业从业人员、媒体研究人员、人文主义者和社会科学家都需要具备基本的 数据科学语汇素养(data science literacy) :数据分析、机器学习、预测分析方法和应用的核心原理知识。为什么?因为基于数据科学原理编写的软件和代码被广泛应用于我们的社会,包括数字文化工业、商业、非营利组织和政府。如果数据科学现在还没有被应用于某个学术领域,那一定也是早晚会发生的事。

总之,我认为我的关注点从媒体到数据分析的转变是一个合乎逻辑的过程。编写于1999年的《新媒体的语言》描述了20世纪90年代出现的数字文化形式。2007年动笔的《由软件来掌控》涵盖了用于媒体制作的软件历史,以及当它们在21世纪之交被广泛使用时,创造出的一套新的视觉语言。《文化分析》研究的是2005年之后的新阶段,在这个阶段,数十亿人开始创建数字媒体并分享在互联网上。同时,在这个阶段,文化软件(cultural software)被赋予了一个新的角色。我们授予它更多的权利,使它不再仅仅是一种工具、媒介或助手。取而代之的是,它需要更多地参与文化行为(例如,决定显示哪篇新的社交媒体帖子,提高我们的照片质量,撰写新闻文章,等等)。虽然现在我们需要自己来写文章、自己按下快门,以及亲自参与文化行为,但这些活动在未来都可能实现全自动化。例如,2018年谷歌邮箱增添了自动补全功能,当你开始输入句子的时候,系统会出现建议文本自动补全这句话,用户只需要按Tab键来采取这一建议。这就是为什么所有的文化和媒体领域的学者和学生都应该熟悉数据科学和人工智能域。本书的第三章分析了计算机在文化中扮演的新角色。我在2018年出版的《人工智能美学》( AI Aesthetics )一书中讨论了越来越多地使用算法系统会影响文化多样性的可能。 [15]

在课堂使用本书

本书的内容及架构都是我在面向不同学生群体教授实践文化分析课程的经验之谈。这些不同的学生群体由数字艺术、媒体艺术、计算机科学、艺术史的本科生与计算机科学、人文和社会科学领域(专业艺术史、文学、音乐学、传播学、经济学、社会学、人类学、心理学和数字人文学科)的研究生组成。

这本书的章节按照主题排序,其中的内容可以在一个学期或一个季度制的课程(10—14周)内完成。本书的目的是让学生熟悉人文学科、计算机科学、设计和其他领域的文化数据集的实例,并对我们为什么需要使用计算方法分析当代文化(第一部分)加以解释;学习创造“文化数据”的概念操作、选择及限制(第二部分);理解如何使用数据可视化来探索媒体数据集(第三部分)。

为什么我选择了这些话题呢?总的来说,文化分析和数据分析有什么区别?为什么我的书里没有关于数据分析的章节?

先考虑下使用数据进行项目研究、设计或艺术项目时的工作流程:(1)考虑如何对一些主题进行定量分析或表达;(2)研究有哪些合适的数据或如何生成这些数据;(3)收集数据;(4)利用可视化方法对数据进行挖掘;(5)使用统计学和数据科学(描述性和推断性统计、无监督和有监督的机器学习、时间序列分析、网络科学等)的方法分析数据;也可以有选择性地(6)为其他人创建交互式可视化工具用以数据探索,或提供其他设计和媒体输出。

在我看来,对文化分析来说,第五步与其他的数据处理没有什么不同。而且,除了你的大学课程之外,有很多好的教科书、在线课程和教学视频资源可以用于自学这些方法。因此,这本书会重点讲述1、2、3、4、6的流程,而不会涵盖在其他地方也能找到的内容。换句话说,文化分析的独特之处不在于你如何处理数据,而在于如何从这个我们称之为文化的难以捉摸的东西中获得数据表达。也就是说,如何将 文化体验、事件、行动和媒体转化为数据 ?这个转化有什么收获,又有什么损失?一旦转化成数据形式之后,如何从多个尺度来探索它,既能看到独特的和不常见的,也能看到常见的和有规律的模式?

虽然我不打算在这本书里教你统计学和数据分析,但我会谈谈它们的一些方法背后的假设,它们现在能让我们看到什么,它们现在不能让我们看到什么。因此,理想情况下,你应该在学习数据科学技术的同时,或者在已经学习了其中一些技术之后,再来阅读这本书。

你可以按顺序阅读这本书的章节,或者直接跳到你感兴趣的任何一章,每一章的内容都是相对独立的。在本书的列表编号中,你能找到已经讲过的材料摘要和新的材料。希望这样的排序可以让本书,无论是整体内容还是单独的某个章节,都有益于课堂使用。

注释

[1] Dell H. Hymes, “Introduction,” in The Use of Computers in Anthropology, ed. Dell H. Hymes (The Hague: Mouton, 1965), 29–30. Emphasis in original.

[2] “About,” Meetup, accessed August 12, 2019, https://www.meetup.com/about/.

[3] Cultural Analytics: Computational Approaches to the Study of Culture, symposium at the University of Chicago, Chicago, May 22–23, 2019, http://neubauercollegium.uchicago.edu/events/uc/cultural_analytics/; Cultural Analytics 2017, symposium at Notre Dame University, Notre Dame, May 26–27, 2017, https://sites.google.com/nd.edu/ca2017.

[4] “About,” Journal of Cultural Analytics, accessed July 23, 2019, http://culturalanalytics.org/about/.

[5] “Articles,” Journal of Cultural Analytics, accessed October 1, 2019, https://culturalanalytics.org/category/articles/.

[6] Erik Malcolm Champion, “Digital Humanities Is Text Heavy, Visualization Light, and Simulation Poor,” Digital Scholarship in the Humanities 32, s1 (2017): 25–32.

[7] Miriam Redi, Frank Z. Liu, and Neil O’Hare, “Bridging the Aesthetic Gap: The Wild Beauty of Web Imagery,” in Proceedings of the 2017 ACM International Conference on Multimedia Retrieval , (New York: ACM, 2017), 242–250.

[8] David Moats and Nick Seaver, “‘You Social Scientists Love Mind Games’: Experimenting in the ‘Divide’ between Data Science and Critical Algorithm Studies,” Big Data & Society 6, no. 1, (2019), https://doi.org/10.1177/2053951719833404; Andrew Iliadis and Federica Russo, “Critical Data Studies: An Introduction,” Big Data & Society 3, no. 2 (2016), https://doi.org/10.1177/2053951716674238.

[9] Adelheid Heftberger, Digital Humanities and Film Studies: Visualising Dziga Vertov’s Work (Basel: Springer, 2018).

[10] Karin van Es and Mirko Tobias Schäfer, eds., The Datafied Society. Studying Culture through Data (Amsterdam: Amsterdam University Press, 2017), https://oapen.org/search?identifier=624771.

[11] Eli Pariser, The Filter Bubble: What the Internet Is Hiding from You (New York: Penguin Press, 2011).

[12] Chris Anderson, “The Long Tail,” Wired, October 1, 2004, https://www.wired.com/2004/10/tail/; Erik Brynjolfsson, Yu Jeffrey Hu, and Michael D. Smith, “The Longer Tail: The Changing Shape of Amazon’s Sales Distribution Curve,” September 22, 2010, https://papers.ssrn.com/sol3/papers.cfm?abstract_id=1679991.

[13] “How I Edit My Instagram” (search results), YouTube, accessed January 15, 2016, https://www.youtube.com/results?search_query=%22how+i+edit+my+instagram%22.

[14] Lev Manovich, Software Takes Command, rev. ed. (London: Bloomsbury Academic, 2013). An earlier version was released under a Creative Commons license in 2007, 15; italics in original.

[15] Lev Manovich, AI Aesthetics (Moscow: Strelka Press, 2018). yuAnDxWECBqkZ091f4MOqq1urwK3J26meXMvSvf2sTUFn0wr5JM0zDwnDFOP/1T6

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开