全球文化都呈现出同质化现象。电影、广播和杂志形成了一个体系……既得利益者使用各种技术词汇来解释文化工业(culture industry)的概念。数百万人都参与到机械复制的过程中以满足社会文化需要,这不可避免地加速了标准化的诞生……在现实中,操纵和追溯需求的循环使系统更加紧密地统一起来。
——马克斯·霍克海默(Max Horkheimer)和西奥多·W.阿多诺(Theodor W. Adorno),《启蒙辩证法》( Dialectic of Enlightenment ),1947年 [1]
Scuba是脸书的一个快速分布式的内存数据库。它在大约100TB的空间中储存了成千上万的表。它每秒吸收数百万新出现的行并删除同样多的行。吞吐量峰值约为每秒100次查询,每秒扫描1000亿行,大多数响应时间不到1秒。
——J.维纳(J. Wiener)和N.布朗森(N. Bronson),《脸书最核心的开放数据问题》(“Facebook’s Top Open Data Problems”),2014年
我们的数据确实非常重要。衡量全球大多数主要网站每个页面上的每一秒用户参与度意味着获取科学定义的海量数据。
——Chartbeat(美国网站流量分析公司),“公司介绍”页面,2015年
2005年11月,我第一次思考文化分析的可能性时,计算文化范式——使用算法分析在线数字内容和线上用户行为——已基本成熟。第一批网络搜索引擎创建于1993—1994年,而谷歌于1998年开始运营。2005年3月,亚马逊公开了它们从所有站内书籍的文本计算中得出的统计数据,例如每本书中最独特的短语和一本书中最常见的100个单词。
[2]
亚马逊工程师的一篇论文中介绍了一种重要的推荐算法,这种算法后来也被用在了亚马逊的官网上:项目对项目的协同过滤(item-to-item collaborative filtering)。
[3]
2002年推出的全球社交网站Friendster认证了一些社交网络基本技术的专利:“一种用于计算、显示和作用于社交网络关系的方法和装置”,“用于管理在线社交网络中用户关系的系统和方法”,以及“鼓励用户多在社交网络保持内容更新的方法”。
然而,截至2005年,社交网络还未普及,iPhone还没有问世,数据科学这个词还不流行。
这种情况在几年里发生了巨大变化。参与分析的数字文化数据的类型、分析方法、规模和公司数量迅速增长。截至2017年11月,脸书支持101种语言;它75%的用户(15亿)都位于美国与加拿大之外。
[4]
2017年9月,Instagram的用户达到了8亿;而中国的微信、QQ和QQ空间的用户分别达到了9.6亿、8.5亿和6.5亿。
当几家美国的社交网络巨头都开始对它们的数据访问设置限制时,数百名学术研究人员联合签署了一封公开信反对并阐述他们为什么需要这些数据的公开访问权。信中还举例了运用了这些数据的社会科学研究案例。
[5]
2018年,脸书与其合作伙伴,哈佛大学的定量社会科学研究中所和社会科学研究委员会,启动了一个叫作“社会科学一号”(Social Science One)的项目,目标是让“学术人员通过分析私营企业积累多年的信息资料,将研究成果回馈于社会”。
本章,我将讨论公司、非政府组织和其他参与者对线上文化内容及用户与这些内容、用户与用户之间互动的大规模分析。我把这些实践称之为 媒体分析 。虽然文化分析和媒体分析有着相同的理念——都是对文化器物和文化行为进行大规模的计算分析,但它们的目标和动机却是不同的。媒体分析总是服务于实际目标:决定在合适的时机向用户投放合适的广告,作为搜索引擎的一部分来索引数十亿个网页,在推荐网站上自动选取代表商业公司的最佳图片,等等。在我看来,文化分析的目标是对全球文化的观察和分析,并且通过结合数据科学、人文学科和媒体理论各自的优势,促进分析方法和概念的发展。
两者间另一个关键区别在于如何处理分析后的结果。大多数公司希望通过媒体分析对自己的服务进行改善和优化,但他们几乎从不提供分析的详细结果(谷歌趋势是一个例外)。从事文化分析的研究人员不仅应该公布研究成果和数据集,在理想的情况下,还应创建人人都能使用的公共互动可视化工具和其他探索工具。
文化分析研究当然可以从了解文化工业如何分析数字媒体器物和用户活动的细节中获益。为了寻求优化产品、自动化决策和创造个性化体验,相较于研究,文化工业往往会从更多的维度与细节对文化器物和互动过程进行分析,这是人文学科或社会科学的研究人员所无法做到甚至无法想象的。媒体分析的另一个基本方面是它的规模。人文学科中,研究文学、电影、音乐、数字媒体和其他艺术形式的学者通常只利用自己对特定作品的经验来思考艺术作品对读者、观众和听众的影响。社会科学中,文化社会学和传播研究一直在使用调查和访谈来了解更大群体的文化行为,但这种方法的规模并不大。相比之下,真实的行业“数据”从方方面面记录了数十亿人的文化体验。
数字人文学科大多忽略了研究本土数字文化的机会,因为正如我前面解释的,它遵循的是研究专业文化和高等文化的传统人文学科范式。但是社会科学家关心的是整个社会,他们欢迎在开发新的研究方法的过程中通过数字网络来分析社会现象的机会(比如在线实验的设计)。正如麻省理工学院数字实验会议(2017)的组织者所指出的:
在人口规模的复杂社会和经济环境中,快速部署和迭代微观层面、体内随机实验的新兴能力是现代社会科学中最重要的创新之一。随着越来越多的社会互动、行为、决策、意见和交易通过在线平台数字化与中介化,我们能够快速回答关于社会行为在医疗、选举、政治动员、消费者需求、信息共享、产品评价和意见汇总等人口层面结果中的作用的细微因果问题,这种现象是前所未有的。 [6]
数字实验在社会科学中的应用表明,文化研究人员应该大规模地分析关于文化接受和互动数据,并进行大型数字实验。目前,这种文化实验都在行业内进行。例如,网页设计中的A/B测试,或者在脸书等社交网络中自动选择好友的帖子。可以说,这些是由行业进行的数字人文实验。当然,这些实验数据并不公开,而且只针对几个实际目标:增加用户参与度(例如用户在网站上花费的时间)、提高品牌知名度、引导客户购买产品或服务。这就是为什么我们需要有自己的实验机会,并提出创新性问题。
我们可以把技术媒体的历史想象为几个相互重叠的阶段。在每一个阶段,创造、存储、传播和使用内容的新技术与新实践都变得显著,但是这些实践并没有以线性的方式相互替代。相反,旧的继续与新的共存。例如,大批量生产的印刷品(1500—),广播(1920—),使用个人计算机进行媒体创作(1981—),成为发布和传播平台的互联网(1993—),以及社交网络和媒体共享网站(2003—),这只是其中的几个例子。上述的这些实践尽管经历很长一段时间,早期的实践今天也许不再重要或被明显改变,但总体依旧活跃。
媒体分析是现代科技媒体发展的最新阶段。与其他阶段不同,它的核心不是创作、发布或传播,尽管也会或多或少影响到它们。这一新阶段的重点是对所有线上媒体内容、线上用户的个人和群体行为,以及线上交流进行自动计算分析。
媒体分析的动机和用途是多方面的,但它们都与21世纪初的数字文化规模有关。这个规模就是数字内容的数量:2017年,互联网有140亿个网页;而仅在脸书上每天就有20亿张照片被分享,这代表着活跃在网上的用户数。截至2020年初,社交媒体活跃用户数达到38亿,互联网用户总数达到45亿,而且这些数字还在继续增长。因此,一个保守的说法是媒体分析和大数据范式的兴起有关联。实际而言,谷歌和脸书开发了下一代存储、检索和分析大数据的技术,用于其他需要大量处理数据的领域。
通过网站或应用程序销售文化产品和服务的公司(亚马逊、苹果、Spotify、奈飞),组织和制作可搜索的信息与知识的公司(谷歌、百度、Yandex),提供咨询建议的公司(Yelp、Tripadvisor),实现社会沟通、信息共享的公司(脸书、QQ、微信、WhatsApp、Twitter)和媒体共享的公司(Instagram、Pinterest、YouTube、爱奇艺)都依赖于对海量媒体数据集和数据流的计算分析。这些分析包括以下内容:
●用户在线行为的记录(即数字足迹):访问网站、跟踪链接、分享和点赞、观看和点击广告。
●具体行为记录:地理位置、用户发帖的日期和时间、连接到互联网的终端位置。
●由公司创建的媒体内容:歌曲、视频、书籍和电影。
●由社交网络用户创建的媒体内容:帖子、对话、图像和视频。
工业领域中,
数据集
通常指数据库中的静态或历史数据。工业数据分析应用程序中,“
历史的
”一词形容过去几秒钟发生的事情,有时甚至是几分之一秒。
数据流
是指实时流入Spark Streaming和Apache Storm(分布式实时大数据处理系统)等平台计算后得出的数据。
[7]
到目前为止,数字人文和计算社会科学只分析历史的、静态的数据集;与此同时,工业界越来越频繁地对数据流进行实时分析,因为数据流较大,所以需要Hadoop、Apache Cassandra(一套开源分布式数据库管理系统)、Apache HBase(分布式数据库)和MongoDB
等特殊技术。
让我们看一个媒体内容的工业计算分析的例子及它的应用。Spotify在其超过4000万首曲目的集合中提取了每首曲目的多个特征。外部开发者也可以使用Spotify的API“获取音轨的音频功能”(Get Audio Features for a Track)获取并使用音频功能。该方法的当前规范列出了13个音频特征。
其中许多都是建立在由算法从跟踪音频文件中提取的更低级特征之上的。这些特征分别是:原声程度(acousticness)、律动感(danceability)、音乐时长(毫秒)(duration in milliseconds)、冲击感(energy)、器乐性(instrumentalness)、曲调(key)、现场感(liveness)、响度(loudness)、旋律重复度(mode)、口语化(speechiness)、分钟节拍数(tempo)、音符时值(time signature)和心理感受(valence)。通常,特征提取是现代数据分析的一个关键部分,我将在第六章继续讨论。
Spotify和其他音乐流媒体服务通过特征提取功能,按照歌曲、专辑、艺人或音乐流派用户创建自定义播放列表。你可以从一首歌曲开始,然后应用程序的算法会选择与这首歌在特征空间中接近的歌曲并进行播放。这种方法的优点是,推荐的曲目只需要满足与前面的歌曲有相似的音乐特征即可,而无需来自同一张专辑或一位艺术家。
媒体分析的其他应用,例如,为了扩充搜索的可能,谷歌不断分析数十亿网页的全部内容和标记。它可以触及每个网页的文本、布局、字体、图像等,提取出总共200多个信号。
垃圾邮件的检测也依赖对大量电子邮件文本的分析。亚马逊分析了其数百万客户的购买情况从而进行书籍推荐。奈飞分析了数百万用户订阅电影和电视节目的偏好的同时,还分析了所有产品的信息,共创建了7万多个不同的类目。
[8]
语境广告系统(contextual advertising system),比如谷歌AdSense,分析网页内容并自动选择相关广告进行播放。视频游戏公司捕捉数百万名玩家游戏时的行为,并以此来优化游戏设计。脸书的算法会分析用户的所有好友的动态更新,如果用户使用了默认的“Top Stories”(热门动态)选项,该算法会自动将热门内容推送至用户主页。
[9]
而且它对所有用户(截至2020年初,约有25亿)都这样做过。工业领域对媒体分析的使用还包括自动翻译(谷歌、Skype)和“推荐关注的人”/“添加到好友列表”功能(Twitter/脸书)。而谷歌搜索的语音输入、谷歌语音转录、
微软的Cortana、苹果的Siri、亚马逊的Alexa、Yandex浏览器的语音交互功能,都离不开对数百万小时语音对话的计算分析。
许多学术领域研究人员开发了算法和软件以实现数据收集与分析及后续行动,这些领域包括机器学习、计算机视觉、音乐信息检索、计算语言学和自然语言处理。其中许多领域在20世纪50年代开始发展,信息检索这一关键概念首次出现于1950年(前面已经讨论过)。最新的术语是2010年后开始流行的“数据科学”,它是指了解当今 机器学习 、 数据挖掘 和 人工智能 ,以及经典统计学术语所描述的数据分析的当代算法和方法,并能够使用当前技术实现大数据的收集、分析、报告和存储。
外行可能会惊诧地发现,媒体分析技术的许多关键部分的代码是开源的。为了加快研究的进度,大多数顶级公司会定期公开分享他们的大部分代码。例如,2015年11月9日,谷歌开放了TensorFlow(适合所有人的端对端开放原始码机器学习平台)的源代码,这是一个为谷歌旗下许多服务提供动力的数据和媒体分析系统。
其他公司,如脸书和微软,也公开了它们用于组织大规模数据集的软件系统的源代码。Cassandra(开源分布)和Hive是脸书开发的两个很受欢迎的系统,现在被许多商业和非营利组织使用。地图项目(openstreetmap.org),拥有超过200万会员,被许多商业公司(包括微软和克雷格表格)用于其应用程序中。
[10]
目前用于媒体分析研究的最流行编程语言是开放源代码的R和Python。
如果我们想确定整个行业大规模内容和互动数据分析实践的日期,我们可以选择1995年作为起始时间(早期的网络搜索引擎),2010年时这些实践完全成熟(脸书达到5亿用户)。如今,每家在线上或线下销售服务或产品的大型公司都在进行媒体分析。成百上千家公司都在提供同样的分析服务,同时有专门的社交媒体面板(用于监控和分析用户活动和发布内容的网络工具),并为包括私立和公立大学在内的众多营利和非营利客户进行定制分析。
媒体分析是媒体技术的新阶段,影响着大多数国家相当比例人口的日常文化体验。媒体分析的一个部分——用户互动数据(即数字轨迹)的收集和算法分析的做法已经受到了极大的关注。然而,这些实践的讨论大多集中在政治和社会问题上,如隐私、监控、访问权、歧视、公平和偏见,而不是技术型媒体的历史和理论。
相比之下,媒体分析的第二部分——文化工业对所有类型的在线媒体内容(包括图像、视频和音乐)进行算法分析的做法——受到的关注则较少。然而,只有我们将媒体分析的两部分结合起来(用户互动数据和媒体内容分析),1995—2010年发生的变化才会逐步显现。虽然主流媒体的文章中曾出现过对文化内容和数据的计算分析细节的公开讨论(如谷歌搜索、奈飞的推荐系统或始于2008年奥巴马的美国总统竞选活动),但它们没有解释媒体分析现在被整个文化工业所使用。 [11]
媒体分析的实践和技术主要运用于某些平台和服务产业,人们在这些平台上分享、购买文化产品并与之互动。公司使用这项技术为用户自动选择、推送平台上的内容,包括好友的动态和内容推荐。它还可以设置 推送时间 和不同的 推送方式 。此外,媒体分析还被数百万的个人用户所青睐,他们不仅作为文化工业的消费者,而且更是内容和意见的创造者。乔治·瑞泽尔(George Ritzer)和内森·于尔根松(Nathan Jurgenson)称这种消费和生产的结合是 产销者资本主义(prosumer capitalism) 。 [12] 例如,用于网站和博客的谷歌分析,以及脸书、Twitter和其他主流社交平台自带的数据分析面板,它们都被数百万人用于内容和发布策略的优化。
媒体分析的这两个组成都是历史上的创新。当马克斯·霍克海默和西奥多·阿多诺在介绍 文化工业 这个词时(见本章开头的引文),他们在书中提出,人际交往和群体互动不是文化工业的一部分。而当今,它们也变得越来越工业化了,有一部分原因是受到算法的影响,这些算法决定了你的社交圈好友向你展示的内容和信息。这样的互动也在某种意义上实现了工业化:社交网络和通信软件的界面和工具功能是在研究用户互动(UI)的科学家和设计师的投入下设计的,他们测试了无数种的可能性,以确保每个UI元素(如按钮和菜单)都经过优化和设计,从而达到最佳的效果。
媒体分析的第二部分——媒体内容的计算分析——直到近期才出现。最早的计算机技术在20世纪40年代引入,它可以检索计算机编码的文本。1948年举行的一次会议上,与会者了解了UNIVAC计算机,它“能够搜索与话题代码相关的文本参考资料” [13] 。卡尔文·穆尔斯(Calvin Mooers)在麻省理工学院的硕士论文中创造了 “信息检索”(information retrieval) 一词,并于20世纪50年发表了该词的定义。根据定义,信息检索是“找出所需要的未知的信息” [14] 。虽然最早的系统只使用主题代码和作者代码,但在20世纪50年代末,IBM的计算机科学家汉斯·彼得·卢恩(Hans Peter Luhn)引入了全文本处理(full-text processing),我认为这一时刻便是媒体分析范式的起始点。
20世纪80年代,第一批搜索引擎将信息检索技术应用于互联网文件。在万维网开始发展之后,新的网站搜索引擎应运而生。第一个为大众所知的是1994年发布的文字爬虫引擎WebCrawler。20世纪90年代后半期,雅虎、Magellan、Lycos、Infoseek、Excite、AltaVista等搜索引擎公司都开始分析网站文本。21世纪头10年,搜索引擎公司开始对其他类型的在线媒体进行大规模分析,包括图像、视频和音乐。谷歌在2001年7月引入了图像搜索,到2005年检索了10亿幅图像;2010年,这个数字达到了100亿。另一个图像搜寻引擎TinEye到2020年初已经检索了400亿张网络图像。一些音乐流媒体平台通过分析数百万首歌曲的特点,建立起平台的推荐功能。YouTube会分析已发布的视频内容,目的是检测其是否存在侵权行为。
如果我们从自动化的角度来审视媒体历史的文化分析阶段,可以看出它恰好处于早期软件工具和计算机被使用于创作单个媒体产品的阶段。 [15] 在这段历史中的重要时刻包括推出了具有视频效果的计算机绘画软件Quantel Paintbox(1981),用于写作的微软Word(1983),用于排版的PageMaker(1985),用于矢量绘图的Illustrator(1987),用于图像编辑的Photoshop(1990)和用于视频剪辑的Video Toaster(1990)。这些软件工具可以加快工作流程,交换和共享项目的数字文件与资产,创建模块化内容(例如Photoshop中的图层),以及将来轻松更改部分创建内容的能力。后来,这些工具加入了其他支持计算媒体创作的技术,如渲染农场(render farm)和媒体工作流程管理软件。
媒体分析的工具是不同的:它们自动分析(1)在线共享和发布的数十亿媒体内容与(2)来自用户与软件服务和应用程序之间数万亿次交互的数据。例如,在2018年,Instagram有关用户推荐的算法利用了这些主要因素(以及许多其他因素):
兴趣: Instagram可以预测你会在多大程度上关注一篇对你来说重要的帖子。对你来说更重要的内容往往会被排在前面。这取决于你过去对类似内容产生的行为,以及帖子的内容(通过机器视觉分析)。
新鲜度: 这篇文章最近被分享的次数。最近发布的文章优先于发布了几周的文章。
关系: 你和分享者的关系亲密程度。如果你在Instagram上经常与之互动,则分享者排名会更高,这种互动包括发表评论或一起在图片中被提及(tag)。 [16]
当下,自动化的不再只是单个媒体项目的创建,而是其他媒体的操作。这包括选择和过滤(显示什么)、内容投放(行为广告)和发现(搜索与推荐)。另一个媒体分析的应用是如何显示。例如,新闻门户网站Mashable会根据对用户与内容互动时的实时分析,自动调整内容故事的位置。媒体分析的另一个应用是要 创造什么(what to create) 。例如,在2015年,《纽约时报》的撰稿人们开始使用内部应用程序来推荐报道的主题。 [17]
正如采用计算机进行媒体创作逐渐使这个过程民主化一样,媒体分析的概念、技术、软件和硬件的发展也让它们的用途趋向民主化。今天,每一个网络内容的创造者都有免费的工具,然而不久之前,这些工具却只提供给大型广告公司或营销人员。现在,每个经营博客网站或在社交媒体网络上发布内容的人都可以成为一家独立的媒体公司,研究有关点击量、转发和点赞的数据;付费推广任何帖子;系统地规划分享的内容和地点。几乎主流的媒体共享平台都会分享用户与平台交互时产生的详细图表和统计数据。
另一个例子是Mailchimp,一个用于群发电子邮件的热门软件。当我使用Mailchimp向我自己的邮件列表发送电子邮件时(Mailchimp目前免费提供批量发送至2000个电子邮件地址和每月12000封电子邮件额度),我会使用它的发送时间优化选项。然后Mailchimp通过分析我以前的邮件活动的数据,“确定你发送给订阅用户的最佳发送时间,并在最佳时间发送”
。我还会使用Buffer这个软件在脸书和Twitter上发帖,因为它可以算出每个平台发帖的最佳时间。如果我想推广我的脸书主页或推文,我可以使用免费的广告功能吸引受众,只需要在上百个筛选条件中进行选择(包括国家、年龄、性别、爱好和各种行为)。基于类别的市场划分在早期的市场营销和广告中已经开始使用,但Twitter也允许你为你的账户锁定目标用户,即那些与你关注的人相似的用户。
在这种情况下,我不需要从头开始分类或者搜索关键词,相反,我可以让平台的媒体分析功能为我建立定制的受众。
对谷歌、百度、Yandex和脸书等网络巨头来说,它们在数据分析的技术、人才和数据资源方面具有显著的优势。想象一下每天有数十亿人在这些平台上产生数据,这些资源使它们能够分析用户的互动数据。虽然这种分析在数量上与个人或企业用户使用谷歌分析或脸书分析,或任何社交媒体的数据分析面板时相差甚远,但是就概念和大多数技术而言,二者没有太大区别。大公司和小公司之间的一个关键区别是,前者有顶尖的科学家开发它们的机器学习系统(一种现代形式的人工智能),并根据近实时采集的数十亿个数据点进行分析和做出决策。另一个不同之处在于,谷歌和脸书在许多国家主导着在线搜索和广告领域,因此它们很大程度上影响了数亿人对新内容和信息的获取渠道。
媒体分析的覆盖面可以被广泛应用于整个文化工业。但是,为什么我把它称为一个
阶段
,而非当代文化工业的趋势之一?因为在某些行业,媒体分析会被用来处理每一个文化器物。例如,2014年,使用媒体分析的数字音乐服务占美国音乐收入的70%。
这是一种新型关系,它涉及媒体内部如何运作及它们在社会中如何运作。总之,无论是实践还是理论层面,都是至关重要的。未来任何关于媒体理论或传播学的探讨都必须从这一新趋势开始。
(当然,我并不是说1993年以后,在媒体技术领域没有发生过其他事件。我可以列举出许多其他重要发展,比如从信息分层组织转向搜索、社交媒体的兴起、地理定位信息的整合、移动计算、摄像头和网络浏览功能在移动端的整合等,以及2010年后,媒体分析和其他数据分析领域开始采用监督式机器进行学习。)
谷歌、百度、VK、亚马逊、eBay、脸书、Instagram等媒体大数据处理领跑者其实非常年轻化。它们在网络时代发展起来,而不是像电影制片厂或图书出版商等20世纪的老牌文化工业。老牌企业过去是,现在也仍是“专业”内容的主要生产者。年轻的“玩家”在用户、专业内容及“用户生成内容”之间起到承上启下的作用。有经验的“玩家”虽然正在也开始采用分析法,但关键性的决策(例如出版一本书)仍然是凭借个人经验做出决策。相比之下,大多数新公司从一开始就把业务建立在计算媒体分析上。
一方面,公司利用媒体分析来优化分销发行、营销、广告、搜索和推荐,即客户发现和购买文化产品的文化工业部分。另一方面,社交网络和网络平台的用户成了彼此的“产品”。因此,亚马逊算法分析人们在选购商品时的行为数据,并利用这种分析向用户推荐其感兴趣的信息。脸书通过算法分析用户行为,决定用户的动态推送内容。 [18]
虽然“算法”和“算法文化”这两个词都很常见,但有时也会有误导性——这就是为什么我用“分析”来代替它们。在大数据分析和预测中,最常用的技术是使用神经网络的监督机器学习,它与我们通常理解的算法(即通过执行一些有限的步骤序列来完成某些任务)有很大不同。一些机器学习应用程序是可解释的,但也有许多不是。创建这样一个系统的过程往往会产生一个黑匣子,这个黑匣子有很好的实际性能,但难以解释。也就是说,我们不知道它是如何产生结果的。
出于这些原因,在提及公司部署的分析数据,做出预测或基于此分析执行自动操作时,我倾向于避免使用“算法”这一术语。我喜欢的术语是“软件”,它更通用,因为它不假定系统使用传统算法,也不假设这些算法是可解释的。
[19]
媒体分析是当今媒介“物质性”(materiality)不可或缺的维度。15年前,这个概念可能已经用于计算机硬件、编程语言、数据库、网络协议,以及媒体创作、发布和共享软件的讨论中。
[20]
今天,媒体实质性包括Hadoop和Storm等大数据存储和处理技术,监督式机器学习和深度学习(deep learning)等范例,以及k均值聚类(k-means clustering)、决策树(decision tree)、支持向量机和k-NN(k近邻算法)等流行的机器学习算法。物质性是脸书“每秒扫描1000亿行”,
谷歌每天处理100 TB以上的数据(2014年估算)
[21]
,并自动为每个人创建“基于时间的多个[预测]模型”。
[22]
到目前为止,我们的讨论重点是媒体内容的自动分析和用户与内容的交互。我现在想谈谈媒体分析所支持的媒体文化的另一个新方面:基于早期和/或实时分析结果的 媒体动作(media action) 的自动化(automation)。这些行为动作分为两种类型:(1)部分由公开用户输入或选择的设置控制的自动操作;(2)不受公开用户输入控制的自动操作。
部分由公开用户输入或选择的设置控制的自动操作包括:响应文本搜索结果、用户图片搜索结果,以及音乐服务中根据用户选择的歌手推荐音乐曲目。例如,谷歌图像搜索目前可以选择人脸、照片、剪贴画、线条画、动画,并且可以搜索全彩、主色或黑白。用户可以更改的设置示例是系统根据用户的偏好推送的广告及通过“安全搜索”设置可以显示的图像类型。
这些用户的输入和设置与内容和交互分析的结果相结合,以确定软件的进一步操作。操作的选择可以结合指定用户的历史数据及所有其他用户的数据,例如所有亚马逊客户的购买历史记录。其他信息也可用于确认操作。例如,成千上万个广告的实时算法操作决定了定时推送给用户的广告内容。
不受公开用户输入控制的自动操作取决于对用户交互活动的分析,但不要求用户选择任何内容。换句话说,用户通过以前的操作进行“投票”。例如,Gmail(谷歌邮箱)对邮件进行自动过滤,将邮件标记为“重要”和“全部”两类。我们今天在与网络服务和应用程序的交互中遇到的大多数自动操作可以手动设置。然而,并不是每个用户都愿意花时间去了解和更改每个服务的默认设置(例如:www.facebook.com/settings)。
我们还可以将自动操作分为两种类型,具体使用哪种取决于它们的方式是确定的还是不确定的:
1. 确定性操作 是由计算产生的,在相同的输入下,这种计算总是产生相同的输出。
2. 不确定性操作 也是由计算产生的,但在相同的输入下,这种计算可能产生许多不同的输出。
当今,多数使用大数据的算法决策都基于概率论、统计学和机器学习。这包括文化工业的网络服务和应用程序中的自主决策。例如,一个推荐系统可以通过添加一个随机参数来改变这些结果,每次生成不同的结果。但是,即使一个计算系统使用确定性方法,当输入的数据发生变化时,它仍然可以每次生成不同的动作——这也是因为网络和社交网络的不断进步和发展。
结果呈现出媒体的另一种情况:我们每次展示和推荐的内容并不完全由我们或系统设计师决定。这种从20世纪文化工业的严格确定性技术和实践到21世纪非确定性技术的转变是媒体文化新阶段的另一个重要方面。严格意义上的属于实验艺术领域的经验——约翰·凯奇(John Cage)利用不确定性,伊阿尼斯·泽纳基斯(Iannis Xenakis)随机创作或表演作品——已作为处理新的大规模可用内容的方法被文化工业采用。当然,这个行业目标是不同的:不是创造一种可能不舒服和令人震惊的审美体验,而是正如他们之前所选择和体现的那样,为的是让一个人接触到更多符合个人品味的现有内容。然而,我们应该记住,行业推荐系统也可以提升个人的品味和知识面,如果一个人逐渐偏离最初的喜好,那么网络超链接结构、维基百科和开放性刊物也可以相应改变。
除了我已经提到的基于媒体分析的自动操作的例子,还有许多其他类型的此类操作也使当代媒体不同于过去的媒体。例如,用户与网络服务、应用程序或设备交互的数据也经常用于对该网络服务、应用程序或设备进行自动设计调整。这些数据还用于创建更多的认知自动化,使系统能够“预测”用户在任何给定的位置和时间可能需要什么,并提供最适合该位置、时刻、用户简档和活动类型的信息。“ 情境感知”(context-aware) 一词通常用于描述能够对位置、时间、身份和活动做出反应的计算机系统。 [23] 2012年推出的Google Now助手就是这种情境感知计算的一个例子(自2016年以来,其功能已被纳入Google Assistant)。
20世纪的工业软件设计师和广告商使用用户测试、焦点小组和其他技术来测试和改进新产品。但是在媒体分析阶段,服务或产品可以根据每个用户的交互历史及其他用户与服务或产品的交互分析,自动调整其行为。遵循谷歌推广的模式,每个网络和应用用户都成了许多不断变化的系统的测试员,这些系统从每一次交互中学习。
大规模媒体分析经常被用来决定创造什么样的文化产品,它们的内容和美学,以及它们应该如何营销和面向什么样的群体。例如,当你创建了一个你想要推广的帖子,并让脸书、Twitter或其他社交网络自动创建一个特定的受众群(比如类似于你当前的关注者),那你就是在使用媒体分析。在这里,系统自动决定什么样的观众会对你的内容最感兴趣。但媒体行业已经走得更加深远,有时会首先使用分析来决定创建什么。在这方面,奈飞一直是行业先锋,它利用数据决定节目中的元素[如2013年的《纸牌屋》(
House of Cards
)]。
[24]
奈飞还系统地分析了关于观看的内容及它提供的电影和电视节目内容的各种数据。正如奈飞工程总监泽维尔·阿玛特里亚因(Xavier Amatriain)在2013年的一次采访中所解释的那样:“我们知道你播放、搜索或分级的内容,以及时间、日期和设备。我们甚至会追踪用户在浏览页面时的鼠标滚动。所有这些数据都被输入到几个算法中,每种算法都根据不同的目的进行了优化。从广义上讲,我们的大多数算法都是假设相似的观看模式代表相似的用户口味。我们可以使用相似用户的行为来推断你的偏好。”
奈飞甚至可以分析其节目封面图片的颜色。在其技术记录上,它们发布了一些可视化的例子,用于比较其节目的封面配色。菲尔·西蒙(Phil Simon)在描述2013年的可视化案例时指出:“一般人在比较两个配色几乎相同的节目封面时,很难发现区别,但奈飞可利用算法精确地量化这些差异。更重要的是,它可以看到它们是否对用户的浏览习惯、推荐、收视率等有任何明显的影响。” [25] 在另一个媒体分析应用程序中,描述了奈飞如何使用计算机视觉算法自动从其电影和电视剧中捕捉适合在小型手机屏幕上播放的画面。 [26] 而这些只是像奈飞这样的公司如何利用媒体分析来推动各种决策的几个例子。
另一个例子,Yelp正在使用媒体分析自动选择最佳照片来做其评论网站上的企业的封面。正如其工程日志(2016)所解释的:
为了给Yelp用户提供一个很好的体验,照片分析团队面临着一个具有挑战性的任务:确定更优质、更具吸引力的照片,并开发一个能够评估这些照片特征的算法。在Yelp上,每家公司的页面都会展示一些最好的照片,我们称之为封面照片。多年来,我们选择这些照片纯粹是通过计算一个基于点赞、投票、上传日期和图片描述的算法。然而,这种方法有几个缺点。而现在,得益于我们的评分算法,我们认为餐馆封面照片的质量有了显著提高。 [27]
对与经济、社会和政治相对应的媒介文化,以及相关的文化效应,无论是文化工业还是学术研究人员都没有系统地进行实证研究。例如,我们知道许多关于美国保守派和自由派Twitter用户的语言或同一平台上的政治两极分化的事情。 [28] 但我们对过去15年数亿博客的话题变化,或同期数十亿Flickr照片的特征变化,或全球数千个城市Instagram上共享的内容类型的差异一无所知。我们也不知道Instagram如何通过算法挑选的图片改变用户的品味,以及这又对他们的图片创作产生怎样的影响。
我们可以创造数据集或者利用现有的数据集来解决这些问题。在2014年,Flickr向所有感兴趣的对象发布了一个包含1亿张照片的开放数据集,这些具有知识共享许可的照片分享于2004—2014年。
这样的数据集既可以用来研究全球照片文化随时间的演变,也可以用来研究当地照片文化的差异。项目分析了2013年12月一周内在全球5个城市共享的10万张Instagram图像,发现不同城市之间在内容、视觉风格和摄影技术方面存在显著差异。
[29]
在2013年的另一个项目中,我们用了230万张Instagram图片样本,比较了13个全球城市的图像共享的时间间隔规律。
这个行业的确借助专业和用户生成的在线内容掌握了不少“规律”,但其实这都是算法和神经网络的功劳,只有它们在进行“可视”。公司将这些信息用于搜索、推荐、设计、营销、广告和其他应用,但通常不会公布分析结果。媒体分析服务的商业客户通常也仅对特定内容(例如,特定品牌的所有社交媒体提及或竞争公司的活动)和特定用户行为或用户活动(例如,对该品牌的喜欢)感兴趣。
通常,文化工业中用于合理化和细化内容与传播的相同分析方法也可用于研究、绘制地图、量化,以及解释文化工业媒体分析的文化效应。例如,如果文化工业使用聚类分析来研究特定音乐或电影的受众,我们就可以使用聚类分析来了解所提供的数千部电影之间的关系。但如例子所表明,工业界所做的和独立研究人员能做的之间存在着明显的不对称。我可以从一些社交网络收集用户生成内容的大数据集,也可以收集不同类型的专业内容,例如设计师和公司在视频共享网站Vimeo上分享的音乐视频、动态图像,或者在Behance上分享的设计项目。如果给定的社交网络API提供了这些数据,我还可以访问用户如何与特定帖子交互的交互数据(interaction data),例如点赞量、评论数等。但是,现在所有的专业媒体公司都不向用户公开这一类数据,我们也无法获取奈飞可以访问的详细信息:每个节目的观众画像、观看时间、地理位置、关联搜索记录、历史记录、鼠标点击行为等。Spotify、iTunes Store、Google Play、亚马逊、Etsy、全球速卖通等网站的数据也是如此。
谷歌趋势是一个免费的系统,它向用户提供大量数据,易于使用的图形界面及下载结果的功能。它可以用来提出有趣的文化问题,事实上,许多研究人员在论文中引用它的分析结果。还有其他付费的社交媒体监控管理平台:Hootsuite、Sprout Social、Brandwatch、Critical Mention、Crimson Hexagon(现在是Brandwatch旗下的社交媒体分析公司)等。通过监控社交媒体、博客、评论、新闻、论坛和其他来源的特定关键字、标签与主题,可以看到它们在不同时间和地域的相对流行度(类似于Google趋势显示搜索词的模式)。然而,这些软件的主要目的是使企业或组织能够计划其社交媒体活动,了解人们对它的评价,并将自己与竞争对手进行比较。因此,它不能作为一般的文化分析工具。要想提出更多研究问题,或者能够直接分析大型文化数据集,而不是依赖社交媒体监控软件内置的算法,必须学习编程和数据科学,获取数据(通过API下载数据,从网站上获取数据,或者从数据提供商,如Data Sift或Webhose.io那里获取)后就可以开始分析了。如果我们对精细的历史或大规模的跨文化分析感兴趣,这是唯一的方法。
文化工业这个术语,在本书中已经出现过多次,有着确切的起源。正如我已经提到的,它是由德国文化理论家霍克海默和阿多诺在他们1947年的《启蒙辩证法》中发展起来的。他们在洛杉矶写这本书的时候,好莱坞的工作室正处于它的经典时期,也是整合度最高的时期。当时有8家大型电影集团,其中5家(20世纪福克斯、派拉蒙、RKO影业、华纳兄弟和Loews)都有自己的制片厂、发行部、院线、导演和演员。根据电影理论家的说法,这些制片厂制作的电影具有非常一致的风格和叙事结构。 [30] 无论霍克海默和阿多诺在从德国移民到洛杉矶之前是否已经充分形成了自己的想法,书中的所有内容及其陈述,正如其中的名言,“今天的文化让一切都变得千篇一律” [31] ,似乎符合好莱坞的经典时代——虽然在那个时代,不同导演的电影也互不相同。
新的“计算基础”(即媒体分析)如何影响文化工业创造的产品和消费者看到与选择的东西?例如,现在许多公司使用的计算推荐系统是帮助人们更广泛地选择应用程序、书籍、视频、电影或歌曲(即长尾效应),还是相反地,引导人们进入“最佳榜单”?Twitter和脸书是根据怎样的系统,向我们进行关注人推荐和群组推荐的呢?[关于介绍其推荐系统详细信息的行业出版物,请参见2013年的论文《基于位置的移动环境个性化餐厅推荐系统》(“Location Based Personalized Restaurant Recommendation System for Mobile Environments”) [32] ;关于行业推荐系统对媒体消费影响的定量分析,参见2010年的论文《YouTube推荐系统对视频浏览量的影响》(“The Impact of YouTube Recommendation System on Video Views”) [33] 。]
或者考虑一下流行的媒体捕捉和分享应用程序的界面和工具,比如Instagram,它的标准滤镜和调节控件以一定的顺序出现在用户的手机上。只有几种滤镜占据主导地位,是否会导致图像风格的趋同化?关于数字工具和服务对文化多样性的影响的这些问题,现在可以使用来自网络的大规模文化数据和数据科学方法进行定量研究。例如,当我们比较2012年春天全球13个城市分享的230万张照片的Instagram滤镜使用情况时,我们发现这些城市之间存在显著的一致性。 [34] 不同滤镜在各个城市的相对频率非常相似,而且它们的受欢迎程度几乎与它们在Instagram应用程序界面上出现的顺序完全相关。
历史文化媒介的数字化也使得定量分析其多样性和同质性随时间的变化成为可能。在论文《衡量当代西方流行音乐的演变》(2012)中,研究人员将计算方法应用于1955—2010年464411个不同歌曲录音的数据集。他们发现流行音乐的许多声音参数在这一时期没有变化,但有一些变化显著。研究人员强调了3个转变:“音高转换的限制,音色的趋同,以及不断增大的音量。” [35] 前两项研究结果表明,在研究的55年间,西方流行音乐的多样性降低了。
另一份刊物《流行音乐的演变:美国1960—2010》(“The Evolution of Popular Music: USA 1960—2010”)分析了这一时期排行榜上出现的17094首歌曲。作者分析了声音属性,“以声音为基础对音乐风格进行分类,并研究了音乐多样性和差异的演变,对文化变迁的几个经典理论进行了检验和否定”。他们还调查了“流行音乐的演变是渐进的还是间断的”,发现虽然有些时期有渐进的变化,但在1964年、1983年和1991年也有3次风格上的“革命”。 [36]
本章我们研究了媒体分析,即对数字文化内容和用户活动的计算分析,这些已经成为当代数字文化的基础。然而,尽管谷歌、脸书、Instagram、亚马逊等公司对内容和互动数据的大规模计算分析,以及其他国家的同类公司赋予了它们很大的权力,但它们不只是20世纪40年代紧密整合的好莱坞集团的新翻版。网络、社交媒体和媒体分析的使用创造了一种新型的文化工业,它与20世纪10年代至20世纪40年代建立的旧文化工业共存并相互作用。这个早期的文化工业专注于 创作、发行和营销内容 ,如电影、广播节目、歌曲、书籍和电视节目。我们这个时代的新文化工业正专注于 组织、呈现和推送由各种演员创作的内容,以及捕捉和分析个人与这些内容的互动 。换句话说,通常这些公司不是内容创作者。
创作内容的演员包括不同规模的专业制作人(例如,大型电影制片厂、电视制作公司、图书出版商和音乐标签——“旧”文化工业)和数十亿普通的临时用户,以及数百万处于这两个极端之间的人。例子包括:社交媒体上的小圈子和“网红”;自由职业者,如摄影师、设计师、瑜伽教练、发型师或室内装潢师;利用社交媒体推销自己的小店或个体卖家;众多流派的在线视频创作者,如动漫音乐视频、YouTube热点视频、俄罗斯学校毕业视频、中国短视频等;3500万艺人在DeviantArt (deviantart.com)上分享他们的作品;1.13亿学者于academia.edu拥有账户。
还有更多的例子。
而且内容本身也与霍克海默和阿多诺写书时(20世纪40年代初)文化工业制作的内容有质的不同:不仅是歌曲、电影、书籍和电视节目,还有我们在Twitter、脸书、Vine、Instagram、YouTube和Vimeo上分享的个人帖子、信息、图像、视频、学术论文、代码等。20世纪40年代,美国整个文化工业发布的所有内容每年可能不到几百万条。如今,社交网络上共享的所有内容每天加起来都有几十亿条。
我们只能使用计算方法来揭示这一内容的可变性,以便我们能够理解和解释它。写这篇文章时,我的目的在于理解媒体和数字现象的学术领域——媒体理论、数字文化研究和新媒体研究,还没有采用文化分析方法。但是,正如最近出现的数字历史、数字人文和数字艺术史领域的研究人员已经开始在其领域应用这些方法一样,媒体理论也会采取这样的路径,只是时间长短问题。这一新的领域可以被称为 “计算媒体研究”(computational media studies) ,或者等它完全被采用的时候,它可能仅仅被视为媒体和新媒体理论可以使用的另一套工具和方法,不需要自身特定的名字。
[1] Max Horkheimer and Theodor W. Adorno, Dialectic of Enlightenment, trans. E. Jephcott (Stanford, CA: Stanford University Press, 2002).原著在1947年于德国出版。
[2] Nathan Bierma, “Amazon’s SIPs Let Readers Search and Dip into Books,” Chicago Tribune, May 24, 2005, http://articles.chicagotribune.com/2005-05-24/features/0505240239_1_improbable-phrases-books-word-pairs.
[3] Greg Linden, Brent Smith, and Jeremy York, “Amazon.com Recommendations: Item-to-Item Collaborative Filtering,” IEEE Internet Computing 7, no. 1 (2003): 76–80.
[4] Gordon Donnelly, “75 Super-Useful Facebook Statistics for 2018,” WordStream (blog), August 12, 2019, https://www.wordstream.com/blog/ws/2017/11/07/facebook-statistics.
[5] Axel Bruns, “Facebook Shuts the Gate after the Horse Has Bolted, and Hurts Real Research in the Process,” Medium, April 25, 2018, https://medium.com/@Snurb/facebook-research-data-18662cf2cacb.
[6] “2019 Conference on Digital Experimentation (CODE). About,” MIT Digital, accessed September 18, 2019, http://ide.mit.edu/events/2017-conference-digital-experimentation-code.
[7] Matt Asay, “Beyond Hadoop: The Streaming Future of Big Data,” InfoWorld (blog), March 23, 2015, http://www.infoworld.com/article/2900504/big-data/beyond-hadoop-streaming-future-of-big-data.html.
[8] Alexis C. Madrigal, “How Netflix Reverse-Engineered Hollywood,” Atlantic, January 2, 2014, http://www.theatlantic.com/technology/archive/2014/01/how-netflix-reverse-engineered-hollywood/282679/.
[9] Stuart Dredge, “How Does Facebook Decide What to Show in My News Feed?,” Guardian, June 30, 2014, https://www.theguardian.com/technology/2014/jun/30/facebook-news-feed-filters-emotion-study.
[10] Paul Sawers, “The Rise of OpenStreetMap: A Quest to Conquer Google’s Mapping Empire,” TNW (blog), February 28, 2014, http://thenextweb.com/insider/2014/02/28/openstreetmap/.
[11] David Segal, “The Dirty Little Secrets of Search,” New York Times, February 12, 2011, https://www.nytimes.com/2011/02/13/business/13search.html; Tom Vanderbilt, “The Science behind the Netflix Algorithms That Decide What You’ll Watch Next,” Wired, August 7, 2013, http://www.wired.com/2013/08/qq_netflix-algorithm/.
[12] George Ritzer and Nathan Jurgenson, “Production, Consumption, Prosumption: The Nature of Capitalism in the Age of the Digital ‘Prosumer,’” Journal of Consumer Culture 10 (1): 13–36. https://doi.org/10.1177/1469540509354673.
[13] Mark Sanderson and W. Bruce Croft, “The History of Information Retrieval Research,” Proceedings of the IEEE 100 (2012): 1444–1451, http://ciir-publications.cs.umass.edu/getpdf.php?id=1066.
[14] Quoted in Eugene Garfield, “A Tribute to Calvin N. Mooers, a Pioneer of Information Retrieval,” Scientist 11, no. 6 (March 17, 1997): 9, http://www.garfield.library.upenn.edu/commentaries/tsv11(06)p09y19970317.pdf.
[15] 本部分分析见Lev Manovich, Software Takes Command, rev. ed. (London: Blooms-bury Academic, 2013)。
[16] Josh Constine, “How Instagram’s Algorithm Works,” TechCrunch, June 1, 2018, https://techcrunch.com/2018/06/01/how-instagram-feed-works/.
[17] 例如,Celeste LeCompte, “Automation in the Newsroom,” Nieman Reports, September 1, 2015, http://niemanreports.org/articles/automation-in-the-newsroom/; Shelley Podolny, “If an Algorithm Wrote This, How Would You Even Know?,” New York Times, March 7, 2015, http://www.nytimes.com/2015/03/08/opinion/sunday/if-an-algorithm-wrote-this-how-would-you-even-know.html。
[18] 根据本文撰写时的默认设置,Facebook只会显示部分由算法自动选择的被称为“热门故事”的帖子。这个设置可以刊登进入News Feed标签,选择“最近”而不是“最热门的故事”来改变。另请参见Victor Luckerson, “Here’s How Facebook’s News Feed Actually Works,” Time, July 9, 2015, http://time.com/3950525/facebook-news-feed-algorithm。
[19] Lev Manovich, “The Algorithms of Our Lives,” Chronicle of Higher Education, December 16, 2013, http://chronicle.com/article/The-Algorithms-of-Our-Lives-/143557/.
[20] Lev Manovich, Software Takes Command, rev. ed. (London: Bloomsbury Academic, 2013).
[21] Mikael Huss, “Data Size Estimates,” Follow the Data (blog), June 24, 2014, https://followthedata.wordpress.com/2014/06/24/data-size-estimates/.
[22] Alex Woodie, “The Rise of Predictive Modeling Factories,” Datanami (blog), February 9, 2015, https://www.datanami.com/2015/02/09/rise-predictive-modeling-factories.
[23] Gregory D. Abowd et al., “Towards a Better Understanding of Context and Context-Awareness,”in Handheld and Ubiquitous Computing 1999, ed. H-W.Gellersen (Berlin and Heidelberg:Springer, 2001), ftp://ftp.cc.gatech.edu/pub/gvu/tr/1999/99-22.pdf.
[24] David Carr, “Giving Viewers What They Want,” New York Times, February 24, 2013, http://www.nytimes.com/2013/02/25/business/media/for-house-of-cards-using-big-data-to-guarantee-its-popularity.html.
[25] Phil Simon, “Big Data Lessons from Netflix,” Wired, March 2014, accessed February 28, 2020, https://www.wired.com/insights/2014/03/big-data-lessons-netflix/.
[26] “Extracting Image Metadata at Scale,” Netflix Tech Blog, March 21, 2016, https://netflixtechblog.com/extracting-image-metadata-at-scale-c89c60a2b9d2. .
[27] Alex M., “Finding Beautiful Yelp Photos Using Deep Learning,” Yelp Engineering (blog), November 29, 2016, https://engineeringblog.yelp.com/2016/11/finding-beautiful-yelp-photos-using-deep-learning.html.
[28] Association for Psychological Science, “Political Polarization on Twitter Depends on the Issue,” ScienceDaily, August 27, 2015, http://www.sciencedaily.com/releases/2015/08/150827083423.htm; Karen Kaplan, “Your Twitter Feed Says More about Your Political Views than You Think, Study Says,” Los Angeles Times, ” September 18, 2015, http://www.latimes.com/science/la-sci-sn-twitter-political-conservative-republicans-20150917-story.html.
[29] Miriam Redi, Damon Crockett, Lev Manovich, and Simon Osindero, “What Makes Photo Cultures Different?,” in Proceedings of the 24th ACM International Conference on Multimedia (New York: ACM, 2016), 287–291, http://manovich.net/index.php/projects/what-makes-photo-cultures-different.
[30] David Bordwell, Janet Staiger, Kristin Thompson, The Classical Hollywood Cinema: Film Style and Mode of Production to 1960 (New York: Columbia University Press, 1985).
[31] Max Horkheimer and Theodor W. Adorno, Dialectic of Enlightenment, trans. Edmund Jephcott (Stanford: Stanford University Press, 2002), 94.
[32] Anant Gupta and Kuldeep Singh, “Location Based Personalized Restaurant Recommendation System for Mobile Environments,” in Proceedings of the International Conference on Advances in Computing, Communications and Informatics (Mysore, India: Sri Jayachamarajendra College of Engineering, 2013), https://doi.org/10.1109/ICACCI.2013.6637223.
[33] Renjie Zhou, Samamon Khemmarat, and Lixin Gao, “The Impact of YouTube Recommendation System on Video Views,” in Proceedings of the 2010 ACM Internet Measurement Conference (New York: ACM, 2010), 404–410, http://conferences.sigcomm.org/imc/2010/papers/p404.pdf.
[34] Nadav Hochman and Lev Manovich, “Zooming into an Instagram City: Reading the Local through Social Media,” First Monday 18, no. 7 (July 1, 2013), http://firstmonday.org/ojs/index.php/fm/article/view/4711/3698.
[35] Joan Serrà, Álvaro Corral, Marián Boguñá, Martín Haro, and Josep Ll. Arcos, “Measuring the Evolution of Contemporary Western Popular Music,” Scientific Reports 2, no. 521 (2012), https://doi.org/10.1038/srep00521.
[36] Matthias Mauch, Robert M. MacCallum, Mark Levy, and Armand M. Leroi, “The Evolution of Popular Music: USA 1960–2010,” Royal Society Open Science, May 1, 2015, https://doi.org/10.1098/rsos.150081.