购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第一节
影视行业用户满意度评估的发展历史

影视行业的产品价值有多重性,包括文化价值、商业价值和社会价值等多个方面;其评估方式也具有特殊性,包括经济效应与社会效应的双重考量、行为指标与态度指标的双重体系。因为业内对以票房、收视率为主的行为指标研究比较多,本节重点介绍不同国家对用户态度测量的具体实践。

一 影视行业的产品品质评估

影视产品有不同于一般产品的特性:除具有经济价值的商品属性外,还具有文化价值的社会属性。因此,在进行影视产品质量评价时,存在不同面向的多重标准。目前就我国的影视产品评估而言,大致有三种评估模式:一是政府机构主导的节目评估模式,重视节目的宣传价值,主要指标是舆论导向;二是商业机构主导的节目评估模式,重视节目的经济价值,主要指标是收视率;三是研究机构主导的节目评估模式,重视节目的文化价值,主要指标是满意度。

影视产品评估的另一个突出表现是:在评估影视产品品质时,需要经过大众媒介传播环节,具有用户参与的“后评估”特点。这一方面是因为文化产品质量评价没有定量的客观标准,文化产品的事前评价极其困难;另一方面是因为文化产品在传播过程中,有的可以迅速做出评价,有的却需要隔一段时间才能做出评价。

对影视产品质量的测量评估一般有两种方法:一是测量受众的接触和使用行为,形成行为指标;二是评估受众对影视产品的满意程度,形成态度指标。行为指标评估确实有其可取之处,首先是它被广泛接受和使用,在全球范围有统一标准;其次是行为数据简单明确,能客观显示受众的实际视听行为,容易据此确定影视产品价格。但行为指标简单单维,更多地反映用户消费的数量和次数,很难反映用户对影视产品的态度和观点,并且因为具有商业利益,容易出现数据污染、造假等不良现象。

事实上很多高收视的电视节目或高票房的电影不一定受观众的喜爱,其观众口碑可能不高。有学者发现,35%的观众承认有时在收看电视节目时,知道该节目的质量不佳,有88%的人表示一个节目尽管少人收看,但其质量可以很好,都证明了“收看”并不代表“欣赏” [1] 。以收视率、票房等作为评估影视产品的标准还不够完整,业界采用不同的指标评定,发展出了“欣赏指数”和“吸引力指数”的概念。因此,目前态度指标越来越受到业内重视,形成态度指标与行为指标双轨并行的格局。

表1-1 影视产品质量评价的两大面向

二 用户满意度评估的发展历史

在影视行业,用户态度评估的历史可以追溯到一个世纪前对电影观众的量表测量。随着影视产品形态历经电影、广播、电视、网络的变化,用户态度的理念和测量方式不断演进,从最早的问卷量表到态度测量仪,再到基于人工智能技术的情感态度识别。但因为受传媒体制和受众群体影响,目前全球范围内还没有通用的态度指标,也没有形成一套被广泛认可的影视节目质量调查系统。

(一)萌芽期(1920—1950):态度量表与节目分析仪的使用

20世纪初期,电影的发展壮大引起社会各界的广泛关注,学者们开始研究电影的大众传播效果。1928年,在佩恩基金会的资助下,美国知名的心理学家、社会学家组成团队研究电影对社会个体的影响,研究历时三年,包括13个分项目,得出了许多有重要意义的学术成果。 这次研究对后来影视领域进行的用户态度研究有重要启示,尤其是量表调查方式的采用。心理学出身的瑟斯顿(Louis L.Thurstone)负责调查电影对青少年态度的影响,采用了“瑟斯顿态度量表”(Thurstone Attitude Scale),并开创了量表调查受众态度的重要模式。该量表由有关同一态度对象的若干题目组成,它们代表对有关事物的赞同与反对的不同程度,并有一定的量表值,按从赞成到反对的程度依顺序排列。最后运用对全部项目的反应结果(等级)求中位数,以中位数表示该受调查者的态度情况。

20世纪20年代后期,广播开始成为主导世界的大众传播媒介。1933年,社会学家保罗·拉扎斯菲尔德在奥地利广播机构的赞助下开展全国范围内的听众态度研究。1937年,拉扎斯菲尔德使用改进的节目分析仪(被称为“拉扎斯菲尔德-斯坦顿节目分析仪”)对广播节目进行测量,被调查者可以表达“喜欢”或者“不喜欢”两种态度。之后,该节目测量仪逐渐被应用到了对电视、电影和图片受众的测量之中。 [2]

在此之前,仪器测量法只存在于收视率领域,对受众态度调查的方法体系主要有问卷调查、焦点小组、深度访谈等,得到的是事后态度。拉扎斯菲尔德-斯坦顿节目分析仪的诞生意味着受众的心理指标也可以被及时收集。尽管节目分析仪的应用推广程度远比不上收视率,但态度指标作为广播电视领域的评判标准开始成为业界的共识。

(二)起步期(1951—2000):欣赏指数和吸引力指数的研究

自20世纪50年代起,电视业迅速开始了商业化进程,电视用户的态度测评开始成为用户态度研究的主要形式。与上一时期由学界主导测评不同,这一时期测评的主体主要是电视媒体机构。受国家电视体制的影响,公共电视台对受众的态度测评非常重视。

英国广播公司(BBC) 是世界上最早对用户态度开展测评活动的媒体。在20世纪40年代的战争期间,BBC开展研究受众规模和类型的每日调查。调查的重要内容是用日记卡来记录听众对广播节目的基本态度,称为“反映指数”,随后,反映指数这个测量指标被应用到了电视节目之中。60年代末,英国的独立电视管理局(ITA)成立了调查部门去评估节目的质量,称为“欣赏指数”(Appreciation Index,AI)。ITA调查欣赏指数的主要方法还是通过日记卡的发放,每周从样本户家庭里回收汇总。1972年,ITA改成为独立广播管理局(IBA),继续负责全英国广播电视的欣赏指数的测量。1993年之后,广播受众研究委员会(BARB)开始负责欣赏指数测评工作,改变了量表的分值和运算方法,采用10级划分,在统计结果的基础之上乘以10即为最终欣赏指数得分。

1957年,奥地利广播公司(ORF)内部成立了专门的受众调查部门,使用测量仪、电话调查、日记法和焦点小组等调查方法形成欣赏指数。截止到1996年,奥地利共设置了1200户测量仪样本户。在奥地利使用的两种测量仪的型号中,Telecontrol XL型号有测量欣赏指数的功能。这种测量仪的手柄设置了欣赏指数的按钮,观众可以在观看电视的同时对他们所观看到的内容进行欣赏指数0—6分范围内的评分。

1958年,HTI公司利用邮寄问卷进行电视指数调查,使用5分值的量表记录观众对电视节目做出的评价,并定时公布调查结果。20世纪60年代,美国传播研究处开展了一项名为“受众反馈调查”(Audience Reaction Survey)的项目,使用分值范围为5分的量表来对观众对节目的喜好程度进行测量,同时测量观众与节目的接触度,通过邮寄问卷进行调查,计算出PTVQ指数 ,即喜欢该节目的人数占接触人数的百分比,PTVQ值越高,表明该节目的受欢迎程度越高。

1978年,美国传播研究处新增了VOXBOX和TQR项目。VOXBOX是一种装在电视上的电子设备,控制器上除了频道按钮之外,还包括观众表达对所看到的节目的基本态度的9个按钮。通过这种方法来测量观众对节目的基本态度。这些方法也被称为“质化的收视率调查”,可以让研究者获得更多的观众意见。而TQR则是首先通过焦点小组访谈,对节目先进行质性的调查;然后从全美抽取数千人的样本,进行节目测试;最后通过因素分析归纳出14个因素,涵盖节目内容、影响、诉求、观众反应、观众与节目的关系等各个方面,再从这14个方面着手,调查观众对于节目的满意情况。

1987—1988年,中央电视台会同各省、自治区、直辖市电视台进行第一次城乡电视观众问卷调查,开启对全国观众的满意度调查。1996年6月,央视—索福瑞媒介研究有限公司(CSM)成立。1999年,中央电视台委托央视市场研究公司(CTR)进行全国观众满意度调查,并纳入节目评价体系,分为电视节目的满意度和电视频道的满意度,采用了10分制形式。之后的调查增加了一些通用指标,并将评分办法从10分制改为100分制。随着中央电视台率先将满意度指标纳入电视节目评价体系,各地方电视台也开始了一系列满意度测评实践活动。

(三)成长期(2000—2015):互联网测评与网站评分

2000年后,快速发展的互联网对影视行业带来巨大的影响:一方面,互联网的发展加剧了整个媒体行业的激烈竞争,媒体更加看重用户对影视节目的反馈,视频市场的快速发展使媒体之间从以票房和收视率为代表的行为指标的竞争进一步扩展到态度指标的较量;另一方面,互联网为用户对影视节目的态度表达提供了便利的手段和畅通的渠道,消除了传播者和用户联系的时空屏障,用户可以及时准确地将自己的态度表达出来,网上社区氛围也使用户表达的自主性和欲望大大增强,从而使影视态度测评步入成长期。

最初,使用互联网的调查主体主要是电视台,它们把互联网看作是扩大欣赏指数调查样本、丰富调查手段的一个重要途径。网络形式焦点小组讨论的优点显而易见,他们能在较短的时间内集聚不同地区大量的参与者,快速获取数据加以分析得出结论,这也比较符合对欣赏指数时效性要求越来越高的基本趋势。从2005年开始,英国电视台BBC就开始了一系列利用网络手段来对电视节目欣赏指数进行研究的活动,其中最典型的就是一个名为“Daily Pulse”的项目。这个调查项目最主要的目的是评估观众对他们每天看到的电视节目的基本态度,调查核心指标即为欣赏指数。

这个时期网络测评的主体依然是电视台,网络平台并未在其中发挥主导作用,而只是电视制定的综合测评项目中的一个数据补充。网络调查的样本量具有明显的局限性,参与调查的用户是调查前就选取好的,并没有充分利用互联网本身的开放性和互联网用户广泛性的优势。

随着互联网的进一步发展,技术赋权效应开始出现在了用户态度测评领域。赋权理论是由美国社会学家巴巴拉·所罗门提出,他将其定义为一种社会工作的专业活动,目的是协助受社会歧视的群体对抗不公平待遇,降低自身的无能和无权感,增加其权利和能力。 在影视节目态度测评领域,技术赋权主要体现在两方面:一方面,测评主体开始由专业的电视台和调查机构转向其他的互联网平台,商业网站逐渐成为用户态度测评的主体,商业网站对节目的评分无论是对观众、播放平台还是内容制作方都有着越来越大的影响力。另一方面,出于对评分平台公正性的信任,用户在观看节目之前往往会把这些分值作为是否观看的重要依据。

全球范围内影视节目评估领域有较高影响力和公信力的商业网站是IMDb。IMDb(Internet Movie Database)意为“互联网电影数据库”,收录了全球范围内的电影、电视剧、明星、综艺节目的相关信息并提供用户评分的功能模块,评分的主要依据是用户对节目的喜好程度。截至2021年6月,该数据库包含约800万个标题(包括电视剧集)和1040万人的记录,有 8300万注册用户。

在中国,目前影响最大、公信力最高的影视态度评价网站是豆瓣。与IMDb类似,豆瓣也是一个包括电影、电视剧、综艺、演员、导演等基本信息的数据库,提供关于书籍、电影、电视、音乐、游戏、舞台剧等作品的信息,无论描述还是评论都由用户提供。网站还提供书影音推荐、线下同城活动、小组话题交流等多种服务功能 。截至2019年第二季度,豆瓣注册用户为1.96亿,豆瓣电影月活用户在1亿左右 。豆瓣同样设立了供广大用户来打分的评分机制,其评分体系大致可以分为6个部分,即“总得分”“评价人数”“评分分布”“评分在同类型节目中大致位置”“看过的人数”“想看人数”。与IMDb的10分制不同,豆瓣电影设立的用户打分的分值范围为5分,而最后计算出的总分值范围为1—10分。

(四)成熟期(2015年至今):媒体融合与大数据、人工智能技术

2015年前后,大数据、人工智能技术兴起,给影视产品的生产与传播带来更新的方法,也为用户满意度测评进入成熟期提供了技术支持和现实基础。同时,媒体融合的深化也为用户满意度提供了丰富的内容和数据。

随着互联网进入web3.0时代,网络用户交流和表达观点的平台进一步多样化,微博、微信、弹幕、视频网站、短视频等平台的用户都可以进行深入的交流和互动。多种媒体融合发展的环境带来影视行业大数据的丰富,数据的数量级、多样性、互动速度、深度价值都提升到更高的水平。一个突出的影响是:原来多为影视产品的事后测评,现在与影视产品同步,并成为前期制作的依据,用户参与内容生产,使用户满意度的测评受到更大的重视。

被业内视为标杆的是奈飞公司(Netflix)电视剧《纸牌屋》的制作。Netflix从创立开始,就意识到数据的重要性。在它们的网站上,用户每天产生高达3000多万个行为数据,如收藏、推荐、回放、暂停等;Netflix的订阅用户每天还会给出400万个评分,300万次搜索请求,询问剧集播放时间和设备等。这些都被Netflix转化成代码,当作内容生产的元素记录下来。早些年,这些数据被Netflix用来进行精准推荐,随着数据挖掘技术的日渐成熟,Netflix开始将其用于倒推前台的影片生产。

在2013年,Netflix的工程师们发现,喜欢BBC剧、导演大卫·芬奇(David Fincher)和老戏骨凯文·史派西(Kevin Spacey)的用户存在交集,一部影片如果同时满足这几个要素,就可能大卖。Netflix决定赌一把,它们花1亿美元(几乎是美国一般电视剧价钱的两倍)买下了1990年就播出的BBC电视剧《纸牌屋》的版权,并请来大卫·芬奇担任导演,凯文·史派西担当男主角。事实证明,它们赌对了——《纸牌屋》不仅是Netflix网站上有史以来观看量最高的剧集,也在美国及四十多个国家大热。《纸牌屋》开启了大数据对于影视产业的全面渗透。

人工智能技术的进步,使用户满意度的测量方法也有很大的提升。以前无论采用调查问卷、分析仪还是用户人工打分,往往带来很大的主观随机性。在用户反馈数据中,有大量的文本、图片和视频内容,人工智能技术可大幅提升对这些数据内容的自动识别和分析。目前语音识别和图像识别已经进入成熟期,在自然语言处理领域,语义分析尤其是文本情感识别进入实用阶段。早期做出研究贡献的有 Turney和 Pang,他们运用了多种方法探测商品评论和电影影评的两极观点;之后Pang和 Snyder延伸了早先的基础两极意见研究,将电影影评分类并预测为3星至4星的多重级别 。基于神经网络的语义组合算法被验证是一种非常有效的特征学习手段,2013年,Richard Socher和Christopher Potts等人提出多个基于树结构的Recursive Neural Network,在斯坦福情感分析树库(Stanford Sentiment Treebank)上验证了该方法的有效性 。2015年,Kai Sheng Tai,Richard Socher和Christopher D. Manning在序列化的LSTM (Long Short-Term Memory)模型的基础上加入了句法结构的因素,该方法在句法分析的结果上进行语义组合,在句子级情感分类和文本蕴含任务(text entailment)上都取得了很好的效果 。2016年,Qiao Qian,Xiaoyan Zhu等人在LSTM和Bi-LSTM模型的基础上加入四种规则约束,利用语言资源和神经网络相结合来提升情感分类问题的精度

目前,在情感分析学习算法上,深度学习的崛起,为情感分析中的许多任务提供了良好的工具,并在一些任务上初现端倪。在情感研究对象上,随着应用领域的不断扩展,情感对象从之前的对产品、服务等的褒贬倾向性评论到对社交媒体中的用户、话题情绪分类,表现形式更加多样,情感种类更加繁多,随着情感分析研究不断扩展和深入,会发挥更多的作用。

随着谷歌、百度、腾讯等巨头公司通用情感分析技术的提升,情感态度分析在影视产品的用户态度自动分析上也初步进入商用。比如在专业影视数据服务商北京艺恩世纪数据科技股份有限公司(以下简称“艺恩”)提供的数据中,已经加入对影视产品的用户态度分析。团队经过与专业公司的合作开发,基于影视褒贬词库和机器学习算法,能够对各种用户评价的文本进行自动褒贬分析。2020年12月在与艺恩对弹幕文本情感分析的内部对比测试中,抽取1433条弹幕,系统自动打分后进行人工检验,最终达到84.2%的准确率(见图1-1)。

图1-1 团队与艺恩公司的文本情感分析准确率对比

综合影视产品用户态度测量近百年的发展,汇总整理相关发展阶段对比表如表1-2所示:

表1-2 影视产品用户态度测量发展阶段 Q0uKs1bHHahe46QXrecWkSF7PDB154nf+reDSZov2An5vgscEct9/nO5bUEtYbZG

点击中间区域
呼出菜单
上一章
目录
下一章
×

打开