中国影视产品网络满意度研究（2021）最新章节_张克旭著

第三节
研究对象与数据采集方法

因为2020年新冠肺炎疫情的影响，本次研究的时段从2020年1月1日到2021年6月30日（以下简称监测时段），有一年半的时间跨度。研究对象包括四大类、七个小类，数据主要来源于两个方面：行为数据主要来自艺恩数据，而态度数据主要来自团队自有系统的采集和分析计算。

一研究对象

本次研究以影视产品和人物为研究对象，具体包括四大类和七个子类，共2094个。集中在以下两个方面：一是影视产品，包括院线电影、网络电影、电视剧、网络剧、电视综艺和网络综艺；二是以演艺明星和部分网红为主体的明星艺人。

一是电影类，包括院线电影和网络电影。院线电影是自监测时段内在各大院线新上映的电影，根据艺恩提供的播映指数进行筛选，保留335部；网络电影是监测时段内在各平台播出的新制作的网络电影，根据累计播放量进行筛选，保留501部。电影类影视产品共计836部。

二是剧集类，包括电视剧和网络剧。电视剧是监测时段内各大电视台和上星频道新播出的电视剧，有167部；网络剧是在监测时段各网络平台新播出的网络剧集，有522部。剧集类影视产品共计689部。

三是综艺类，包括电视综艺和网络综艺。电视综艺是监测时段内各大电视台和上星频道新播出的综艺节目，有241部；网络综艺是在监测时段各网络平台新播出的综艺节目，有178部。综艺类影视产品共计419部。

四是明星类，包括明星艺人和网络红人。监测名单数量为150人，绝大部分为影视类明星和艺人，同时也包含一部分流量级网红。

表1-8 研究对象种类与数量

二数据来源与采集分析方法

本次研究的数据主要来源于两个方面：网络舆情内容、播放量等行为数据主要来自艺恩数据，而态度数据主要来自团队自有系统的补充采集和褒贬计算。

（一）艺恩数据

艺恩是国内领先的文娱大数据服务商，通过数据抓取、数据处理、数据挖掘形成数据产品。本次研究采集了艺恩数据从2020年1月1日到2021年6月30日的影视产品数据，以研究对象为关键词，抓取了以下数据类型：

1.媒体新闻：主要是传统主流媒体在互联网上平台传播的新闻内容；

2.微博：收集新浪微博的内容，不是全部数据，可视为随机数据，用以代表总体；

3.微信：微信公众号上的信息；

4.豆瓣：包括豆瓣评分和豆瓣评论两部分；

5.贴吧：收集百度贴吧的相关内容。

除此之外，艺恩数据还提供了影视产品的网络播放量（形成了播映指数）、收视率（电视类节目）、票房（电影产品）等数据，为“AS影视产品评估指标体系”的细分指标提供了测量依据。

（二）浙江传媒学院视频监测与分析系统

“浙江传媒学院视频监测与分析系统”（以下简称“系统”）是对影视节目和明星进行用户态度测评的系统。系统始建于2012年，自2016年6月开始监测上星频道黄金时间（19∶30—22∶30）播出的电视剧和综艺节目；2017年1月开始监测100位娱乐明星；2017年5月开始监测主要院线上映的电影和6家主流视频网站的网络综艺；2018年8月开始监测5家主流视频网站的网剧；2019年3月开始监测爱奇艺、腾讯视频、优酷视频等3家视频网站的网络电影，2021年1月开始监测150位娱乐明星和网红。

系统由热点趋势、褒贬分析、数据导出、监测对象信息、后台管理、月度汇总、在线褒贬打分七个功能模块组成，核心功能包括：

1.自动数据采集：自动收集与监测对象相关的新闻、论坛、微博、弹幕、微信公众号、视频网站评价、豆瓣电影网站评论等信息，形成大数据。在此次研究中，系统对艺恩数据没有提供完整的新闻和微信公众号内容进行了抓取，补全了数据内容。

2.褒贬值计算：利用语义分析技术，计算出每一条新闻、论坛、微博、弹幕、微信公众号、视频网站评价的褒贬值，褒贬值设定在-5到+5之间。各数据来源的褒贬值分析是态度指标的重要基础，目前系统采取知识库和规则库为主的褒贬分析算法，建立影视领域的专业词库并及时更新，截至2021年10月，褒贬词库共有词语22381个。词语的词性分为褒贬词和程度词，均有正负之分，精确到小数点后1位。团队计划下一步引入机器学习的算法，提升褒贬分析的精准度。

3.数据输出：根据收集和计算的数据，系统生成结果。目前支持三类输出结果：一是原始数据，二是统计图表，三是汇总数据，供进一步分析使用。

三数据处理原则

（一）平权原则：

一条新闻、微信、微博、贴吧、豆瓣评论等均代表个人的观点或态度，其权重没有差异，因此褒贬值计算简单算术平均值。

（二）加权计算公式：

新闻褒贬值=新闻褒贬值之和/新闻条数

微博褒贬值=微博褒贬值之和/微博条数

微信褒贬值=微信褒贬值之和/微信条数

贴吧褒贬值=贴吧褒贬值之和/贴吧条数

豆瓣评论褒贬值=豆瓣评论褒贬值之和/豆瓣条数

综合褒贬值=（新闻褒贬值×新闻条数+微博褒贬值×微博条数+微信褒贬值×微信条数+贴吧褒贬值×贴吧条数+豆瓣评论褒贬值×评论条数）/（新闻条数+微博条数+微信条数+贴吧条数+豆瓣条数）

由于弹幕数据的来源不全，目前主要出现在剧集类影视产品中，因此本次研究没有统计在内，关注度条数和满意度褒贬值均未包含弹幕。

[1] J.M.Wober，“Television in the House of Commons Education for Democracy？”， Parliamentary Affairs ，Vol.43，Issue 1，January 1990，pp.15-26.

[2] Mark R.Levy，“The Lazarsfeld-Stanton Program Analyzer：An Historical Note”， Journal of Communication ，Vol.32，Issue 4，December 1982，pp.30-38.

[3] Palmgreen，P.，Wenner，L.A.and Rosengren，K.R.，“Uses and Gratification Research：The Past Ten Years”，in Rosengren，K.E.，Wenner，L.A.& Palmgreen，P.（Eds.）， Media Gratifications Research ： Current Perspectives ，Newbury Park，CA：Sage，1985，pp.11-37.

[4] Wober，J.M.，Gunter，B.，“Television audience research at Britain's Independent Broadcasting Authority，1974—1984”， Journal of Broadcasting and Electronic Media ，Vol.30，1986，pp.15-31.

[5] Barwise，P.& Ehrenberg，A.， Television and its audience ，London：SAGE Publications Ltd.，1988。转引自陈华峰、孟庆茂《电视节目质量研究述评》，《心理科学进展》2003年第5期。

[6] Beville，H.M.， Audience rating ： Radio ， television ， and cable 。转引自转引自陈华峰、孟庆茂《电视节目质量研究述评》，《心理科学进展》2003年第5期。

第三节 研究对象与数据采集方法

一 研究对象

二 数据来源与采集分析方法