购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第三节
研究对象与数据采集方法

因为2020年新冠肺炎疫情的影响,本次研究的时段从2020年1月1日到2021年6月30日(以下简称监测时段),有一年半的时间跨度。研究对象包括四大类、七个小类,数据主要来源于两个方面:行为数据主要来自艺恩数据,而态度数据主要来自团队自有系统的采集和分析计算。

一 研究对象

本次研究以影视产品和人物为研究对象,具体包括四大类和七个子类,共2094个。集中在以下两个方面:一是影视产品,包括院线电影、网络电影、电视剧、网络剧、电视综艺和网络综艺;二是以演艺明星和部分网红为主体的明星艺人。

一是电影类,包括院线电影和网络电影。院线电影是自监测时段内在各大院线新上映的电影,根据艺恩提供的播映指数进行筛选,保留335部;网络电影是监测时段内在各平台播出的新制作的网络电影,根据累计播放量进行筛选,保留501部。电影类影视产品共计836部。

二是剧集类,包括电视剧和网络剧。电视剧是监测时段内各大电视台和上星频道新播出的电视剧,有167部;网络剧是在监测时段各网络平台新播出的网络剧集,有522部。剧集类影视产品共计689部。

三是综艺类,包括电视综艺和网络综艺。电视综艺是监测时段内各大电视台和上星频道新播出的综艺节目,有241部;网络综艺是在监测时段各网络平台新播出的综艺节目,有178部。综艺类影视产品共计419部。

四是明星类,包括明星艺人和网络红人。监测名单数量为150人,绝大部分为影视类明星和艺人,同时也包含一部分流量级网红。

表1-8 研究对象种类与数量

二 数据来源与采集分析方法

本次研究的数据主要来源于两个方面:网络舆情内容、播放量等行为数据主要来自艺恩数据,而态度数据主要来自团队自有系统的补充采集和褒贬计算。

(一)艺恩数据

艺恩是国内领先的文娱大数据服务商,通过数据抓取、数据处理、数据挖掘形成数据产品。本次研究采集了艺恩数据从2020年1月1日到2021年6月30日的影视产品数据,以研究对象为关键词,抓取了以下数据类型:

1.媒体新闻:主要是传统主流媒体在互联网上平台传播的新闻内容;

2.微博:收集新浪微博的内容,不是全部数据,可视为随机数据,用以代表总体;

3.微信:微信公众号上的信息;

4.豆瓣:包括豆瓣评分和豆瓣评论两部分;

5.贴吧:收集百度贴吧的相关内容。

除此之外,艺恩数据还提供了影视产品的网络播放量(形成了播映指数)、收视率(电视类节目)、票房(电影产品)等数据,为“AS影视产品评估指标体系”的细分指标提供了测量依据。

(二)浙江传媒学院视频监测与分析系统

“浙江传媒学院视频监测与分析系统”(以下简称“系统”)是对影视节目和明星进行用户态度测评的系统。系统始建于2012年,自2016年6月开始监测上星频道黄金时间(19∶30—22∶30)播出的电视剧和综艺节目;2017年1月开始监测100位娱乐明星;2017年5月开始监测主要院线上映的电影和6家主流视频网站的网络综艺;2018年8月开始监测5家主流视频网站的网剧;2019年3月开始监测爱奇艺、腾讯视频、优酷视频等3家视频网站的网络电影,2021年1月开始监测150位娱乐明星和网红。

系统由热点趋势、褒贬分析、数据导出、监测对象信息、后台管理、月度汇总、在线褒贬打分七个功能模块组成,核心功能包括:

1.自动数据采集:自动收集与监测对象相关的新闻、论坛、微博、弹幕、微信公众号、视频网站评价、豆瓣电影网站评论等信息,形成大数据。在此次研究中,系统对艺恩数据没有提供完整的新闻和微信公众号内容进行了抓取,补全了数据内容。

2.褒贬值计算:利用语义分析技术,计算出每一条新闻、论坛、微博、弹幕、微信公众号、视频网站评价的褒贬值,褒贬值设定在-5到+5之间。各数据来源的褒贬值分析是态度指标的重要基础,目前系统采取知识库和规则库为主的褒贬分析算法,建立影视领域的专业词库并及时更新,截至2021年10月,褒贬词库共有词语22381个。词语的词性分为褒贬词和程度词,均有正负之分,精确到小数点后1位。团队计划下一步引入机器学习的算法,提升褒贬分析的精准度。

3.数据输出:根据收集和计算的数据,系统生成结果。目前支持三类输出结果:一是原始数据,二是统计图表,三是汇总数据,供进一步分析使用。

三 数据处理原则

(一)平权原则:

一条新闻、微信、微博、贴吧、豆瓣评论等均代表个人的观点或态度,其权重没有差异,因此褒贬值计算简单算术平均值。

(二)加权计算公式:

新闻褒贬值=新闻褒贬值之和/新闻条数

微博褒贬值=微博褒贬值之和/微博条数

微信褒贬值=微信褒贬值之和/微信条数

贴吧褒贬值=贴吧褒贬值之和/贴吧条数

豆瓣评论褒贬值=豆瓣评论褒贬值之和/豆瓣条数

综合褒贬值=(新闻褒贬值×新闻条数+微博褒贬值×微博条数+微信褒贬值×微信条数+贴吧褒贬值×贴吧条数+豆瓣评论褒贬值×评论条数)/(新闻条数+微博条数+微信条数+贴吧条数+豆瓣条数)

由于弹幕数据的来源不全,目前主要出现在剧集类影视产品中,因此本次研究没有统计在内,关注度条数和满意度褒贬值均未包含弹幕。

[1] J.M.Wober,“Television in the House of Commons Education for Democracy?”, Parliamentary Affairs ,Vol.43,Issue 1,January 1990,pp.15-26.

[2] Mark R.Levy,“The Lazarsfeld-Stanton Program Analyzer:An Historical Note”, Journal of Communication ,Vol.32,Issue 4,December 1982,pp.30-38.

[3] Palmgreen,P.,Wenner,L.A.and Rosengren,K.R.,“Uses and Gratification Research:The Past Ten Years”,in Rosengren,K.E.,Wenner,L.A.& Palmgreen,P.(Eds.), Media Gratifications Research Current Perspectives ,Newbury Park,CA:Sage,1985,pp.11-37.

[4] Wober,J.M.,Gunter,B.,“Television audience research at Britain's Independent Broadcasting Authority,1974—1984”, Journal of Broadcasting and Electronic Media ,Vol.30,1986,pp.15-31.

[5] Barwise,P.& Ehrenberg,A., Television and its audience ,London:SAGE Publications Ltd.,1988。转引自陈华峰、孟庆茂《电视节目质量研究述评》,《心理科学进展》2003年第5期。

[6] Beville,H.M., Audience rating Radio television and cable 。转引自转引自陈华峰、孟庆茂《电视节目质量研究述评》,《心理科学进展》2003年第5期。 NcDgDUWCWVVbvo3vF+Esx+2iMHWMFXNIptfFwMXG9Egsp78daKu3AYAtgnYJTxi0

点击中间区域
呼出菜单
上一章
目录
下一章
×