购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第一节
大数据与网络文学的内在关联

近年来,随着大数据意识和应用能力的飞快进步,数据体系和开发工具也日趋成熟,互联网企业开始在各个领域尝试对其掌握的既有海量数据进行开发利用。以互联网为传播媒介的网络文学,在20年的发展历程中,其产生的文本浩如烟海,积累的用户资料不计其数,悄无声息地实现了数据的原始积累。在今天这样一个大规模生产、分享和应用数据的时代,在大数据技术的参与之下,网络文学领域也焕发出新的生机,呈现出新的发展特质。“网络文学+大数据”的运转模式就是基于大数据工作机制与网络文学媒介特性的有机结合,二者之间存在紧密的内在关联。

一 大数据理论概述

大数据技术为产业发展提供了更多可能,随着大数据技术在多个领域的广泛应用,其理论内涵、标志特征及运作机制日益明确。

(一)大数据的含义

当今时代,互联网与大数据技术已经密不可分,大数据这个以数据为本质的新一代革命性信息技术方兴未艾,成为一个随时随地可见的高频词,但是关于什么是大数据却有着不同的说法。郎为民在《漫话大数据》中指出:大数据是指使用约定俗成的关键字,对客观事物的数量、质量、位置及其内在的相互关系进行抽象表示,从而适合在这个领域中用人工或自然方式进行保存的技术。 国务院2015年发布的《促进大数据发展行动纲要》中则对大数据赋予更为清晰的定义:大数据指以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合。 综合来看,大数据就是指无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。

大数据之所以被称为大数据,一个重要的前提就是其内涵中所强调的数据的巨量。大数据时代数据存储单位已经从b、B、KB、MB、GB逐步发展到PB、EB、ZB、YB,传统的数据记录方式——纸笔和Excel电子表格早已远远不能适应或满足当下大数据的要求。但是海量化并不意味着数据量的重要程度超越数据本身的质量水平以及精确度。《大数据时代》一书的作者维克托·迈尔-舍恩伯格说大数据有三大特点:更多、更乱,但内部有关系可循。凭借技术的革新,我们有机会也有能力拥有海量化数据,在拥有如此多的数据之后,要面临的就是数据的质量问题。为了避免数据之间混乱不堪的情况,就需要通过云计算分析其内部之间的相关性。以图书的消费行为为例,一个人的阅读行为会受到周边环境的影响,从而产生很多的连锁式反应,一本书不单纯只是一个独立的知识载体,它可能暗含一个阅读链条或知识链条。当一位读者购买了王小波的《我的精神家园》,偱着书中王小波对玛格丽特·杜拉斯、普希金等人的作品的介绍,对何为语言之美的独到见解,可以为其链接杜拉斯、普希金等作者的作品,以及语言审美相关的书籍。这种深入文本内容的细微的联系是传统数据收集方法无法采集到的,这正是大数据的优势所在。

(二)大数据的特征

互联网的快速发展,社交媒体的广泛流行,使生活在21世纪的我们处于一个被几何级爆炸的数据包围的时代。2008年我国网民规模2.98亿,手机网民规模约1.17亿人 ,2018年我国网民规模达8.29亿,其中手机网民规模达8.17亿 ,而这10年间因飞跃式增长的网民人数所带来的数据体量则更加庞大。现代信息技术与互联网技术使得网民每天在网络世界的任意操作都可以在网络中形成数据记录,如视频网站观看记录、门户网站搜索阅读记录、音乐APP听歌记录、购物网站消费记录、社交论坛的发帖与讨论记录……这些信息共同构成大数据的基础。当然,这一媒介环境变化与数据存储和处理成本的降低也有很大关系。

大数据具有数据体量巨大、增长速度快、来源广泛、特征多样,数据类型、模式结构复杂、价值密度低的特征。近几年,大数据领域的专家将大数据的特征总结为4个V(即Volume、Variety、Value、Velocity)。Volume意为数据体量巨大。Variety说明数据类型繁多。Value则用来形容数据价值密度低,因为数据收集面临的一个重大问题就是“多”并不意味着“好”,过度沉溺于信息海洋中面临的是溺毙的危险。价值密度的高低与数据总量的大小成反比,因此大数据技术要注重对海量数据的价值进行“提纯”处理。Velocity代表处理速度快,这也是大数据区分于传统数据的最显著特征。面对海量的、分散的、不规则的数据,快速做出分类和分析才使得这些数据有价值,也正是因为大数据的处理速度够快才没有像过去那样造成数据的浪费。

(三)大数据的工作机制

大数据时代的技术追求在于更好地完成数据挖掘和数据应用工作,而数据的挖掘与应用则要在具体的工作流程中针对性解决。简单看来,大数据的工作流程如图1-1所示。

图1-1 大数据工作流程

根据这个大数据工作流程可以发现,在不同的阶段数据服务商要围绕不同的核心展开工作。

在数据采集阶段,主要以采集用户的互联网使用记录为主。数据服务商正逐渐摆脱传统的数据分析方式,充满野心地将目标转向数量庞大且不规则的非结构性数据。数据的来源可能是社交网络上的只言片语,也可能是购物网站的一次消费记录,这些数据看似相互独立、无序、混乱,却是构成大数据的基础元素。

在数据存储阶段,以云计算为基础的信息存储技术发挥出强大的优势,高效地将这些大量、高速、多变的终端数据存储下来,为接下来随时进行的数据分析与计算做好准备。

数据分析阶段是大数据技术的核心工作,主要是通过大数据挖掘、梳理、分析,得出具有指导意义的结论。大数据挖掘是指有组织有目的地收集数据,通过分析数据使之成为信息,从而在大量数据中寻找潜在的规律以形成规则或者知识的技术 。它是大数据的一项关键技术,也是大数据价值变现的重要法宝。

数据运用阶段是大数据价值变现的阶段,将在数据收集、存储、分析的基础之上所得到的分析结果用以指导具体的实践工作,并在具体运用中实现价值转换。

二 网络文学概述

作为数字时代的文学创作新业态,网络文学经历了快速发展并渐成规模。

(一)网络文学的概念界定

1994年互联网在中国落户生根,随后,依托互联网这种全新载体的网络文学横空出世。欧阳友权作为我国网络文学研究的先行者,在其著作《网络文学本体论》中指出:“网络文学是以计算机及其互联网为媒介载体而存在和传播的文学。” 从这一界定可以看出,网络文学是一种随着数字化技术的产生与发展而产生的全新的文学形态。从技术层面来看,网络文学具有区别于其他文学类型的技术载体,它是以互联网为平台,以数字化传输为基础;从文学层面来看,传播载体的改变不足以改变“文学”的核心内涵,网络文学依然需要具有文学性,需要有基本的是非评判,有普泛的道德意识和人文情怀。广义上,网络文学包括网络上登载传播的各种文学性作品,包括专业网络文学网站上的各类网络文学作品,也包括博客、论坛等社交平台上发表传播的各类具有文学性的新闻、随笔等作品。狭义上,网络文学仅仅是指以专业性网络文学网站为传播媒介的、以超文本链接为表现方式的网络原创作品。

(二)我国网络文学的发展历程

1998年,台湾青年蔡智恒(笔名:痞子蔡)的《第一次的亲密接触》让网络文学第一次走入大众的视线,也让主人公“轻舞飞扬”的名字风靡整个网络。经过20年的发展,网络文学也不断呈现出新的发展风貌。在这个过程中,像《琅琊榜》《将夜》《繁花》《遍地狼烟》之类的爆款不断涌现,甚至成为网络文学的经典之作。现在,网络文学已拥有约1400万名驻站作者、超1600万种作品、近4亿读者, 成为一股不可小觑的文化力量。回顾网络文学20年的发展历程,可以根据发展的具体状况将其分为三个阶段。

1.起始阶段(1998—2003年)

1998年《第一次亲密接触》通过BBS面世,网络文学迈出了成长的第一步。除此之外,文学网站的鼻祖“榕树下”也在这一年诞生。1998年元旦前夕,热爱文学的美籍华人朱威廉创建了一个叫榕树下的个人主页,旨在向更多人分享自己的文学作品。后来这个综合传播文学、文化评论、原创文学等多种内容的网站先后吸引了包括安妮宝贝、李寻欢、宁财神、韩寒、蔡骏、今何在、慕容雪村、步非烟等在内的一大批网络文学大咖的加入。这一时期网络文学刚刚走入大众的视野,无论是作者数量还是作品数量都无法与20年后的今天相提并论,虽然以现在的眼光回看,这批网络文学作家和他们的作品都堪称经典,但在当时无论是作品的影响力还是公众认可度都远远不及传统文学。即使是当年被称为“中国网络文学三驾马车”的宁财神、邢育森和李寻欢,也只敢说自己的作品只是在网络上有人气。这一时期网络文学发展的特点还包括:PC个人电脑是用户阅读和传播网络文学的主要载体;缺乏成熟的商业模式,网络文学作品大都属于免费分享,付费率极低;野蛮生长,缺乏系统管理,作为一个新兴事物,没有与之适配的相关法律进行规范,“盗打”“盗贴”等盗版行为非常普遍。

2.大发展阶段(2003—2013年)

区别于网络文学草创时期榕树下一枝独秀的状态,这一阶段是文学网站百花齐放的时代,起点中文网、红袖添香网、晋江文学城等一批专业性文学网站相继诞生,网络文学逐渐走上市场化、产业化的道路。2003年10月,起点中文网探索出一条适合网络文学网站的商业模式——VIP阅读,即用户通过与网站签订 VIP 订阅协议,缴纳一定会费,成为VIP会员,从而通过付费订阅的方式阅读VIP章节。用户缴纳的相关费用成为网站的收入来源,这笔钱按照一定比例网站与作者进行分账。这种沿用至今的盈利模式开启了网络文学的商业化时代,也拉开了网络文学作品正版与盗版长达十几年的拉锯战。网络文学逐渐显露出来的巨大经济利益催生了一大批盗版网站,盗版逐渐变得专门化、集团化。从免费到付费的经营转变也促使一大批网民选择看盗版、传盗版,甚至自发盗版。基于这样的现实情形,我国有关部门采取了一系列针对性措施,如始于2005年的“剑网行动”以及其他相继颁发的政策和法规,都在打击盗版的路上发挥作用。

这是网络文学遍地开花的黄金时代,匪我思存、桐华、顾漫、流潋紫、萧鼎、天下霸唱、南派三叔等网络文学作家经典频出,产出了“鬼吹灯系列”、“盗墓笔记系列”、《步步惊心》、《后宫甄嬛传》等优秀的网络文学作品。这也是网络文学IP化开始的时代,《佳期如梦》《来不及说我爱你》《步步惊心》《甄嬛传》等网络文学影视化作品大获成功,开拓了网络文学价值变现的新途径。

3.精品化阶段(2014年至今)

从互联网到移动互联网,从拨号上网到4G网络普及,网络文学的阅读设备也实现了更新迭代,智能手机、平板电脑等移动设备出现并代替电脑成为用户阅读的第一选择,网络文学也因此获得新的发展契机,越发繁荣。网络文学企业进入了大规模集团化运营的时代,2015年网络文学领域三巨头——阅文集团、百度文学集团、阿里文学集团相继问世,加上掌阅科技和中文在线共同构成了我国网络文学的行业格局。同时大IP方兴未艾,直到2019年,网络文学依然是出版、影视、游戏、动漫和有声读物等行业的最大IP贡献者。《天盛长歌》《悲伤逆流成河》《大江大河》《知否知否,应是绿肥红瘦》等由网络文学改编的影视作品,在人们的文娱消费中扮演着重要角色。专业化运营与不断扩大的市场影响力共同加速了网络文学的优胜劣汰,精品网络文学作品在IP开发的市场上收获满满,给网络文学的创作引领了一个新的方向——精品化。2018年第二届“茅盾文学新人奖”首次增设“网络文学新人奖”,这一改进是对网络文学的一种肯定,也说明网络文学已经进入一个重要的窗口转型期和内容提质期。加之受众范围广、传播结构优化成为网络文学发展的现实趋势,推进网络文学主流化和精品化成为当下网络文学发展的必然。

(三)我国网络文学的发展现状

整体来看,我国网络文学产业在作者生产、用户使用、题材选择、域外传播以及市场运营方面取得长足进步。

1.作者群体年轻化

从网络文学创作主体来看,“90后”、“95后”新锐作家渐渐成为主力。以我国网络文学龙头企业阅文集团为例,2018年新增作家中,“90后”作家占比超过了七成,“95后”作家占比也接近五成 。作者群体的年轻化更有利于与年轻读者群体在年龄层和价值观上实现契合,写作内容也能更好地与时俱进,从而增加用户黏性。

2.用户年轻化成为网络文学发展重要趋势

第45次《中国互联网络发展状况统计报告》显示,截至2020年3月,我国网络文学的用户规模达到4.5538亿, 占网民总量(9.04亿)50%以上,数字原生代(“95后”、“00后”)逐渐成为网络文学的主要消费者。阅文集团发布的《2018网络文学发展报告》显示,“95后”网络文学用户规模同比提升接近20%,其中付费用户规模同比提升近15%。 作为互联网原生代,这一年龄段群体从小就接触网络,在消费观念、表达方式方面与网络文学提倡的价值观念非常契合。同时乐于表达、积极互动的特质也使得这批用户更加活跃和长情,具体表现为积极评论并乐于为自己的阅读爱好买单。

3.现实主义题材崛起

随着网络文学的不断发展,读者不再单一追求“爽”的阅读体验,而是更加注重网络文学内涵。网络文学的重心也逐渐从主打穿越、宅斗、修仙等题材转变为现实主义题材。当代网络文学越来越多地重视故事表达,有生活细节、接地气、有温度、正能量的作品更能引发读者共鸣,得到市场的认可。2019年2月25日,国家新闻出版署和中国作协联合发布“2018年优秀网络文学原创作品”推介名单,《写给鼹鼠先生的情书》《运河码头》《零点》等24部作品入选,从该推介名单中也可以看出当下网络文学创作题材的现实主义趋向。

4.网络文学域外传播影响力扩大

近年来,我国网络文学在国际上的知名度和影响力逐步扩大。凭借海外网络文学翻译站、国内外文数字阅读平台和实体图书这“三驾马车”的共同努力,我国的网络文学作品在海外圈粉无数。2017年5月,阅文集团旗下起点国际版正式上线,推出以英文为主,包括泰语、韩语、日语等在内的多语种阅读服务,为中国网络文学出海贡献了巨大的力量。值得一提的是,随着网络文学出海,一大拨海外网络文学作者也不断涌现。根据阅文集团旗下海外门户起点国际(Webnovel)的数据,截至2019年,从事网络文学创作的海外作者已经超过12000人,在线发表的原创英文作品共计19000余部。

5.IP开发如火如荼

从2018年到2019年,网络文学IP依旧是影视剧、游戏等领域的主导者,《扶摇》《香蜜沉沉烬如霜》《如懿传》《天盛长歌》等剧都是由大热网络文学作品改编。依托原著的“书粉”,IP剧在筹拍之初就拥有其他影视剧无可比拟的关注度,而影视剧开播之后又会吸引一批“剧粉”反哺于原著。正是这种书与剧之间的双向良性互动保持了IP开发的热度。

三 大数据与网络文学的关系

大数据技术的发展为多个产业发展创新提供了可能,而网络文学的数字原生特征也使得该产业发展能够与大数据技术产生共鸣。

(一)网络文学提供天然数据积累

互联网无疑是人类文明史上一个具有里程碑意义的科技发明。网络技术在20世纪90年代进入中国,经过短短20多年的发展,实现了从与传统媒体的激烈竞争到多种媒体相互融合的转变,成为21世纪最广泛、最成功的技术进步的标志。技术的快速发展,使人与人之间“互联”的机会越来越珍贵,深刻地影响了我们的公共生活。随着各项技术的进步和互联网的普及化,人类社会进入了数字化时代。所谓数字化时代也叫比特时代,是指以数字为基本构成要素而构建的社会结构的时代。在这样一个“比特之城”,数字化表达成为流行,当一个又一个的数据痕迹经过汇流与整合,具有参考价值的大数据也就应运而生。技术的革新也带动了网络文学领域的剧烈动荡,平台化传播方式、数字化传播内容、互动式受众等特点决定了网络文学与数据的亲密关系。从文学的生产到传播数据的参与让一切变得不可思议。

首先,以互联网、移动互联网为载体的网络文学在生产、传播的各个阶段都产生了大量数据。以当下的文学网站晋江文学城的一个用户为例,在晋江文学城注册ID成为该网站用户之后,可以通过绑定邮箱和手机实现与用户个人社交体系的互动。这个绑定行为不仅是在不同软件之间建立联系,更是实施用户个人数据网络的跨平台串联。在书城内搜索要找的书、点击感兴趣的网络文学链接、收藏自己喜欢的书;在个人书架阅读、购买VIP章节、分享、评论、投票;在论坛区与网友交流感想、疑问甚至与本站无关的文学感悟、给管理人员提意见和建议等。这些是一个用户在晋江文学城的所有行为的集合,也构成了该用户在网站上的使用数据。当所有用户的网站使用数据通过互联网后台收集、汇总、存储起来后,网络文学的大数据就有了庞大的原始积累。其次,在热爱互动和表达的网友的推动下,社交化阅读成为网络文学一个新的发展趋势,你来我往的互动记录进一步扩充了网络文学的数据库。2017年,阅文集团在其旗下起点读书App客户端(Application,简称App)推出“本章说”功能,鼓励读者在阅读过程中即时分享。目前十万以上的评论量也成为爆款网络文学的标配,据统计,起点国际(Webnovel)平台内,点击量超过千万的网络文学作品累计评论量超过370万条。

(二)大数据技术提供算法支持

大数据深刻地改变了人们的思维、生产、学习方式,其价值和重要性已经毋庸置疑。现在网络文学的发展也离不开大数据的技术支持,尤其是在网络文学已经拥有庞大天然数据的前提之下。网络文学在数据的占有量上脱颖而出,但是如果空有海量的数据却不能通过成熟的算法进行价值变现,那么这些数据将变得毫无价值。对网络文学而言,怎样更好地利用大数据的相关方法——虚拟化、云计算、数据挖掘——将20年来网络文学积累起来的大量数据价值变现,并为网络文学接下来的发展重心提供指导性建议,比如如何量化用户的情绪、怎样增加网站的用户黏性等,才是网络文学大数据应用的核心。而如何对现有的海量、非结构化数据的正确处理也是大数据技术的难题所在。数据挖掘技术包括分类、聚类、关联分析、链接挖掘、装袋和增强、序列模式挖掘、机器人学习、聚合挖掘、粗糙集以及图挖掘算法等多种算法。

对于网络文学而言,使用最频繁的就是链接挖掘算法,即处理和分析互联网上的超级链接以及相关的网页信息。大数据是珍贵的资源,也是能够影响决策的技术手段。通过数据的挖掘和分析,能够得到简单而又直观的结果,这个分析结果将我们的生活与大数据的开发利用紧密联系在一起:在淘宝网购物时,网站可根据消费者的购买品味进行相关产品推荐;亚马逊中国也有“经常一起购买的商品”这样人性化的设置;美剧在开拍前也通过大数据资料详细地分析受众心理与需求……对网络文学而言,有了大数据分析报告,数字阅读服务商可以明晰读者的消费行为,也能够实时监测文学网站的传播效果。通过对用户的网站使用记录进行分析,可以了解到该用户偏好的使用时间是晚上还是白天,多数的使用地点是办公场所、家里还是咖啡厅等社交场所,采用智能手机App、平板电脑App还是PC网页终端设备。这些信息的发掘和分析可以帮助界面色调等内容进行针对性的改进,使之更好地适配于该用户的使用习惯。用户在使用过程中重点搜索了哪些题材的作品,玄幻还是现实主义,偏好哪些作者,对作品长度有没有要求,等等。对这些内容的发掘能够洞察用户的阅读偏好,以此为基础,可以实现精准推送和个性化推荐。这些做法无疑会更好地吸引和巩固读者,从而增加用户黏性,对网络文学整体的发展有重要意义。 FCOyNLFZm/nwQHFRMMtje7mPyqJ8prAoRajgtbVQrZpQPyT4tKhCe7C+JKeBEPmk

点击中间区域
呼出菜单
上一章
目录
下一章
×