数据的价值不在于量之大,而在于有用,因此大数据技术介入网络文学行业不是为了帮助网络文学收集和保存数据,而是系统性地对数据进行挖掘和分析。值得注意的是,当前网络文学的大数据应用已经取得了不错的成绩。
“私人订制”的网络文学作品在当下越来越流行。网络文学的“定制”并不是传统意义上消费者向生产者主动进行预约和产品描述,然后制造商根据要求进行生产的过程,而是数字阅读服务商根据受众的使用痕迹和使用偏好,包括已阅读、收藏、评论、投票,一般阅读时间、时长、场景等内容,进行后台数据分析,以分析结果为根据,有针对性地向该读者推荐符合其审美的网络文学作品,甚至调整已经面世作品的内容,或者对于不同读者的使用偏好设计不同的阅读页面。这种案例在当前的网络文学市场上已经出现,如果一个读者频繁搜索宫斗题材的作品,而且其收藏记录和阅读记录也集中在这个题材,那么在数据分析基础上,就可以为他/她推送宫斗、穿越、宅斗等相关作品。针对读者的阅读偏好,数据分析的结果同样会指导平台作出决策。如果一个用户长期选择在深夜阅读,那么专门为该用户调低阅读界面的亮度,开启护眼夜读模式就能更好地服务于该读者;一个用户的数据显示为左撇子,那么阅读界面也应该进行调整,一些惯用功能可以设置在左边便于该读者使用。
从技术的角度来看,网络文学的“私人订制”是无法通过抽样生成的小样本+概率统计来实现的。针对读者的个性化推荐是基于大数据分析产生的。而这个数据的来源则是网络文学的读者——一批年龄集中于“90后”、“95后”甚至“00后”的“数字原生代”群体,他们是与互联网相伴而生的一代人,在互联网的使用方面拥有得天独厚的优势,也有着独特的阅读习惯。这种个性化的习惯首先是社交属性明显,高度的互动热情使得网络文学的读者热衷于在网络文学作品的专属评论区或者读者论坛发表评论,评论的内容可以是关于书名、简介、故事走向、主角人设等各个方面。在社交媒体盛行的今天,除了在网络文学网站内部读者、作者、服务商三者之间存在互动,向外部扩展式分享的现象也大量存在。其次是消费习惯,网络文学不仅是文学作品还带有鲜明的商品属性,读者在网络文学市场上的购买行为,以及体现不同网络文学作品之间相互竞争状况的打榜投票都是纸质文学时代根本不存在的现象。而读者的这些使用记录毫无疑问为网络文学产业贡献了数据积累,这些通过大数据技术抓取的使用者个人偏好、阅读记录、言论内容等,经过算法的筛选,最终形成极具针对性的个性化分析报告。在这个分析报告的基础上,作者可以在连载过程中调整自己的写作重心、人物形象,读者可以获取精准匹配自己阅读品位的相关作品推荐,数字阅读服务商可以通过定制化推送、按需服务提升平台用户黏性,增加企业竞争力。显然在这个算法过滤过程中,用户使用记录的数据化汇集往往比问卷调研更实用,它们是用户个人喜好最真实的体现,其分析结果也更加具有科学性和说服力,这正是当下网络文学大数据应用的一个重要趋势。
当前大数据似乎已经成为网络文学对抗盗版问题的一剂良药,大数据在网络文学版权维护方面展示出巨大的优势,不断有媒体报道一些网络文学平台和网络文学作者通过大数据技术鉴定盗版、追踪抄袭根源、用DNA技术维权等。
我国网络文学用户的规模不断壮大,目前已突破4亿,这些用户是数字产品的消费者,但在当下这个互联网环境下,他们也可能成为创作者甚至抄袭者。同时,网络文学作品数量庞大,阅读平台繁多。因此,无论是从网络文学文本源头还是传播过程都难以通过常规手段进行版权保护。网络侵权盗版形态多样,行为隐蔽,侵权认定、证据取得、法律适用等都面临新的困难与挑战。 而大数据技术的出现无疑为网络文学严峻的盗版现状带来了福音。国家版权局在2017年就曾提出,“十三五”时期要提升云计算、大数据等防止盗版的新技术手段,“实现对互联网侵权盗版行为的及时发现、源头追溯、有效监控、准确取证”。而在实践过程中,2018年10月21日,在苏州召开的第七届中国国际版权博览会上,在线零售巨头阿里巴巴与“京版十五社反盗版联盟”达成图书版权保护协定,实现基于法律法规框架下的平台与出版社的数据共享,对盗版图书网络销售进行主动性的防控。
除了利用大数据建设版权保护平台,对侵权行为进行事先预测侵权可能,终止正在侵权的行为之外,大数据的另一个作用就是为盗版侵权案件诉讼提供证据。这里不得不提的一个应用案例就是给网络文学盗版治理带来新契机的调色盘,“调色盘的说法源于当今网络上进行小说抄袭比对的表格,被侵权人将两篇文章左右放置在表格中,分别使用一种颜色标记二者的相同部分与章节。” 在已经发生的侵权诉讼案中,调色盘作为部分案件的证据功不可没。2017年年初,11位作者联合起诉《锦绣未央》原著小说抄袭,在此案审理过程中,调色盘也成为判定被告是否抄袭的重要证据之一。这一事件说明调色盘模式在网络文学盗版治理过程中的价值,这是一种依托于数据比对分析的盗版治理路径,不仅是热门IP版权诉讼案中的得力证据,还兼具规范互联网时代文化产业版权秩序的责任。
近年来随着网络文学发展规模的不断扩张,以及大数据分析技术的优势逐渐凸显,我国网络文学领域大数据应用情况越来越受到关注。为了更好地进行网络文学的大数据研究,专业的大数据研究平台相继出现,并在实践中不断完善大数据平台建设,以期能更好地发挥自己的作用。
浙江瀚叶股份有限公司就是其中一个重要代表。瀚叶股份是伴随国家经济转型、文化产业改革而发展起来的一个文娱企业。它主要关注内容生产,在影视、综艺、游戏等多个领域进行运营与投资,并积极探索和实践文娱行业的大数据研究。瀚叶股份致力于文娱产业的转型升级,为了进一步提升公司的综合竞争力以及行业影响力,特别在文娱行业大数据研究领域开辟了全新的业务品牌——瀚叶数据。瀚叶股份旗下数舟(上海)数据信息服务有限公司于2018年6月25日发布“网络文学研究大数据平台”(第一期)。 该平台总体上分为四大板块:一是平台首页,展示的是由瀚叶数据原创的网络文学作品评论、作者采访、文章分析以及行业热点资讯等;二是网络文学数据,展示每月网络文学实时更新情况,以及小说点击量排行、作者数据、网站数据等网络文学相关数据;三是舆情分析,可以通过关键词搜索跳转至专业的舆情分析界面;四是文搜天下,其内容俨然是网络文学界的“小百科全书”,通过网络文学大数据搜索引擎,可以快速获取囊括玄幻、言情、悬疑、灵异等四十多个类别网络文学的专业分析、舆情监控、字数排行等。
瀚叶数据以网络文学为起点,立足文化娱乐领域,依托大数据、人工智能等前沿技术,推动文化创意产业健康高效发展。瀚叶数据不仅拥有一批原创文娱精品,而且通过网络文学研究大数据平台建设也拥有了巨量数据汇总、精确数据分析、全面的网络文学大数据搜索引擎……有了这个网络文学研究大数据平台,瀚叶数据后续将会形成专业、系统的文娱行业大数据门户。可以想见,未来瀚叶数据在文娱行业数据采集、数据处理、数据分析方面将更加具有行业说服力。
2018年9月25日,第二届中国“网络文学+”大会报告显示,到2018年全国网络文学读者规模已经突破4亿,人均消费达到30.9元,其中8.7%的读者月均消费超过百元。 网络文学的发展呈现出一派欣欣向荣的景象。随着网络文学读者群体规模的不断扩张,阅读时长以及用户黏性的不断增加,通过数字阅读服务参与网络文学市场竞争受到更多的关注。近年来,国内引领数字阅读的阅文集团、掌阅科技、中文在线等企业竞相上市,不断在优质网络文学资源、IP版权等方面展开合作与竞争。
网络文学作品数量有限,网络文学IP价格一路高涨,而读者需求又非常有潜力,这样的情况决定了数字阅读服务商要想在竞争中站稳脚跟,必须能够慧眼识英雄,发掘有能力的网络文学作家,推送读者喜欢的网络文学作品,开发有价值的网络文学IP。而这些情形的实现离不开大数据分析。因此,引进大数据技术,并应用于网络文学分析成为数字阅读服务商的不二之选。以掌阅科技为例,掌阅科技在其定期举办的阅读论坛上会公布一组掌阅文学数据,通过数据直观地显示其用户的年龄区间、性别比例、地域分布、题材偏好等内容。阅文集团也不例外,每年都会发布当年的年度网络文学发展报告,盘点内容涵盖行业、用户、内容、IP等多个方面。这些文学报告的数据来源当然是各个数字阅读服务商旗下的阅读软件,经过大数据分析之后,原本杂乱无章、毫无价值的数据有了开口说话的能力,能够给网络文学指引发展方向,诸如写作题材、角色设定等。此外,同属于腾讯集团的阅文集团与腾讯影业还联合其他的影视制作机构共同开发影视剧作品。在这个由阅文掌握主动性的IP孵化过程中,以腾讯视频的播放量、弹幕、评论评分等为素材进行大数据分析,阅文集团能够在第一时间了解到什么类型的网络文学作品更适合影视化创作,什么题材的IP剧更加受观众的欢迎,什么样的改编方式能够在书粉和剧粉之间获得平衡……这也是阅文集团在网络文学付费阅读与IP产业链开发方面的优势所在。