购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

应用与反思:机器新闻写作研究现状

何莹子

机器新闻写作是人工智能在传媒领域的一个现象级发展,随着机器新闻写作在传媒领域的广泛应用,对机器新闻的研究也逐渐增多。人们普遍关注机器新闻写作的应用情况、给行业带来的影响及其未来发展趋势,本文通过梳理近年来国内外关于机器新闻写作研究的文献,探讨机器新闻写作的研究现状。

一、机器新闻写作改变新闻生产领域

“机器写作”是指自动根据算法将目标数据通过自然语言生成的方式输出文章的一种人工智能技术。“机器新闻写作”则指用这种技术进行新闻写作,即运用算法对输入或搜集的数据自动进行加工处理,从而自动生成完整新闻报道的一整套计算机程序,是人工智能学科在新闻传媒领域的一项重要应用。

机器新闻写作的应用始于国外。影响最大的早期实践是“Google News”,它本质上是一款Web新闻聚合器,首页更新和新闻推荐都不依赖于人工操作,而是由后台的聚合算法实现。2010年,美国的Automated Insights公司和Narrative Science公司分别将其研发的自动写作平台Wordsmith和Quill投放市场。由于机器新闻写作的速度快、效率高、产量大、成本低,从2010年春季开始,美国十大电视网已经开始采用Narrative Science的软件进行体育赛事的简要报道。同年10月,美联社宣布与Automated Insights公司合作,采用其开发的Wordsmith进行新闻生产。雅虎、福布斯网站也开始采用机器人进行特定种类的新闻写作。

腾讯是中国第一个运用机器新闻写作技术的公司,在2015年9月,腾讯使用Dreamwriter写作软件,完成了一篇题为《8月CPI同比上涨2%创12个月新高》的新闻报道。该报道输出十分高效,用时仅一分钟。2015年11月,新华社推出“快笔小新”,为多个部门提供新闻稿件写作。越来越多的机器人开始在新闻行业撰写新闻,新闻行业的自动化生产时代已经来临。机器新闻写作带来了内容生产的新变革,改变了传统新闻的编辑、生产过程,为记者带来了新的机遇与挑战。

二、国内机器新闻写作研究现状

机器新闻写作是新闻生产自动化应用,即基于算法的新闻内容生产、编辑、出版。李苏认为,我们可以从广义和狭义两个层面来理解机器新闻写作。广义上看,机器新闻写作是指人工智能技术在新闻写作、采访、编辑、主持等新闻活动中的具体运用。狭义而言,机器新闻写作则指机器写作的新闻(machine-written news)或计算机生成新闻(computer-generated news),它是基于数据统计和机器学习,运用计算机自动算法从可识别的数据中提取具有新闻价值的信息,形成新闻报道角度,自动选择语词样本、新闻报道模版生成的新闻故事。

我国对机器新闻写作的研究始于2014年金兼斌的《机器新闻写作:一场正在发生的革命》,聚焦于新闻生产的自动化趋势,介绍了机器新闻写作目前的发展现状、工作原理和应用前景。此后,对机器新闻写作的研究逐年增多。笔者通过知网,以“机器新闻”为关键词进行检索,检索到研究机器新闻写作的论文共70余篇。2014年有2篇,2015年为8篇,2016年共21篇,2017年则多达40篇。虽然有逐年增多之势,但总的来看,机器新闻写作是国内的一个新兴议题,研究数量还较少。对机器新闻写作的称呼上,主要有“机器新闻写作”、“机器人写手”、“写稿机器人”和“机器人新闻”,其中,最主流的称呼还是“机器新闻写作”。在研究范围上,前三年对机器新闻写作的探讨主要集中在新闻活动中的具体运用上。包括机器新闻写作的优点与局限、给传媒业带来的变革以及新闻从业者应如何应对、机器新闻写作未来发展应用展望。2017年对机器新闻写作的研究则更加多元,涉及对机器新闻写作带来的数据伦理、著作权等相关法律问题的思考。

(一)人机协同——机器新闻写作发展趋势

机器新闻写作的优点主要借助于其深度学习、大数据处理技术和自然语言处理技术。付松聚通过机器新闻写作与人工新闻写作的实证性研究发现,机器新闻写作在时效性和标题、导语的拟定上具有明显的优势,这得益于其强大的数据处理技术。 卢永春认为,机器人擅长写一些结构化的稿件,数据处理优势明显,智能语义分析技术的进步,使得机器写作实现部分“人格化”。 也就是说,对于模式化的稿件和以数字为主的财经类报道、体育类新闻,机器新闻写作要比人工写作更快速高效。

机器新闻写作速度快、数量大、个性化等特点使得写稿机器人的应用快速发展,诸多传媒公司、门户网站、报业集团等均已使用写稿机器人作为日常的内容生产工具,这给新闻生产带来的影响是全方位的,从内容的生产、编辑、出版和发布各方面都带来根本性的变化。喻国明提出,机器新闻写作仅就内容生产而言,就可以做到以下四点:对规格化的新闻资讯精准、迅速地生成和发布;自动生成适应不同人群语言习惯的表达方式;可以将杂乱无序的个人生产的资讯传播纳入拥有生态意义的传播框架和平台上,激活个人传播力,形成“无影灯效应”;以及通过对大数据和碎片化文本的总体性处理,建构“上帝视角”。 同时,内容生产的总体格局也会因为写稿机器人的出现而变化,传统的记者写稿环节可能会解构为记者“指导”下的机器写稿和记者或编辑进行人工修改把关,稿件生产也会越来越依赖于大数据,稿件内容的发布和推送将会更加个性化、定制化。

机器新闻写作给传媒业带来的上述变革使得机器人会不会跟媒体人抢饭碗成了人们热议的话题。对此,不少研究者们都持有记者不会被取代但需要做出相应转型的观点,并探讨了记者应如何应对这一变革。喻国明提出新闻人角色应该有两个方面的升迁,一是重点挖掘采集机器新闻写作无法完成的调查性报道、解释性报道;二是建构一个具有平衡和再平衡能力的信息场域,实现互联网时代多元信息的生态化导流和管理。

正如彭兰所说,“智媒时代不应该是一个机器统治人的时代,相反,机器的力量应在于更好地连接人与人,更好地汇聚人的智慧,并以机器的智慧拓展人的能力”。 对于机器新闻写作的前景,学者们普遍认为,人机协同是未来传媒生产的主流模式。由于机器本身不具有判断新闻倾向和新闻价值的能力,机器新闻写作离不开新闻记者的把关;机器新闻写作则能够帮助记者实现资料的实时、快速抓取,让新闻记者从重复、烦琐、低技术含量的数据搜集工作中解脱,有更多的时间去思考和从事更具想象力和创造性的工作。 技术与人,机器与记者应该是互补互存的关系。正确利用机器的能力,发挥人的特长,是机器新闻写作未来发展的方向。

(二)数据与人情味——机器新闻的技术局限性

有的研究者从机器新闻写作技术原理的角度出发,分析了机器新闻写作存在的问题和局限。机器新闻写作有其擅长的技术逻辑,但人类独有的理性思维,记者进行新闻事件报道时必不可少的观察视角、固有立场,以及通过自身的身体,即通过视觉、听觉、嗅觉、味觉所感知到的现场环境都是机器无法做到的。

目前,机器新闻写作领域主要局限于财经、体育等几个少数领域,机器新闻尚不能脱离算法和模版的窠臼,仅能依赖一些定量数据进行挖掘展现,无法进行创造,因而模式化、同质化倾向明显,主题单一并且缺乏人情味。这样的机器新闻必然缺乏故事性,难以吸引读者阅读。

美国自动化生产新闻公司Automated Insight 的CEO Robbie Allen早前说过:“其实就是让机器人把数据转化成故事,真正的难点在于怎么让它看起来像人写的,因为只有数据不是好故事。”机器可以根据格式和语法规则写一首诗或一篇小说,但把全世界的数据加起来,也无法让一个程序理解爱、悲伤或恐惧。在新闻创作过程中的人文价值思考更依赖人脑,机器无法做到。机器新闻写作的另一个缺陷是机器人内容的输出取决于其数据库积累的质量。一方面,平台数据库的大小、质量、类别等都是不确定的;另一方面,发生于社会现实的素材或实地实景的信息,写稿机器人难以呈现。 同时,由于数据是机器新闻形成的重要元素,没有数据就无法形成报道,因此,数据的获取和可信度也是一个问题。能否访问到关键数据,数据的来源能否公开透明、真实准确,使得数据和处理结果更加可信,也是机器新闻的一个挑战。

(三)创造性与价值观——机器新闻无法取代人类记者

机器新闻能够通过自身的技术优势做到人类记者做不到的事情,如对大量数据的精准挖掘分析、根据数据和自然语言生成技术高效完成模式化写作,但对于新闻写作来说,其核心灵魂不仅仅是对事件的描述性堆砌,更是对事实真相的挖掘,是通过新闻事件所反映的价值观和意识形态,对人类共同价值观、世间真善美的宣扬和对黑暗、邪恶的揭露。只有这种同时具有真实性、及时性和富有人情味的新闻报道,才是大众所需要的。

匡文波在《记者会被机器人取代吗》一文中提出,“人类擅长的创造性思维,是人工智能无法取代的”。有律可循的消息报道也许会被人工智能取代,但深度报道、新闻评论等需要创造性思维的体裁无法被机器写作取代,这些都应是人类进一步深耕的领域。机器人不能亲临事件现场,因此无法像人类记者一样体察人情冷暖,与人沟通,从而挖掘出有人情味、有温度的新闻和能够折射社会深层次问题的调查性报道。作者认为,新闻报道是主要在人脑内完成的精神产品,正是精神产品生产的创造性是记者不会被机器人取代的根本原因。

极个别的研究者从“为谁写”的角度探讨了机器新闻写作无法取代人类记者的地方,对机器新闻写作进行了反思。苏婧认为,应用于我国的新闻实践应该在我国的媒介体制和新闻实践下运作,接受马克思主义新闻观的指导。但基于数据采集、数据加工的机器新闻写作折射的是新闻客观主义,机器新闻无法观察、思考,更不能表现出我国所需要的马克思主义新闻观的思想态度和立场倾向。其次,她对机器新闻写作折射出的市场逻辑和消费主义取向提出批评,她认为,对机器新闻的一味推崇将导致消费者引导媒介而非媒介引导消费者,这将加剧传媒行业中消费主义的盛行。

(四)伦理与法律——机器新闻写作的潜在问题

机器新闻写作带来的潜在伦理和法律问题主要有以下三个方面:数据侵权问题、著作权问题和机器人新闻的责任归属问题。

机器新闻写作能够通过大量的微观数据的整合发现人类记者发现不了的问题,挖掘有价值的新闻,进行数据类新闻的快速、准确编写,但是,机器新闻写作对大数据利用的具体边界与规范都尚未确立。网络兴起带来的问题是网络上个人隐私的泄露,而网络数据伦理失范与数据隐私泄露是大数据时代带来的严重问题。网络数据伦理指在对网络数据利用中普遍应遵守认同的道德标准和观念,是约束网络数据使用行为的软性规范,健康良性的网络数据伦理应有强大的约束力与普遍的认可度。

机器新闻写作的技术原理决定了机器新闻的主要价值就在于对大数据的利用与深度挖掘,未来利用大数据技术为主的机器新闻写作向深度报道领域广泛发展是一种趋势,而深度报道体裁更易造成数据隐私泄露与违背数据伦理。曾振华具体列举了三种机器新闻报道有可能造成的侵权与数据伦理问题。如针对某一类群体的消费行为以及某一个地区的消费特征、消费能力进行分析报道,该类报道通过人工智能软件对某一类群体的网上消费行为进行数据搜集与跟踪,这种未经个人许可的行为是否违背数据伦理值得商榷。类似的还有针对某一小众群体的报道,同样易于侵犯群体隐私和个人隐私。

机器新闻写作除了带来数据伦理与隐私权的讨论以外,也引发了学者对数据新闻著作权的讨论。由于人工智能创作是由计算机模拟人的某些思维过程和智能行为,那么利用人工智能生成的机器新闻似乎也有了智力创作的痕迹,那么机器新闻在著作权法中应如何定性、它们是否可以作为著作权法意义上的作品受到保护也是亟需探讨的法律问题。王迁提出,自动新闻写作是综合运用算法与模版的结果,其关键在于针对某一类型的文章,如财经新闻、体育新闻等开发出针对原始数据进行分析的算法,再将其分类套入内置的各种模版。当软件根据函数和算法对原始信息进行筛选和计算后,将所得数据依对应关系填入模版之中,一篇新闻报道就形成了。 他认为,这在本质上仍然属于执行既定流程和方法的结果,其产生过程不符合独创性要求。目前的人工智能本质上还是“人”的智能,其生成作品的过程不涉及创作所需的智能,因此属于人工智能范畴的机器新闻写作不能成为受著作权法保护的作品。刘梦婷认为,机器人新闻不属于单纯思想与情感、实用功能、单纯事实、官方文件等著作权法无法给予保护的范围,不致形成对思想、事实等的垄断权。判断机器人记者是否享有著作权不应该一味地遵照现行的著作权法来盲目评判,而应参照自然人记者所写新闻作品划定标准,并在合适情况下考虑著作权法保护对象的界限和范围。

如今,机器新闻作为信息传播的主体之一,无论其著作权是否受到保护,机器新闻都有可能出现权利和义务的纠纷。由于“机器人记者”并非可以承担法律责任的自然人、法人,当机器新闻出现侵权或被侵权的问题时,我们就难以找出其第一责任人。因此,不论是技术开发公司,还是媒体机构,对于机器人新闻的责任人认定都亟需法律法规进行明确。在机器人新闻存在侵权行为和著作权问题的时候,明确责任人才能让事件得到进一步的推进和解决。

在人工智能与大数据迅猛发展的今天,新闻作品的产生和传播方式都发生了改变,知识产权的实践方式也随之改变,法律和政策也需要做出相应调整,以适应新的技术与新发展领域,解决新的问题。

三、国外机器新闻写作研究现状

国外研究者多用“机器人新闻”(robotic journalism)、“机器写的新闻”(machine-written news)、“自动内容”(automated content)、“自动新闻”(automated journalism)等名词来指称机器新闻写作。国外对机器新闻写作讨论的范围较为宽泛,除了对机器新闻优缺点、行业影响和法律问题的探讨外,也涉及了读者对机器新闻写作的看法等实证性研究。

(一)量与质——机器新闻普及的驱动因素

目前,全世界的公司都在开发自动化新闻软件,美联社、福布斯、《纽约时报》、《洛杉矶时报》等媒体均已使用机器新闻进行自动生产。虽然目前这项技术还处于早期市场阶段,但自动化新闻早已进入新闻编辑室,并将继续存在。

由于机器新闻可以自动从大数据中提取信息并将它们转化为可读性的新闻,无需人工介入,除了节省人力成本外,机器新闻还可以找到记者容易忽略的故事,如果算法编程正确,机器永远不会疲惫。目前,机器人新闻的应用有如下几个方面:机器人代理、机器人编辑、移动内容生成器机器人、远程监控机器人和机器人记者。 有媒体预测,新闻生产工作将在未来十年内发生重大的变化,因为人工智能程序将会引入到新闻发布与传播的各个方面。届时,新闻编辑室将成为自动新闻编辑室,管理编辑室的将不再是传统的记者和编辑,而将是数据管理员和软件工程师。

为何机器新闻的应用如此大受行业欢迎?Andreas Graefe 对此进行了总结。首先,机器新闻在生成常规报道时最有用,因为它们可以提供准确、结构化的数据;其次,算法能够进行更大规模的数据处理,并且准确性极高,比人类记者犯更少的错误;算法还可以依据读者的个人偏好,以不同的语言、不同的角度来讲述故事,实现个性化新闻生成与推送。对于新闻机构来说,使用机器新闻写作可以削减成本、增加新闻数量,这无疑也是他们大力发展机器新闻的一大驱动因素。

M. Carlson 认为,机器新闻写作所创造的可能性是无限的。第一,机器新闻将极大地拓展新闻领域。机器新闻可以将数据转化为叙事,新闻写作的世界因此被急剧扩大了,因为电脑挖掘出的大量数据、可读性的事件、趋势和发展,都是记者曾经无法完成的报道。第二,机器新闻写作将冲击新闻工作者的未来,重新定义新闻工作者。第三,机器新闻将对新闻创作形式进行重新定义,如新闻报道的数据驱动化、规模化和个性化,将强化以受众为中心的新闻理念。最后,是对权威的重新定义。任何权威概念所必需的社会价值都来自自动化过程,它消除了人类的偏见和分析能力,从而从复杂的数据中产生意义。

(二)可信度与可读性——读者眼中的机器新闻

由于机器新闻可以生产出从前没有的新闻作品并满足读者的个性化需求,因此有研究者从读者的视角出发,研究了机器新闻写作下的消费者是如何看待机器新闻写作的。这主要涉及两个重要问题。首先,是新闻消费者认为机器新闻的质量如何。总的来说,人们认为机器新闻写作的内容可信度更高,但可读性很低,人们并不喜欢阅读机器新闻。其次,由于机器新闻目前适用于那些需要快速、高效完成的新闻主题,而不擅长深度的、复杂的叙事,因此,读者对机器新闻的文章质量期望值较低。再次,是新闻消费者对机器新闻算法的透明度要求如何。

在这些研究中,研究者通常要求参与者阅读一个机器新闻作品,并让他们对机器新闻作品的各方面进行评价。Christer Clerwall 探讨了读者如何看待人类记者和机器新闻生产的稿件。研究表明,在阅读体验上,如内容清晰、令人愉快等方面,人类记者所写的内容更受读者肯定,但在可信度、信息性(informative)、客观性方面,机器新闻得分更高。也有研究者通过实验法探究了记者和读者对机器新闻的信赖程度。他们发现,读者组对机器新闻和记者新闻的信赖程度、专业知识水平认知都是一样的;但记者组认为,记者新闻的可信度要比机器新闻高,而在专业知识水平上,记者组则认为机器新闻更高。(Hille van der Kaa, Emiel Krahmer, 2014)

在算法透明度问题上,当算法被用于在读者个人层面上创建个性化新闻故事时,人们可能会想知道算法知道了什么,或者他们的故事与其他消费者看到的有什么不同,在这种情况下,读者应该有权利了解算法的功能性信息。Andreas Graefe在他的书中提出,读者可能会对算法中人的参与、数据来源、模型以及算法的存在感兴趣。比如,读者可能会想知道自动化内容的背后是谁,其目的和意图是什么,谁创建和控制算法,数据是如何收集、转换的,数据的来源是公开的还是私有的,在机器新闻生成个性化故事时使用了哪些读者的个人信息。Andreas Graefe认为,这些问题对用户应如何公开以及透明度如何都是需要探讨的。

(三)理解机器新闻——人类新闻工作者的新视野

机器新闻有诸多优点,极大地推动了传统新闻生产方式的变革,但是,机器新闻写作也有很多局限是人类记者需要认识到的,并以此来发展自身优势,避免被新闻机器所取代。

Noam Lemelshtrich Latar 认为,如果人类记者能够理解人工智能在新闻领域的局限性,就能发现更多的机会,为他们的职业提供服务,甚至可以利用机器新闻来获得更多的影响力。首先,人工智能在数据挖掘上擅长的是发现多个变量之间的关系,具有极高的统计学意义,但数据分析的结果很有可能是毫无意义和价值的。算法依赖于数据和假设,若两者都出现偏差和错误,就会导致错误的结果,最终影响决策。其次,人工智能对人类自然语言的理解也是有限的,尤其是涉及思想、隐喻、幽默和诗歌的语境。对此,学者们正在进行一场哲学辩论,探讨机器是否能够完全理解自然语言在文化和社会环境中的丰富性和生动性,更何况,这些环境也是随着时间的变化而变化的。目前,机器新闻写作的质量远不如人类作者,只有在自然语言生成技术取得进步的情况下,机器新闻写作的质量才有可能进一步提高。最后,作者还提出,人工智能算法只能回答问题,不能提出问题、解释新现象或建立因果关系,缺乏编写意见的能力,这些都限制了机器新闻观察社会和完成新闻任务的能力。

Arjen van Dalen 对2010年的68篇博客文章和报纸报道进行了分析,以了解机器新闻这种新技术使得记者如何重新审视自己的技能、如何重新定义自己的职业。面对自动新闻,记者更加强调分析技巧、个性、创造力和复杂语句的使用,而不是机器所擅长的事实、客观性、简单化和速度。记者们把机器新闻看作是使新闻更加人性化的一个机会,并将利用例行新闻自动生产的时间去完成更多有深度的报道。

也许机器新闻会取代那些仅仅能够报道常规性话题的记者,对于人类记者来说,人机结合是未来最好的工作方式,记者应该培养一些算法无法形成的技能,如深度分析、采访和调查性报道。人类记者只要能够理解机器新闻的诸多局限,便能够充分扬长避短,发挥自己作为“人”的优势,将机器新闻作为自己的工具加以利用,以完成更加优质、高效,视野更加开阔的作品。

(四)信息过载与舆论碎片化——机器新闻的潜在社会影响

对于机器新闻的社会影响,有学者认为,由于机器新闻能够快速、大规模地创建新闻内容,并个性化地满足读者的需求,机器新闻会大大增加新闻数量,虽然这种发展趋势有助于满足人们对信息的需求,但也可能会带来信息过载,增加人们的负担,使人们花费更多的精力来找到与他们相关的内容。

另一方面,为了应对信息过载,搜索引擎供应商将会通过分析用户的个人数据,为新闻消费者提供他们最感兴趣的信息,在这种情况下,不同的新闻消费者可能会得到不同的搜索结果和不同的新闻故事,然而,这又会导致消费者得到越来越同质化的信息。算法将只提供用户喜欢阅读的或与用户意见一致的信息,人们将不大可能遇到与他们观点不同或利益相矛盾的信息,这可能会给民主社会的舆论形成带来风险,导致公共舆论碎片化。

虽然目前,个性化新闻带来的影响是积极的还是消极的尚无定论,但这仍然是机器新闻写作中一个值得研究的重要领域。

四、总结

纵观国内外对机器新闻的研究不难发现,学者大多将视点聚焦于机器新闻的实际应用和对新闻行业的影响上,致力于探讨未来新技术的发展方向和人类记者的应对之策。他们多从实用主义、技术主义出发,迎合新技术,对机器新闻带来的技术逻辑、消费主义、用户隐私和机器新闻伦理等问题的探讨还不够充分。

笔者认为,技术并非是中性的,它有自己的“意向结构”,包含着特定的价值取向。机器新闻写作对数据的依赖,使得机器新闻所擅长的也是和数字高度相关的报道领域。人们只能针对其固有的“意向结构”加以利用,而不必让机器全然替代新闻写作领域。技术是构造人和世界的环节,技术潜在地决定了我们的行为逻辑。机器新闻所构造的媒介世界必然和人类记者所构造的世界是不同的,人工智能对新闻作品的处理是通过算法,而算法无法将真实世界的一切都形式化、数字化,机器新闻写作是具有数据结构化取向的。人类拥有身体和感官,自然风光、新闻事件都是需要人类用身体去感知探索的,如果我们都通过机器新闻来认识世界,那么我们将陷入由真真假假、纷繁庞杂的数据所构成的世界,逐渐失去人类所有的视角、感知与思想,最终丧失人的自然性。

机器新闻还将带来新闻价值的重构。由于机器新闻快速高效,甚至能通过大数据对未来趋势进行预测,“时效性”这一新闻价值被增强了。同时易读性、参与性都将成为机器新闻的重要价值。但是,传统新闻价值中,深度、重要性、趣味性等是机器无法取人类记者而代之的,人类记者应该坚守价值阵地,人机协同,共同创造更加多元的新闻价值。

随着机器新闻的大量运用,机器新闻伦理问题也需得到人们的重视。读者有权利知道自己阅读的新闻是由记者还是机器所创作,除此以外,机器新闻写作需要用到大量的数据,数据的来源是否公开、透明、真实,来自用户的数据使用权、归属权、用户隐私等都是亟须探讨的问题。

(何莹子,北京师范大学新闻传播学院2017级硕士研究生) a5qewYsecjaB7poa3yEmfH62xcF/PzZNT2uJhmzDP1sHWqRl+7pQG5ijeNTjR53q

点击中间区域
呼出菜单
上一章
目录
下一章
×