数据经济学是一门研究数据在经济活动中的作用和影响的学科。它涉及与数据的收集、加工、分析、存储和利用相关的经济学原理和方法。随着数据量的快速增长以及数据的广泛应用,数据经济学的理论和实践变得越来越重要并不断发展,这些发展也可以助力实现数据合理使用和最大化数据潜在价值的目标。
数据已成为新的生产要素和财富来源,数据经济产业迅速发展。 根据IDC的报告,全球大数据和商业分析市场的规模在2018年约为1660亿美元。国家信息中心发布的《2020中国大数据产业发展白皮书》显示,2019年中国大数据产业规模达到8200亿元,同比增长15.9%。其中,大数据基础软件市场规模为132亿元,同比增长41.3%;大数据硬件市场规模为71亿元,同比增长41.3%;大数据服务市场规模为8000亿元,同比增长14.9%。可以看出,数据产业已经成为经济活动的一个重要组成部分,对经济增长起到了巨大的推动作用。
近年来,中共中央、国务院多次强调,要加快培育数据要素市场。在互联网经济时代,数据是新的生产要素,是基础性资源和战略性资源,也是重要生产力。要构建以数据为关键要素的数字经济。2019年10月,党的十九届四中全会通过的《中共中央关于坚持和完善中国特色社会主义制度 推进国家治理体系和治理能力现代化若干重大问题的决定》提出,要“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制”。在此背景下,数据经济应运而生,成为国内外学术界和产业界的研究热点。
数据经济是指以数据为基础的经济体系,包括数据的生产、加工、流通和使用等环节 。数据经济的研究可以追溯到20世纪90年代,一些学者开始讨论信息经济和知识产权问题。卡尔·夏皮罗(Carl Shapiro)和哈尔·R.瓦里安(Hal R.Varian)于1998年出版了《信息规则:网络经济的策略指导》一书,分析了信息商品的特征和竞争策略,并探讨了产权、定价和监管等问题。这本书提出,网络经济中,数据的重要性日益凸显,数据分析和挖掘成为企业竞争的核心能力。 此后,越来越多的学者对信息数据相关的经济问题进行研究。其中,维克托·迈尔-舍恩伯格(Viktor Mayer-Schönberger)和肯尼思·库克耶(Kenneth Cukier)所著的《大数据时代:生活、工作与思维的大变革》是比较有影响力的。他们指出,由于数据量的爆炸式增长,以及计算机技术的不断进步和成本的下降,大数据将越来越多地应用于包括商业、医疗、政府、教育、媒体等在内的各个领域。大数据的产生是一场技术革命,它将给我们的生活、工作和思考带来深刻的影响和变革,同时我们也需要在数据应用过程中注意隐私和安全等问题,建立更加高效精准的数据管理和分析方法,推动数据的可解释性和透明度,实现更加公正开放的数据共享和使用机制。
数据经济正在成为经济学研究重要的新领域 。瓦里安是第一位提出“数据经济学”这一术语的学者,他指出了数据在经济活动中的重要性。 此后,许多学者对数据经济学进行了发展和丰富。 2020年,《经济学人》杂志发布的数据经济特别报告强调:“在某些方面,数据是一种自然资源,就像石油一样,可以拥有和交易,数据是当今世界上最有价值的资源。但数据也具有公共产品的特征,应该尽可能广泛地使用,以最大限度地创造财富。必须建立新的机构来反映这种紧张关系,就像知识产权一样。”数据已成为经济学必须研究的问题。
数据要素对经济活动和生产范式全方位、深层次的改变将引发一系列理论创新 。从生产力和生产关系原理看,数据革命首先是生产力革命,但同时也必将带来生产关系的变革,这是人类社会在经历原始经济、农业经济、工业经济、知识经济后,进入数据经济的新阶段。从技术-经济范式理论看,人类历史上共出现5次技术和产业革命,相应伴随着5种技术-经济范式,分别是机械革命及其带来的早期机械化工业范式、蒸汽动力革命及其带来的蒸汽动力和铁路范式、电力革命及其带来的电气和重型工程范式、石油革命及其带来的福特制大规模生产范式、信息革命及其带来的数字经济范式。因此,研究数据带来的经济活动及生产范式的转变,以及由此引发的一系列经济实践及理论创新,对经济学乃至整个社会科学的进步与发展都具有十分重要的价值。
当今时代,我们已经感到数据无处不在、源源不断,生产和生活的方方面面都会产生数据。尽管大家都在讨论数据,但到底数据是什么,并没有一个共识。数据更像是石油或阳光,这样的比喻受到追捧。因此,从经济学基本原理出发,对数据特别是数据要素进行相对准确的定义是构建数据经济学的基础。
从词源历史发展的角度来看,data(数据)在拉丁文中是datum的复数形式。《新牛津美语词典》(NOAD)将数据定义为“由计算机对其进行操作,以电信号的形式被存储和传输,并记录在磁、光或机械记录介质上的数量、字符或符号”。《新华词典》将数据作为计算机加工处理的对象。当前不断发展的人工智能将数据作为人机对话的基础语言,数据成为计算机结构化形式的基础。
迄今为止,数据并没有一个统一的定义,但从已有的专业机构定义和文献研究看,主要覆盖三方面: 一是数据是对现实世界的抽象,是现实世界的“模型” 。例如,国际数据管理协会(DAMA)将数据定义为“以文本、数字、图形、图像、声音和视频等格式对事实进行表现”。根据结构、格式等方面的差别,数据可被分为结构化数据和非结构化数据,比如数字是结构化数据,而文本、图像、音频、视频等则均属于非结构化数据。 美国质量学会(ASQ)将数据定义为“收集的一组事实”,“是对真实世界的对象、事件和概念的被选择的属性的抽象表示,通过可明确定义的约定,对其含义、采集和存储进行表达和理解”。 从这个意义上说,数据就是现实世界的“模型”。 二是数据本质上是一种表示方式,要遵循特定的规范和标准 。例如,国际标准化组织(ISO)将数据定义为“以适合于通信、解释或处理的正规方式来表示的可重新解释的信息”。这种定义认为,数据本质上是一种表示方式,是它所代表的对象的解释,同时又需要被解释。因此,为了确保数据对事物的表达和解释方式是权威、通用的,必须围绕数据制定一系列标准。 三是数据可支持分析、推理、计算和决策,真实、准确是对数据的基本要求 。《新牛津美语词典》将数据定义为“收集在一起的用于参考和分析的事实”。17世纪的哲学家用数据来表示“作为推理或计算基础的已知或假定为事实的事物”。以上两种定义意味着,数据可支持分析、推理、计算和决策。事实也确实如此,在科学领域,数据可以用来建立知识、检验假说、推进思路;企业等其他营利性组织可以通过使用数据来提供更好的产品和服务,以提高自身利润、降低运营成本和控制风险;政府、教育和其他相关机构中,数据则可以被用来提供更好的公共服务,指导制定发展战略和政策。
已有文献对两组与数据相关的概念做了有意义的区分。 一是区分了数据与信息 。马修·韦斯特(Matthew West)在《开发高质量的数据模型》一书中指出,当我们越来越依赖信息的电子储存时,我们已经改变了保存信息的方式,其趋势是将信息作为数据来保存,因为这能够增加计算机支持。这里对信息和数据进行了有效的区分。 数据是信息的基本构成单元,而信息则是对数据进行加工处理后所得到的有意义的结果 。具体来说,数据是指未经加工、处理或组织的原始事实或数字表示。例如,一组数字、一个文本文件或一个图像都可以是数据。数据本身并没有意义,它只是一种原始的、无序的信息形式。而信息是有用的、有组织的数据,具有一定的含义和价值。例如,在一个销售数据库中,一份报告可以将数据组织成图或表格形式,以便更好地帮助了解销售趋势和销售表现。在实践中,人们通常使用技术和工具,对数据进行收集、存储、处理、组织和呈现,以便从中获取有用的信息,并用来支持决策和行动。 二是区分了数据与想法。想法和数据都是信息的类型,但是想法是一个生产函数,而数据是一个生产要素 。例如,一千万个以狗、女人、杯子等标记为主要内容的图像,或者一万个人的每小时脉搏样本或语音样本,这样的数据对训练机器学习算法非常有用,但这些标记的图像和样本显然不是想法。按照保罗·罗默(Paul Romer)的说法,一个想法是一组指令,用于制造经济商品,其中可能包括其他想法。 数据是表示其余形式的信息。它相当于驾驶数据、医疗记录和位置数据这样的东西,其本身不是制造商品的指令,但在生产过程中仍然可能是有用的。再比如,一个成功的自动驾驶汽车算法——一种计算机程序,是一个想法——本质上是使用数据估计非线性模型的参数而得出的预测规则,而各种传感器(包括相机、激光雷达、GPS等)的数据和专业驾驶员将采取的行动是数据。也就是说,软件算法是嵌入未来自动驾驶汽车中的想法,数据是用于产生这个想法的基础要素输入。区分数据和想法的经济学意义在于对数据的排他性程度的认定。一方面,传输数据比传输想法在技术上更容易。数据可以在按下按钮后通过互联网发送,而我们却不得不投入许多资源来学习想法。另一方面,数据可以加密。特别是在数据很“大”时,可能更容易被监控并被制成高度排他性的。在自动驾驶汽车领域,机器学习的“想法”是公开的,而输入机器学习算法的驾驶数据是保密的,每个公司都在收集自己的数据,导致了数据的有限排他性。