



数据并非法学学科中天然存有的概念:其诞生于计算机科学与技术学科中,随着信息技术的迭代和人们认知的不断加深,这一概念也被图书与档案学广泛应用。数据诞生的根源决定了对其概念的探索不仅需要在宏观上具备跨学科的视野,还应当持续关注不断发展的技术对数据定义嬗变的影响。
随着数据利用效能的提升,计算机科学技术和图书情报学科对数据基本概念的研究也取得了一定成果。依据侧重内容的不同,对数据概念大致有以下三类界定:第一类,更关注数据的属性和内容,认为数据是负载或记录信息的按照一定规则排列组合的符号,这一组符号可以用于表示数量、行动和目标,且须具备非随机性和可鉴别性。
第二类,从效用和功能的角度论述,认为数据是表达和传递信息的工具,数据运用不同的符号并借助一定的技术方法和手段,对现实世界客体的本质、特征以及运动规律进行勾画与记录。
有学者为了便于研究数据的特性并导出相关定义,建立了一套标准:其将用于描述客观事物的数据表示为一个包含“属性、属性关系、属性值”三项内容的三元组,属性与属性关系完全一致的数据即为同类型数据。
第三类,从外部的形式认识数据,认为数据是指任何以数字化形式存储的内容,包括文本、数字、图像、视频、音频、算法等。
也有学者从更狭义的角度,认为数据是用来表示某一自然客体或社会客体性质的“数字”组合。
此处的数据实际上对应传统认知中的“数值”概念。
从数据概念多种面向的论述中,可以提炼出数据的以下特点:
其一,数据本质上属于符号,因此在形而上的范畴内,数据不具备实体性。数据的存储、传播、共享与呈现需要一定的介质,现代银行对客户个人数据的存储、加工、传输、共享就极度依赖银行计算机系统中的硬件与软件设备。在20世纪,银行一般通过线下网点以人工或人机相结合的方式,对客户的基本个人信息及交易记录等内容进行梳理并形成纸质档案,这些数据往往以纸质档案、证函等为媒介进行传递,因而那时办公效率低下。电子化、数字化的渐进性行业革命拓展了银行等金融机构的业务范畴,在数据基础之上形成的客户画像以及由此衍生的交叉营销、精准化营销提升了金融行业的获客能力。这也从侧面表明,承载、传输、处理能力等媒介本身的特性会在一定程度上影响数据的利用效率和价值挖掘程度。
其二,数据本身虽无富集之义,但是具体商业实践或科学研究中所论及的数据往往具有较为庞大的体量。单独、孤立的数据对个体而言可能存在一定的意义,甚至可以成为主张权利的缘由或客体,但零星的数据不具有通常意义上的经济价值和研究价值。在数据资源化的过程中,有含义的数据归集到一定规模后方形成数据资源,通常表现为数据库或者数据集。数据如同新时代的原油,一方面,需要经历提炼等一系列工艺流程后才能使用;另一方面,须具有一定程度的储备量与开发价值。
其三,作为一组非随机组成的符号,数据在借由媒介进行传输后可以被两个以上的独立主体分别占有和使用。一方对数据的占有不会排斥另一方的占有,一方对数据的加工与共享也不影响另一方对同一数据的使用。数据的这一特性与公共产品相似,其同基础设施一样,具有非竞争性。此外,各主体在利用数据时,对同一数据的认知是存在差异的。在不断组合、匹配以实现数据积累的过程中,采用的处理手段不同将会影响数据价值的增长或灭失,因此,主体间对数据的认知处于不对称的状态。
数据是否具有资源属性在信息时代已经是不言自明的议题。数据的诸多特点决定了并非所有数据都具有价值,数据仅仅是矿井中遍布的粗矿,但与矿物不同的是,数据本身在无外部输入的情况下仍可以实现增值。数据单元之间存在着千丝万缕的客观联系,但若无法通过可靠的标准和规则进行筛选与关联,数据的无序扩张最终只会像失控的癌细胞一样侵占健康躯体,不仅不能提升价值挖掘的效率与效益,反而消耗资源与活力。因此,为了避免数据利用中的失焦现象,有必要对数据进行集约,在价值提取的过程中需时刻保持焦点意识、树立节约观念。
数据的价值是多层次的。首先,数据具有初次价值。数据在首次收集和甄别过程中,由于具体内容的差别而天然地具备研究价值或经济价值。其次,在数据关联、挖掘和融合的过程中,数据可能产生次生或派生价值。虽然次生价值的诞生位序劣后,但其可以通过精加工创造出更具经济意义的产物。最后,数据价值还体现为潜在价值,这是指尚未被挖掘或无法立刻判断是否具有意义的那部分价值。
例如,社交媒体上人们发送的博文可能具有某种情感偏向,经收集与提取后可以获得与大众情绪相关的指数数据。这种数据初看似乎不具备应用价值,但有公司发现了社交媒体数据与股市走向之间的关联性——依社交媒体情绪数据的走向可以预测股市的行情,并在此基础上推出了基于社交情绪基准指数的交易基金[范达矢量社交媒体情绪交易所交易基金(VanEck Vectors Social Sentiment ETF),纽交所代码BUZZ]。因此,数据处理者当无法立刻判断某类数据的价值时,最好采取积极的态度,衡量数据储存的经济成本和潜在价值后,再决定是否存储这部分数据,等待其价值在未来被进一步发掘。
如何在信息时代保持“数据利用”与“数据安全”的利益平衡,是包括计算机科学与技术在内的各学科都需要持续研究的重要课题。计算机科学与技术领域更偏向以“术”的方式解决敏感数据的隐私(privacy)保护问题,同时确保数据的可用性(utility)和处理效率(efficiency)。基于不同的技术路径,计算机科学与技术领域发展出多种隐私保护模式,所依据的理论基础包括数据分离、数据干扰、安全多方计算、硬件增强和访问模式隐藏等。然而,主流的隐私保护路径均存在一定的技术局限性,以数据干扰为例:通过数据匿名的方式处理数据可能导致数据失真,从而影响数据的准确性和可用性。
技术层面的探索从未停止,一个经济成本低廉、数据损耗微小、保护方案通用、安全等级更高的数据处理框架是技术工作者不断前进的目标,技术的进步将为数据规制提供更广阔的立法空间。
在互联网经济与平台经济大行其道的背景下,《中华人民共和国民法典》(以下简称《民法典》)贴合时代发展之需,在第127条规定了数据保护问题。然而,《民法典》未能对数据的法律属性以及如何保护数据相关权益等问题作出明确规定,而仅提出“法律对数据……的保护有规定的,依照其规定”。《民法典》的引致性规范本身不具有可操作性,而是将数据保护的相关内容引向《数据安全法》等随后出台的法律文件。《数据安全法》第3条首次在法律层面对数据的概念进行了完整的界定,认为数据“是指任何以电子或者其他方式对信息的记录”,同时还以列举的方式阐明了“数据处理”的外延。这种定义方式相当简洁,且与上述其他领域学者提出的诸种定义存在些许差别:《数据安全法》对概念的界定更关注数据的实质,即数据承载的信息。数据本身是对信息的一种记录,反向观之,不承载信息或承载无意义信息的数据似乎并非法学学科研究和关注的对象。此外,与计算机科学与技术或图书情报学科不同,法学领域对于数据概念本身鲜少存在分歧与偏差,学者的关注点更多集中于数据与信息等概念的联动,以及在数据基础上衍生出的法益、法律行为、法律关系等。对数据概念的不同结论可能源自不同学科不一致的概念体系或不统一的选择标准,这是正常的学术现象,并无对错之分。
传统的民法财产权体系以物权和债权的二元划分为基础,作为现代社会新兴产物的数据能否融入其中,也即数据能否成为民法中的客体,进而具备财产属性,是开展数据处理和开发利用、保障个人和组织合法权益的前提性问题。“数据产权”等概念是在数据交易的发展过程中被嗣后提出的新兴概念,并不具有先验性,因此,这一概念本身并不能为数据在民法上的客体地位和财产属性提供依据。因此,有必要重新检视数据的民法上的客体地位与财产属性。
其一,数据是否具有独立性?数据以字符形式存在于媒介之中,其存储、传输与呈现均需要通过媒介来实现,正如前文所述,数据对媒介具有相当程度的客观依赖性。但是,这并不代表具体的数据或数据之集合难以与其他数据或其集合相区分,数据或其集合本身的价值也并非由现实媒介的价值所决定或受其影响。有观点认为,正如报纸、书刊等媒介无法成为知识产权的客体,作为媒介的数据同样也不能作为信息权的客体。
此种观点忽视了数据是形式与实质统一的客观事实,在对数据概念的理解上存在偏差。该观点仅将数据视为一种机械的形式,将数据与其所承载的信息人为地割裂开来,其准确性有待商榷。此外,正如文字作品这一智力成果需要造纸厂所造纸张、印刷厂的印制等客观的物质支持一样,数据的媒介也只是数据存在的必要支持条件,且现代社会已经能够以较低的成本满足这些条件。因此,数据对媒介存在一定程度的依赖并不能据以否认数据具有相对的独立性。
其二,数据是否可以为主体所支配且排他享有?与传统客体相比,数据在流通和共享方面更为便利和快捷。理想状态下,数据的部分内容甚至可以无损复制和传输,并由多主体分别占有。这些特性表明数据可以由主体所支配,但似乎无法满足排他享有的条件。其实不然:数据自产生后,其和外部网络空间的交互与否完全由主体所控制,主体牢牢把控着数据交流的“阀门”和具体流向,这种控制权正是数据立法所力图保障的重要法益之一。数据的特殊之处在于,数据的处分并非体现为物理层面的交割,而是体现为对其他主体的许可使用。
还需注意的是,尽管数据传播之后很难恢复到仅由某个或某些主体占有的状态,例如被发布到公共网络空间的个人数据将会由不同的网络运营商和网站主所保存,很难通过某种技术手段被彻底删除,但这并不意味着主体无法实现对数据的支配和排他享有。以著作权为代表的知识产权,作为已经被立法保护的客体,尚无法完全杜绝仿制、仿冒产品的存在,数据作为一种客体或新兴财产形态,也只是在法益保护中存在技术上的困境。通过技术上的断开链接或法律上的侵权主张等方式,可以在一定程度上缓解这种困境,从实质上实现主体对数据的支配与排他享有。
其三,数据是否具备经济价值或效用?关于数据之经济价值或效用的论证与数据可受支配且排他享有密切相关。可以试想这样一个虚构的世界:任何主体都可以获得任意的数据,数据如同空气一般无法为特定主体支配或排他享有,数据在这一世界中自然也就同空气一般不具有经济价值。然而,回归现实世界可以发现,数据资源或者说庞大数据中具有意义的那一部分数据在市场中是稀缺且具有效用的。这种稀缺性不仅源于数据的处理受到技术壁垒和现实物质条件的制约,也源于控制数据的主体为最大化获取数据的价值,人为地推动数据的隔绝与垄断,即所谓的“数据孤岛”。此外,跨学科视域下的结论可能更为清晰。随着计算机技术的发展和人们对市场规律的认识深化,数据在商业和政务实践中早已大放异彩,例如,平安银行通过数据分析建模开发的SAFE智能反欺诈系统可以提前预警银行卡欺诈行为,人民网、澎湃新闻等媒体以数据可视化的方式发布新闻报告,甚至数据分析行为本身也衍生出数据分析师、精算师等新兴职业。如今,作为核心生产要素之一的数据已经成为商业分析的重要资源,受到生产、消费各领域的普遍青睐,数据所具有的经济价值已不言自明。