数据,看不见、摸不着,但我们每个人早已身处数据海洋之中,日常点滴汇聚成经济社会运行中的数据要素。2023年年底,我国数据生产量已经超过32ZB,这表明中国已经成为全球数据大国。万物互联时代,同一个数据不仅可以重复用于不同场景且不会损耗,还可以发挥“乘数”效应,规模效益巨大,这就是数据要素区别于土地等其他要素的特性。数据作为新型生产要素的最大优势,就如同数学算式上从一级运算跨越到二级运算,数据要素带来的是指数级别的倍增。数据要素将与产业相互促进、相互激发,迸发出中国数字经济蓬勃发展的动能。
通过对数据进行细致的整合和分类,数据要素可以提升数据分析的准确性和深度。 一方面,数据拆分成更小、更具体的要素,可以使数据的含义和关联更加清晰。 通过对数据要素的细分,可以更准确地描述和记录数据,从而提高数据分析的准确性。企业在市场调研中,将调研数据拆分成不同要素,例如,受访者的年龄、性别、收入水平等,可以更准确地分析出不同人群的消费偏好和购买行为。 另一方面,数据要素有助于揭示数据之间的关系,从而提供更深入的数据分析。 对数据要素之间的关系进行建模和分析,可以发现数据中的潜在价值和趋势,进一步深化对数据的理解,提高对数据的利用率。在社交媒体分析中,抖音、小红书等社交媒体平台将用户数据拆分成各类要素,例如,用户兴趣、关注话题、社交关系、消费习惯等。企业通过分析这些要素之间的关联,对用户的兴趣爱好、社交影响力和消费能力进行量化,为精准的个性化推荐和广告提供依据。
数据要素的关键在于对现实社会、科技、经济等领域的模型进行量化,从而精准地理解用户的个性化需求、兴趣和偏好。一方面,通过对用户数据进行要素化处理,绘制用户画像,深入了解用户兴趣、需求和行为特征。基于用户画像,精准向用户推荐符合其兴趣和偏好的内容、产品或服务。例如,淘宝、拼多多等电子商务平台,根据用户的购买历史、浏览行为等,向用户推荐符合用户特点的商品,提高用户购买的准确性和满意度。另一方面,数据要素能够根据不同用户的需求和关注点,深入分析其感兴趣的数据要素,提供定制化的数据洞察报告。
数据要素在医疗行业也得到了广泛的应用。通过对海量的影像数据、患者报告数据、电子健康记录和教学数据等进行数据要素化,通过人工智能模型能够从复杂的数据中较为精准地提取出有效的信息,为医学诊断、药物研发、诊断预测等方面的研究提供高效的技术支撑。同时,医生能够根据个人的身体指标、既往病史、生活习惯等信息,提供个性化的健康建议、预防措施和治疗方案,帮助个体实现更好的健康管理。
通过将数据拆分成各类要素,实现数据的标准化、互操作性和可组合性,从而促进不同领域的数据集成和共享,实现数据的高效利用。
一方面,数据要素使不同领域的数据能够进行有效集成和共享。 通过将数据拆分成各类要素,定义统一的数据标准和格式,确保数据在不同领域之间的互操作性。 另一方面,数据要素使不同领域的数据的集成和链接成为可能。 将来自不同系统和领域的数据进行集成,形成全面且综合的数据集。例如,在实际应用时,将社交媒体数据、消费数据和地理数据等要素进行集成和链接,可以得到更全面的用户画像和消费行为分析,为个性化推荐和市场研究提供精准和深入的洞察。
数据要素为数据的共享和开放提供了基础。例如,在国家层面,将政府公开的人口数据、统计数据、交通数据、气象数据等进行要素化处理,支持各领域开展科学研究和创新应用。同时,对敏感信息进行匿名化和脱敏处理,实施数据访问控制和权限管理,确保数据的隐私性及在跨领域集成、共享和开放过程中的安全性。
数据要素之所以能够促进智能决策和创新发展,关键在于可以提供全面、准确和可信的数据,并能利用数据要素进行高效的数据分析和挖掘。 一方面,数据要素使预测和优化成为可能。 通过对历史数据进行分析,建立预测模型和优化模型,帮助决策者预测趋势,并优化决策和分配资源。例如,在消费市场中,通过对销售数据、市场趋势、季节性要素等进行分析,可以预测产品需求,优化库存管理,做好供应链规划,提高收益和用户满意度。 另一方面,数据要素为创新打下坚实的基础。 对数据要素进行分析和挖掘,可以发现新的关联、趋势和模式,为创新提供启示和支持。例如,在科学研究领域,通过对实验数据、文献数据、基因组数据等要素进行分析,可以发现新的科学规律和发展方向,推动科学创新发展。
通过对数据要素进行建模和分析,可以构建智能系统和自动化决策引擎,实现数据驱动的决策过程。例如,针对城市道路交通拥堵问题,通过对交通流量参数、环境状态、时段等基础数据进行要素化分析,实现自动调整信号灯配时,优化交通流量,减少交通拥堵,不断提高交通通行效率。
数据隐私和安全风险的保障问题是数据要素发展中的第一个挑战。随着数据大规模增长和数据要素自动化、智能化处理,个人隐私、商业机密将面临越来越大的安全风险。
如果数据要素没有得到适当的保护,非法攻击者、内部人员或其他未经授权的人员可能会获取敏感数据,导致个人隐私曝光、商业机密泄露或其他潜在的不良后果。例如,2017年,信用评级机构Equifax遭受了一次大规模的数据泄露,导致约1.4亿人的个人信息被盗取,造成巨大的经济损失和不良影响。
当商业数据或个人敏感信息被滥用时,容易发生身份信息被盗、诈骗等恶性事件,滥用数据的人可能利用这些信息进行非法活动或非法牟利。在现实世界里,某些公司未经用户同意就收集个人数据,将其用于广告定向投放或销售给第三方公司,侵犯了用户的隐私权。例如,2018年3月,Facebook曝出剑桥分析公司数据泄露事件,剑桥分析公司将未经授权收集的近8700万Facebook用户的数据(包括用户姓名、好友列表、居住地、工作及教育情况等个人信息),用作对选民行为分析,遭到广大用户的投诉,被美国联邦贸易委员会调查。
数据要素的篡改可能导致信息的不准确和失真。非法攻击者或内部人员可能修改数据,以达到欺骗、破坏等目的。在金融行业,交易数据如果遭受恶意篡改,可能会造成金融市场的混乱和不可预测性。
数据要素的发展需要严格遵守法律法规。随着数据保护力度的不断加大和相关法律法规的不断出台,各组织需要认真遵守并合规执行。2020年,欧盟委员会对Orange公司处以2.2亿欧元的罚款,因其未能遵守通用数据保护条例(General Data Protection Regulation,GDPR)中规定的对用户数据保护的相关要求。
确保数据的质量和可信度是数据要素发展中的第二个挑战。一方面,在数据要素生命周期中,数据往往来自不同源头,并且不同数据源之间的定义、格式和标准也会不同,这将影响数据要素的一致性。另一方面,数据要素也存在不完整的情况,即数据缺失或缺乏必要的属性信息,这将导致数据分析的局限性和结果的不准确。
数据要素来源多样,包括第三方数据提供商、社交媒体平台等。然而,不是所有的数据来源都是可信的,平台也存在虚假信息或不准确的数据,如果这些数据被用于分析或决策,难免会使决策者得出错误的结论。
数据壁垒和拥有权问题是数据要素发展中的第三个挑战,其争议出现在不同的层面,包括数据访问、数据共享和数据所有权。
第一,数据访问壁垒问题随着数据要素的发展而出现。某些数据受到访问限制,只能由特定组织或个人访问和使用,这会导致其他利益相关方无法获得所需的数据,进而限制了数据的广泛应用和共享。第二,数据要素会受到数据共享限制的影响。当下,某些组织拥有庞大的数据,并希望保持对数据的独有,不愿与其他组织或个人共享,这会出现“数据孤岛”。第三,数据要素也会引发数据所有权的争议。多个组织或个人同时声称对某个数据要素拥有所有权,导致所有权归属不明确,这可能涉及数据的商业价值、知识产权和法律责任等方面的问题,因此确定数据所有权尤为重要。
核心技术和人才资源是数据要素发展中的第四个挑战,而这个挑战是不可避免的,并且会影响数据的有效管理、分析和应用。随着数据规模和复杂性不断增加,组织需要应用新技术来分析处理大规模数据。然而,新技术往往具有复杂的集成和实施要求,这对组织的技术能力和基础设施提出了挑战。在实际应用中,大数据和人工智能技术往往需要高性能的计算资源和专业的技术团队才能对数据实现驾驭。
数据要素对技术人才的需求不断增加。组织需要具备数据科学、数据工程和数据分析等领域的专业人才来分析处理数据,同时,企业也都在争夺数据科学家和机器学习专家等高级技术人才。然而,市场供应的人才数量有限,技术人才供不应求。
法律和伦理道德问题是数据要素发展中的第五个挑战。一方面,组织或个人可能对所产生的数据和数据分析结果主张所有权,从而引发数据所有权和知识产权的争议。另一方面,数据要素的发展需要组织确保数据符合法律法规的要求。例如,我国2020年颁布的《信息安全技术健康医疗数据安全指南》(GB/T 39725—2020),给出了健康医疗数据控制者在保护健康医疗数据时可采取的安全措施;美国1996年颁布的《健康保险可携性和责任法案》提供了医疗保健行业数据信息隐私和安全框架,以保护个人的健康信息免受未经授权的访问和泄露。
数据要素的快速发展引发了数据安全和责任归属问题,组织需要采取适当的措施保护数据安全,以防止数据泄露、未经授权访问和恶意攻击。此外,组织也需要承担保护数据安全的责任,尤其是在数据泄露事件发生时涉及的法律指导、敏感数据治理等。