“健康大数据”目前尚没有通行的定义。在界定该概念之前首先介绍“健康数据”和“大数据”的定义。
我国官方文件中与“健康数据”最为接近的定义是“人口健康信息”。2014年国家卫生和计划生育委员会(现为国家卫生健康委员会,以下简称国家卫计委)在《人口健康信息管理办法(试行)》中对“人口健康信息”进行了定义:人口健康信息是指依据国家法律法规和工作职责,各级各类医疗卫生计生服务机构在服务和管理过程中产生的人口基本信息、医疗卫生服务信息等人口健康信息。参照“人口健康信息”的定义,“健康数据”主要是指个人免疫、体检、门诊、住院等健康活动所产生的数据。
被广泛参照的欧盟《通用数据保护条例》(General Data Protection Regulation,GDPR)在第4条第15款中定义了健康数据:与自然人的身心健康有关的个人数据,可以表明数据主体在过去、现在或未来的身体或心理健康状态的信息。
综合以上定义可以发现,健康数据与个人健康状况相关,与个人医疗保健活动相关。健康数据包括各种个人健康状况数据,如病史、医学意见、诊断和临床治疗、体格检查数据、测试结果、医疗设备数据,也包括个人在享受医疗保健服务时产生的各种数据,如在注册或获得治疗时提供的个人信息,以及有关医疗项目的提醒、消费记录等。随着可穿戴设备等物联网智能产品的普及,广义上的“健康数据”还可延伸至个人使用健康医疗移动应用而产生的数据; 狭义的“健康数据”则以卫生服务机构的数据为主。因此,本书中的“健康数据”采用广义定义,如果描述狭义的“健康数据”则用“医疗数据”。
被广泛传播的“大数据”定义是由知名咨询机构麦肯锡给出的:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。 随着“大数据”一词使用范围不断扩展,它已经不仅仅是指数据集,也指一种数据收集、处理和应用相关的技术解决方案。
2018年,国家卫生健康委员会(以下简称国家卫健委)出台的《国家健康医疗大数据标准、安全和服务管理办法(试行)》是中国医疗大数据发展史的一次“里程碑”。该办法第四条规定“本办法所称健康医疗大数据,是指在人们疾病防治、健康管理等过程中产生的与健康医疗相关的数据。”该官方定义将健康医疗大数据视为数据集,而且将“健康”和“医疗”合并使用。广义的健康数据包括医疗数据,因此健康大数据也包括了医疗大数据。
如“大数据”定义所述,大数据不仅仅是数据集,也是一种数据收集、处理和应用的技术解决方案,因此本书定义“健康大数据”为,既指大规模、结构复杂或更新速度快的健康数据集合,也指应用大数据技术对健康数据集合进行分析挖掘的一种技术解决方案。