健康数据类型多样,有多种数据来源,具有不同的结构和形式。而且这些数据归属复杂,有的由医疗卫生机构控制,有的由医疗管理机构控制,有的在多个机构都有备份。结合我国的实际情况以及本书的研究目标,健康大数据来源主要分为七类(见图2-1)。
图2-1 健康大数据主要来源
医院和基层医疗卫生机构及专业公共卫生机构的数据是健康大数据最重要的来源,其数据质量较高,专业性强。这些数据具有重要的价值,即便记录不完善或不准确的数据,都可能隐藏了有待发掘和利用的重要医学信息。
区域健康信息平台(有的省区市也称为区域人口健康信息平台或者区域卫生信息平台)的数据越来越丰富。这些平台大多由卫生健康部门主导建设,集中了区域内医院挂号、治疗、住院等信息。不过各省区市发展水平参差不齐,大多只是实现了数据的集中,并没有实现整合。
我国医保覆盖范围广,截至2018年末,基本医疗保险(包括城镇职工基本医疗保险、城镇居民医疗保险、新型农村合作医疗)参保人数达134452万人,参保覆盖面稳定在95%以上,而且医保数据正在进行全国范围的集中,不仅数据量大,而且相对来说标准更为统一,更便于进行大数据挖掘。
随着可穿戴技术和物联网的普及,个人健康医疗智能终端收集的数据量正在经历爆炸式增长。 尤其在健康领域,通过可穿戴技术和物联网收集了大量的健康数据,并直接传输到云端,成为健康大数据重要组成部分。但是这些健康数据的使用存在不少问题,一方面,这些数据被不同的设备制造商控制,难以有效整合;另一方面,这些数据并非来自专业检测人士进行的检测,数据误差较大。
近年来体检中心蓬勃发展,美年、爱康国宾、瑞慈等企业市场争夺激烈,布局迅速,积累了大量的用户健康数据。体检中心的数据质量较高,具有较大的开发价值。
基因数据作为遗传信息的载体,能提供有关自然人的生理或健康的独特信息,相当于人的底层代码,具有极其重要的价值。21世纪初进行单人的全基因组测序需要耗资100万美元,而且只有个别机构有实力完成此项工作。2019年,单人的全基因组测序只需几百美元,大量的公司能提供此类服务。技术的进步和行业竞争的加剧使得基因测序价格不断下降,测序人次呈指数增长,基因数据的规模急剧增长。而且,单人的全基因组测序数据量就超过100GB,人工难以利用这一海量数据,唯有大数据技术可以快速分析。基因大数据产业生态正在日益形成。