大数据在医疗卫生行业的应用面临来自不同方面的挑战。根据我们的观察,这些挑战远远超出了技术领域,主要包括以下几个方面:
❑ 意识问题,即是不是能够充分认识到数据服务的必要性、复杂性和迫切性。可能还有些企业用户在设计信息系统的时候在沿用过去的思路和方法,这可能就是缺乏这样的意识。电子商务及移动互联网的发展势头迅猛强劲,如果没有前瞻性思维,一旦医疗数据暴涨,数据服务需求增长,我们很可能无法应对。
❑ 人才问题。目前我国大数据方面的人才还是比较匮乏,真正掌握这个技术的公司、人员少之又少。希望有实力的公司、企业积极推动这项技术在医疗领域的应用,同时带动大数据的发展和人才的培养。
❑ 业务应用模式的探索。很多企业对医疗业务不熟悉,无法真正发现医疗中运用大数据的关键业务,从而制约了大数据的发展。
医疗大数据面临着不同的挑战,如果不能客观地认识到这些挑战,将影响大数据的应用。
大数据真的大吗?在很多应用中我们可以收集或接触到大量的数据,如一个医院过去10年所有乳腺癌患者的数据,对于大中型医院来说,这个数据量有可能超过1万例,从这个方面来说,我们确实有了关于乳腺癌的大数据。但如果按照癌细胞的分子表达式对这些乳腺癌病人分类,我们一般把乳腺癌分成ER阳性、HER2阳性或三阴性,那么每一个乳腺癌亚型下的病例数就只有几千例了。比如三阴性乳腺癌在统计上占所有乳腺癌人群的10%~15%,那么可能只有1000~1500例三阴性的病例。病例的减少意味着统计效能的下降,虽然这种下降不一定会造成大数据分析失效,但是我们需要检查这样细分后原先设计的大数据模型是否还有足够的统计特性以找到某个乳腺癌亚型的规律。因此,保持数据量足够大和达到足够细的临床分类往往是两个需要取舍的目标,在数据不可能无限大的前提下,通常需要在两者之间取得某种平衡。
医疗大数据的一个突出特点是数据的多样性,这里的多样性指的是原始数据和衍生数据的生成过程是多样的。原始数据(如核磁共振和CT图像)有可能来自不同品牌的设备、不同类型的造影剂、不同的参数;衍生数据(如对CT图像上病灶的勾画、对肿瘤大小的测量等)依赖于人工的输入,而这是一个容易产生差异的环节。对于这一类的多样性,如果我们不能很好地在后续分析中考虑它们的影响,往往会导致大数据分析得到不准确的结果。医疗大数据多样性的特点在实际应用中是一个挑战,如果我们的分析不能照顾到数据的多样性,那么分析结果有可能会有偏差。假设设计开发了一个基于核磁共振的图像自动检测肿瘤的大数据技术,如果所用的核磁共振图像的尺寸都是1mm×1mm的,那么这个技术对于其他尺寸的核磁共振图像不一定适用,或者效果会有所下降。
数据是有时效性的,或者说数据具有生存期。虽然我们可以把数据看作存储在计算机里的数值并可以永久保存,但数据是有时效性的。此处数据的生存期并不意味着过了某个时间点我们就把某些数据丢掉,而是指数据对我们想要回答的问题在时间上有一定的适用期。举一个简单的例子,如果一个地区的健康保险从某年以后开始报销一种慢性病检查的费用,那么我们有可能会发现这个地区从这一年后得这种慢性病的人数有了较大增加,但这种增加很可能不是因为真的有更多人得了这种病,而是有更多人因为保险中包含这项检查,在检查过程中发现患有这种病。在这个例子里,该地区在保险政策改变之前,关于这种慢性病的数据就有一个生存期,在此之后,这些数据对该慢性病的研究就没有了意义。这一点说明在使用医疗大数据时需要考虑多方面的因素。
在医疗大数据方面,如同在其他领域的大数据一样,我们可以认为大数据的价值在于,如果不能从数据中得到信息,或者不能依据信息指导或改变我们的一些行动,那么这样的大数据分析就没有起到任何作用。