下面我们介绍一个大数据在医疗实践中揭示药物之间相互作用的实例。众所周知,很多药物都有副作用,在临床上,医生为病人开药时都尽可能地考虑这些副作用,生产厂家也会把副作用标注在药品说明上。但对于药物之间的相互作用我们缺乏细致的了解,这一方面是因为药物的不同生产厂家没有这方面的资料,当一种药物被批准生产的时候,审批单位只是对这种药物本身的安全性和有效性进行评估,而不对这种药物是否会与其他药物产生相互作用进行审查;另一方面是因为两种或两种以上药物的组合是一个很大的数目,单一的厂家或医疗机构不可能对所有药物的组合进行研究。药物间的相互作用是一个不可忽视的问题,原因在于有很大比例的人口使用两种或两种以上的药物。以美国为例,全国70岁以上的人口平均使用7种药物,而这些药物又有可能是不同的医生为同一个病人开的,这就增加了药物之间可能产生相互作用的概率。
斯坦福大学的研究人员从美国食品和药品管理局(FDA)的一个公开的关于单一药物副作用的数据库出发,利用大数据对药物间的相互作用进行了研究。这个数据库对病人的信息进行匿名化处理,数据库本身只包含了3列数据,分别是药物的名称、针对的疾病和使用者反映的副作用。当研究人员用大数据对这些药物进行分析时发现了一个规律,就是如果一个病人同时使用抗抑郁药Paroxetine和降胆固醇药Pravastatin,其血糖会有所变化,而这两种药物单独使用时都没有改变血糖的作用。进一步的分析发现,同时使用这两种药物会造成血糖上升,但由于FDA的数据库是匿名化的,研究人员没有办法进一步地了解病人的具体信息,比如说病人是不是本身就是高血糖人群。于是,研究人员把目光转向斯坦福大学医院自己的数据库,从医院的电子病历中找到了11个同时使用以上两种药物的病人,并且有使用药物前后两次的血糖检测结果。对这些病人的详细分析显示了这些人本身并不是糖尿病患者,从而在一定程度上证实了研究人员最初的发现,即同时使用这两种药物会造成普通人群的血糖升高。但仅从11个病例就得出这个结论,样本数会不会太少了?于是,斯坦福大学的研究人员又联系了范德比尔特大学和哈佛大学的附属医院,从范德比尔特大学获得了30例符合条件的病例,从哈佛大学获得了100例相似的病例。对这141例病例的分析表明,同时使用以上两种药物会导致血糖平均升高20mg/dl,而且这个升高的结果具有统计学上的显著性,从而证实了上面的发现。那么20mg/dl具有多大的临床意义呢?我们可以和通常采用的临床指南相比较:在空腹情况下测量的血糖一般低于100mg/dl为正常值,100mg/dl~125mg/dl被归为早期糖尿病,而高于125mg/dl则被归于糖尿病。由此可见,20mg/dl的升高在临床上是有意义的,它可能导致病人出现糖尿病症状。
为了进一步验证上述结果是否能在大量人群中被观察到,研究人员和微软公司合作,分析使用了以上两种药物的人是否通过互联网来搜索与糖尿病相关的词条。这背后的理由就是在互联网时代,如果人们感受到了某种健康上的反应,他们很可能会就自己关心的症状去网上搜索。研究人员首先挑选了50个与糖尿病密切相关的词条,如疲劳、口渴、头晕、行动迟缓等,然后统计了只搜索Paroxetine和以上50个词条的频率、只搜索Pravastatin和以上50个词条的频率,以及同时搜索Paroxetine和Pravastatin及以上50个词条的频率,发现第三种搜索的频率是前两者的10倍,从而从另一个方面说明了同时使用Paroxetine和Pravastatin的病人更容易感受到糖尿病的症状,虽然他们本人还不一定意识到这是血糖升高造成的。
从以上实例我们可以看出,研究人员对大数据的应用是一个发展变化的过程,先是从FDA的大数据库中发现一个可能的规律,然后从自己的医院和合作者的医院提取详细的数据来验证这个规律,最后又通过互联网上的数据来证实这个规律。在这个过程中,研究人员利用了三方面的数据来源,其中研究人员特意保证了数据的客观性,即在公开发表研究结果之前,他们先完成了在互联网上对人们搜索Paroxetine和Pravastatin副作用的统计,这样做的目的在于防止在他们的结果发布后,人们可能会出于好奇或对自身健康的关心而去互联网上搜索,从而人为地造成搜索量的增加,导致研究结果出现偏差。