大数据应用的领域和用于大数据的数据非常多样化,应用例证从植树造林和森林保护,到零售中的欺诈防范。 本节讨论使用大数据的三个领域:金融、医疗保健行业和线上个性化。它们的双重目的是说明前几节的理论如何在实践中发挥作用,并在应用领域和大数据使用的数据类型方面显示多样性。之所以选择金融、医疗保健行业和线上领域的例子,是因为它们以不同的方式影响人们的个人权利和自由,并涉及以各种方式处理个人数据;当然,它们并不代表所有的大数据项目。 这些实例表明,大数据可以看作是一个由不同阶段组成的流程。这一流程观有助于大数据的法律分析(本章第四节的主题)。此外,它们还展示了大数据涉及不同的社会利益,并呈现了一系列积极影响和负面影响,这些将在第五节大数据对个人权利和自由影响中进行讨论。接下来的三个部分将简要描述金融、医疗保健行业和线上个性化的例证,并给出三个实际案例,随后将更详细地介绍流程论的观点和大数据对个人权利和自由的影响。这三个案例也可以作为本书整体研究的例证。
在金融服务行业,银行或信用卡公司等贷款机构需要预测相关主体清偿债务的可能性。贷款机构的预测能力越强,损失的资本就越少,向潜在客户提供的贷款就越有竞争力。贷款人可以在决定是否向个人提供贷款之前,询问其收入、未偿还债务以及婚姻状况等情形,贷款人亦可依靠分配给个人的信用评分作出决定。 [16]
大数据为信用评分创造了新的机会,因为“所有数据都是信用数据”。 有关个人的数据可以从多种渠道收集,比如社交媒体或手机应用程序。由于数据存储和处理能力的提升,在信用评估中可以考虑更多因素。此外,信用评分模型可以通过大数据变得更加复杂和详细。大型数据集可以被用来分析随机变量(及其组合)与贷款违约之间的相关性。这种分析不限于个人本身的数据;其他人的数据,例如以前的客户或已知的贷款违约人,亦可被考虑在内。其他人的历史和数据可以用来对潜在的新客户作出更准确的预测,并预测未来的事件。地址或看似无关变量的组合,比如某人车的颜色、偏爱某些品牌的沐浴露、每周在网上度过的时间,都可能影响对贷款违约可能性的预测,因为类似的模式已反映在先前违约者的数据之中。在传统的信誉度方法中很难看到这些因素和模式。它们被归类为相关性,表明两个变量之间存在联系,如较低的信誉度和个人特征。因此,它们并不涉及因果关系,即较低的信誉度并不(必然)是由这些特征造成的。
基于大数据的信用评分在实践中会产生许多不同的效果。预测和风险评估基于多个组合模型和大数据集中的潜在相关性作出。 随着更多的因素和相关性被考虑在内,那些通常会被拒绝抵押贷款的个人可能会因为大数据预测而被接受。例如,一个背负大学债务的人可能会得到一个正面的信用分数,因为他的分数不仅基于未偿债务,而且基于许多数据点,包括在个人申请之前的数据集中发现的相关性。当然,情况也可能恰好相反。那些有收入且无负债的人可能会得到更高的利率或者根本得不到贷款,因为那些看起来与信用风险无关的因素与未来的贷款违约可能性相关。
ZestFinance、Kreditech和Big Data Scoring等公司已经在实践中应用了基于大数据的信贷服务。 ZestFinance利用“成千上万的数据节点和先进的机器学习算法”,帮助金融服务行业的客户更好地预测谁会拖欠贷款。 所使用的数据既来自申请人本人,也来自第三方。 其目的是通过大数据使更准确的预测成为可能,从而提升效益。为了达到这个目的,从不同的来源收集数据,并使用先进的数据分析技术进行分析。然后,根据人们与信贷公司共享的有限信息,将分析的结果应用于他们,这些人不一定是收集数据的唯一来源。因此,数据的获取、分析以及分析结果的应用可以被视为大数据的独立阶段。每个阶段对个人权利和自由都有影响,并且每个阶段在欧盟隐私和数据保护法律框架中都有不同适用,下文对此将展开进一步阐述。
由于医疗状况千差万别,全科医生能够处理的病人数量有限,专科医生处理的病人数量也较为有限,他们关注的是特定的医疗状况;研究人员的研究对象通常也较为有限。因此,他们对人口整体的观点受限,对哪些因素(如基因组成)治疗或其他药物的使用或生活方式是否影响人们患病,以及对一个特定的治疗是否成功的理解同样受限。大数据以生物银行的形式,汇集了来自不同从业者和机构的相关因素的信息。这为医学的进步创造了丰富的资源。通过将来自全科医生、专科医生和研究人员的数据与来自其他渠道的数据结合起来,并使用大数据分析,可以揭示出在较小数据集中不可见的模式。例如,一个全科医生给很多人开了一种药,但只有一个人有严重的副作用,通常不清楚为什么这个人会有副作用。当可以从某一特定人群中的每一个服用该药的人身上均获得大量数据时,大数据可以用来发现影响或导致副作用的因素,如遗传因素或与其他药物的相互作用。 [17] 当数据被实时收集、更新和分析时,就有可能快速发现并响应,比如发现已上市药物的未知负面影响。
医疗保健领域有许多问题(从最佳治疗方案到有效预防)需要解决。在寻求改进和探知解决方案方面,大数据被寄予厚望。大数据被认为可以促进疾病的研究、治疗和预防,并降低医疗成本。 寻求这些改进的方法之一是生物银行。生物银行是存储生物材料和(临床)数据的大型储存库。这些数据和材料可以连接到其他数据,例如政府行政登记中的民事登记簿或病理登记簿。在欧洲,有许多不同的生物银行项目,其中一些由国家设立并由政府机构运作, 另一些是基于志愿者的慈善机构, 还有一些主要是医院(学术机构)之间的合作。 制药和生命科学行业也建立了生物银行的商业计划,用于公司内部研究或其他目的。个人基因组公司23 and Me就是一个例子,该公司为消费者提供个人基因组测试。 个人向该公司提交他们的DNA,以获得100多种健康状况和遗传特征的信息。同时,该公司利用个人数据建立自己的生物银行。第三方可以在付费并满足一定条件的情况下访问该生物银行。 [18] 因此,每个生物银行的宗旨、目标参与者和收集的数据各不相同。
生物银行中丰富多样的数据集也被用于研究疾病的起因。有了关于个人遗传和生理特征、生活方式及环境信息的数据,就可以发现这些变量和特定医疗状况之间的相关性。例如,可以确定与阿尔茨海默病等疾病的流行程度或罹患某种特定癌症的可能性有关的标记物。这些发现刺激了个性化医疗的发展,个性化医疗是针对个人的(有效)治疗,而不是针对整个人群,这样更合算,效果也更好。 [19] 大数据揭示的知识支持疾病的预防和治疗,防止不必要的治疗带来潜在的副作用。最终,大数据通过推进医药科学和降低医疗成本来帮助社会。虽然大数据在生物银行中的大部分应用和成果在短期内不会为人所知,并且通常不会被公开归功于生物银行,但通过它们的使用已完成了不少发现。 例如,通过英国生物银行发现了罕见的梅尼埃病(又名内耳眩晕病)的起源和发展、生活方式可以减少中年妇女罹患乳腺癌的风险、父亲的糖尿病和新生儿低体重的联系表明在日后的生活中患上各种疾病的风险更高。
很多人在人生的某个阶段都会经历前个例证中描述的大数据,但有一个大数据的例子已经直接影响了许多欧洲人:个性化的线上体验。人们在网上看到的东西,无论是工作的、实用的,还是娱乐的,都是根据他们所在的位置、时间、工作内容和身份等情况进行调整的。没有一个互联网对所有用户都是一样的;我们的线上体验以不同的方式为我们量身定制。
基于大数据的网络个性化的一种普遍形式是行为广告。行为广告,也称为行为定向,指的是实践中个人被展示定位于其本人的线上广告,这种广告基于其已知信息,如位置、浏览历史、兴趣,或设备的特点和用于查看网站的浏览器等额外信息。 [20] 网站上的广告通常不是由网站本身提供,而是由第三方提供,如广告网络或广告交易平台。这些网络收集大量关于个人的数据,例如,关于网页浏览行为、网页访问、人口统计、社会联系以及位置的数据,这些数据可以作为个人画像和预测个人行为的基础。 [21] 当一个用户被识别时,通常是通过Cookie, 广告网络根据它所拥有的数据以及关于对这一特定用户有效的预测,为其量身定制广告。另外,实时竞价也可以为广告服务。在几毫秒内,多个(相互竞争的)广告网络和其他各方之间的自动竞价就完成了,在此之后,获胜者将把广告提供给访问者。 [22] 除了在多个不同的网站上看到相同的广告,或者用户看到的广告使用的是自己的母语(而不是自己访问的网站使用的语言),用户不会注意到大量的收集、分析和进一步的处理是在幕后进行的。
网站的行为广告远非基于大数据的线上个性化的唯一手段。个人数据、模型和预测不断被用于优化和调整人们看到的内容,以吸引个人访问者,保持他们的注意力,提供个性化服务,从而获取更大的收益。用户通常会不知不觉地进入线上体验,他们浏览的页面布局与其他访问者略有不同,因此,该服务可以了解促成用户点击或购买的细微差别。 在网上,我们被不断地分割成不同的群体,接收不同的内容,因为“个性化胜过普遍性”。 [23] 谷歌等搜索引擎创建了复杂的算法,将用户的位置数据和搜索历史考虑在内。 [24] 脸书(Facebook)等社交网络将人们在他们的新闻推送中看到的内容个性化,这些内容基于大量的数据,包括用户和他们的网络如何与内容互动的数据。 网飞(Netflix)等娱乐平台和亚马逊(Amazon)等电商平台为下次观赏或未来购买提供个性化推荐, 新闻网站则根据浏览者的不同而改变页面。 许多人都知晓行为广告或个性化产品建议等现象,但实际的个性化往往对用户来说是不可见的,在日常的互联网使用中,人们通常不会琢磨其获取的信息与他人收到的信息有何不同。
总而言之,人们发现自己身处一个以无数(个人)数据流为基础,并通过许多微小方式来实现个性化的数字王国。这使得公司能够对个人进行分类和定位,节约资源,提高效率。这对个人也有助益,在信息过载的时代,为他们提供更感兴趣的内容。 基于大数据的个性化将会继续存在。