购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

潜在的区块链解决方案

可笑的是,政府似乎是唯一可能站在大数据对立面的一方。调查表明,这些科技公司具有潜在危险,但监管机构难以直接对其提起诉讼以及采取限制措施。目前,民主政府除了以诉讼为威胁,责令五大科技巨头别惹事,其他可做的着实不多。科技巨头的发展和中心化令人担忧,下一章,我们将详细讨论监管机构对此的应对措施。

还有一个可能的但尚未引起充分认识的反对者,它与这些问题和本书的相关性,远远超过政府。技术专家自己及其解决方案是阻止其他罪恶技术的最好方式。

全同态加密(Fully Homomorphic Encryption)、多方计算(Multi-Party Computation)和零知识证明(Zero- Knowledge Proof,ZKP),就是这样的技术进步,它们能从完全保密的数据中输出有用的结果。与区块链交易相关联的不可克隆标识符,可以确保来自网络端点的溯源跟踪和数据真实性。去中心化存储和计算使得区块链具有数据不可篡改、可审计、同时私有且透明的特点。带有公共账本的去中心化对等网络,并不能提供详尽的解决方案,但有一些未得到充分认可的技术,正在努力解决数字经济中的侵权问题。

孤立数据集提供了一个到目前为止最显著的功能示例,它的特点之一,就是添加一个或多个这种技术。电子病历(Electronic Medical Record,EMR)是含有重要且敏感信息的数据集,它亟须创新。电子病历中的信息来自各个专科医生,如牙医、骨科医生和外科医生。美国《健康保险可移植性和责任法案》(Health Insurance Portability and Accountability Act,HIPAA)等法律,在一定程度上保护了患者的隐私,但它禁止系统互操作,因此专科医生无法交流研究成果。由于无法共享电子病历,数据收集局限于孤岛之中。请注意,这是各种传统网络问题的一个缩影:它们不能交互,因为网络中的数据默认私有。旧互联网时代保护患者的数据,这也是正当的。按照患者的标准,确保其个人的电子病历保密,这是非常重要的。只是,理想的互联网系统会以透明的方式使用所有数据,同时不侵犯个人隐私。

要解决这个问题,首先要在区块链上创建和储存电子病历的独特路径,同时,将现有的电子病历保存在同一个传统数据库中。由于这些数字路径、指针,都是通过哈希函数以加密方式附加到电子病历上的,因此对电子病历的任何更改,都会更改指针(Pointer)。一旦你将指针交给患者,他们就能访问自己的电子病历,控制病历的共享和使用方式,并随时更改自己的权限集。这个解决方案极有可能解决美国国家卫生信息技术协调办公室(Office of the National Coordinator for Health Information Technology,ONCHIT)面临的互操作性难题,也能为医疗研究提供大量有关基因、生活方式和环境的数据。

这种以患者为中心的电子病历管理区块链解决方案,已被付诸实践。MedRec 是麻省理工学院(MIT)媒体实验室开发的一个医疗数据管理系统。患者可以通过智能合约,授予数据访问权限,该合约为电子病历提供了可追踪地址。MedRec区块链不存储电子病历;相反,它保留元数据和用于定位病历的指针。 元数据使原始病历具有防篡改功能,因为在区块链中,任何篡改都能被检测到。网络矿工可以用完全分布式和匿名的方式,确保区块链安全,当前更经济可行的方法是,将信任给予成熟稳固的服务提供商。 相关的患者从拥有准确健康数据的大系统中获益,同时还能掌控数据接收者和接收内容。 随着类似的替代方案越来越普遍,患者可以利用对自己宝贵数据的管理来要求赔偿。

在医疗行业,MedRec并不是一个全面的区块链解决方案。目前有一千多家与健康有关的区块链初创公司。MedRec管理的单组电子病历记录,具备略高的透明度、私密性和数据利用率。更通俗地说,MedRec是一个概念证明(Proof of Concept,PoC),它让分布式数据在不同的服务供应商中实现统一。任何相关的账户组都可以采用该技术来连接和保护用户。来自金融账户、保险公司、互联网服务等的记录,都可以通过把区块链当作具备互操作性的可信机制使用而受益。

尽管MedRec区块链是一个无须信任(无须信任即可运行)的委托者,但是它所依赖的传统信息技术的基础设施,仍存在信任缺失。MedRec只对旧系统进行了微调,仍然通过第三方存储原始数据,并且依赖随意选定的电子病历记录者。电子病历在真实性、安全存储、溯源跟踪、可审计性、数据输入验证和私有分析方面,还有欠缺。就电子病历而言,这些都是可以舍弃的功能,因为我们倾向于信任医疗保健行业。我们产生的日常数据不可避免地出现在集中式服务器上,这些服务器需要进行一些升级。

区块链云存储普遍用于以太坊的Swarm、星际文件系统(InterPlanetary File System,IPFS)、Filecoin、Storj、Sia和MaidSafe等分布式数据储存项目。每个项目的工作原理都类似:上传网络的文件经过哈希计算,并被赋予一个“数字指纹”;数据呈碎片化,散布在所有存档位置的多个节点上,节点在检索时重新组合所有数据碎片,产生相同的数字指纹。 这个过程不需要在中心化的数据库中发生,这就是为什么当信任和稳定至关重要时,区块链得以存在。 至少在比科技巨头的云服务更为高效之前,它应该得以存在。

在很多方面,区块链存储的安全性已经优于传统的云存储。 所有这些初创公司都在朝着区块链云的方向迈进,使得区块链具有了无与伦比的稳健性。像谷歌云这样的“围墙花园”,需要用户信任才能发挥作用,但区块链会将给予用户信任感作为一个必然的前提条件。互联网对数据保护的漫不经心,提高了人们对数据储存的信任感和稳健性的要求,这也让去中心化的储存解决方案变得尤为重要。

中心化和去中心化储存方式都能保护隐私,但不能提供数据审计的路径,也不能确保数据的真实性。如果有人怀疑脸书未经授权出售用户数据样本,脸书只有两个选择:保留能证明清白的数据,保持诚信;或者披露它本应保护的数据,选择堕落。按脸书当前的状况,第二个选项并不可行,因为它的数据库是可以篡改的,这意味着对免费数据的审计不会提供确凿的证据,因为那些数据有可能是被篡改过的。

要想避免出现上文中的两难局面,其中一个解决方案就是采用Provchain数据溯源体系结构。Provchain建立在区块链之上,提供私有且数据不可篡改的云存储,并增加了可审计性。由于区块链的身份认证技术,它才能具备可审计的特点,这部分我们将在第六章讨论。现在,我们将区块链身份看作与区块链交互的在线个人身份信息集。溯源审计员可以用与区块链身份相关的哈希算法来分析存疑数据,从而既验证了源数据的真实性,又保护了用户隐私。

哈希类似于MedRec指针,即使对底层数据做出极其微小的更改,也会完全改变哈希或指针;这样,任何变化都不会被忽视。每个溯源数据条目都有一个接收确认,用于验证其永久状态和访问控制参数。 将哈希应用于脸书,就能以加密方式将帖子链接到发布该帖的人,并根据内容创建者设置的控件组,限制对该数据的访问。Provchain尚未在测试环境之外证明自己。对于Provchain 和类似的初创公司来说,被大众市场接受可能是一项艰巨的任务。这个概念是可行的,但在它开始与现有系统交互之前,还不能投入商业应用。

将Provchain和类似的系统应用于不同时代的网络,在不同的情况下会存在不同的复杂性。这些系统非常适合Web1.0:内容创建者和开发者可以在没有太多技术障碍的情况下独立工作。这已经算是以去中心化应用程序(Decentralized application,Dapp)和去中心化存储的形式存在了。Web2.0(社交网络)面临着相当大的挑战。这些数据中的绝大多数不需要具备稳定性和信任感。对这些元数据的审计和分析,只有具备一定规模时才有用——也就是说,脸书数据在合并数千个账户时有用,在挑出单个账户时用处不大(下文将讨论解决Web2.0数据保护或使用中遗留缺陷的办法)。Web3.0(物联网设备)数据一旦进入数据库,就会以通用的方式得以利用。将数据生产和加工的方式标准化,是新的前沿领域。

要证明数据的真实性,需要对其进行溯源跟踪,这只能通过合法的区块链身份来实现。物联网设备可以通过生成不可替代的标识符,匹配去中心化的数据库基础设施。物理不可克隆函数(Physically Unclonable Function,PUF)已成功用于在全球区块链上为已有设备注册数字指纹[身份API连接所有支持PUF(物理防克隆)的公共区块链]。 首先要信任的是原始设备生产商,因为需要它们来确保特定产品的质量。初始注册后,设备通用账户(ID)充当能证明产品真伪的防篡改证书。非法设备被排除,因为合法设备制造商通过特殊的数学算法生成密钥,这使得除它们之外,没人可以创建设备ID。 在Web3.0时代,设备注册的是区块链ID,这将在设备出厂后很长时间内,确保数据的完整性。因此,供应链和智慧城市都会更加安全。

互联网发展的每一个增量阶段,都对应着数据创建的指数级增长。去中心化数据存储的稳定性和信任感是以更高的资源强度为代价的。Web3.0的设备拥有多余的资源,可以培养这些资源,以满足其庞大的数据生成量。基于对象的计算能力和内存空间可以让传感器在不释放大量无用输出的情况下,完成它们的功能。蓝宝石(Sapphire)是一种基于区块链的存储系统,它使用典型的物联网设备执行智能合约。在蓝宝石系统中,传感器将所有输出发送到服务器进行分析,并将决策返回设备电路,而不是在系统内部处理。 例如,如果你家中的传感器通过跟踪活动来控制照明,那么它们需要有足够的存储空间来运行一个独立的程序,以确定每盏灯何时打开或关闭。这些传感器可以相互同步,以实现最佳功能,但不需要将数据输入并发送到另一台计算设备(你的手机),以此确定每盏灯的状态。传感器发送的唯一数据是最终结果,即每盏灯开关的最终状态。蓝宝石的系统架构通过屏幕显示定制的智能合约,因此设备可以保持物理可控。

实际上,这意味着当你下班回家时,开启指纹功能的门把手,就可以自动与智能家电同步,而不需要你当天的浏览历史记录。它将根据你可以控制的预设条件设置你的家,同时不受大型科技公司的控制。自由配置的物联网设备运行高效且透明,因为它们是在一个封闭的系统中运行的。接受这一观念可以防止一些人利用大数据的方式侵入智能家居设备和智慧城市。

Web3.0即将到来,还有更多的解决方案有待探索。对Web2.0的担忧更加迫在眉睫,因为它已经被庞大得不能倒闭的公司主导。Web2.0的控制者们基于和Web2.0相同的原则构建Web3.0。信息存储和访问的安全问题已经得到解决,但是一旦某些数据需要从内部数据库中访问,区块链就再也不能保存这些数据了。二级市场会利用数据的可复制性,这在音乐行业和电影行业最为明显,在这些行业中,在线盗版偶有发生。比特币对双重支付问题的解决方案,解决了电子货币支付中的这一问题,但更通用的内容不共享通用分类账。换句话说,将比特币复制到你的数据库里是没有用的,因为人们只相信比特币区块链上的数据,但对电影来说,这会更难,因为复制的电影数据能以多种不同的形式供人使用。为了解决电影的双重支付问题,电影数据需要采用区块链形式,并且可以被基于区块链的网飞(Netflix)之类的视频网站的平台读取。

要想解决通用数据的双重支付问题,首先要公开谁拥有哪些数据。让我们站在剑桥分析的角度,假设现有系统完美集成了MedRec或Provchain之类的解决方案。脸书仍会以智能合约许可的任何方式收集大量数据样本。如果剑桥分析接入网络,它对数据包的访问从一开始就是透明的。否则,为剑桥分析提供数据的二手信息源将不会在区块链留下足迹。不管数据是如何获得的,剑桥分析在使用数据时都会保密。既要保证数据的可用性,又要满足用户对隐私的无限需求,这是区块链面临的下一个重大挑战。

位于麻省理工学院媒体实验室的初创公司英格玛(Enigma)正在实现这一想法。英格玛使用分布式哈希表,以实现所有相关数据基于区块链的可伸缩储存。使用哈希函数压缩数据生成的密钥会通过网络传播,使数据具备可检索性。生成可读的数据分析是通过多方计算完成的,其中,分布式节点利用一个个不可读的数据包得出算法结论。由此,现有的算法得以改进,并且完全不会泄露原始数据。用户权限使得可用数据完全可逆,同时杜绝未经授权的数据复制。 这个项目的主要计划是通过从新的可用数据中提取统计数据,从而推进大规模的医学试验。 除了健康记录,英格玛的用例扩展到基因组数据计算、信用评估/贷款、身份验证和机器数据市场管理。 这样既可以绕过《健康保险可移植性和责任法案》《通用数据保护条例》等制度障碍,又不会危及任何相关方。这也能产生一个信用评分,或为基因研究做出贡献,同时无须把你的信息提供给公司。

英格玛和其他一些对可用数据进行加密保护的项目仍处于开发或试点阶段。创建该隐私层的代价就是项目投放市场的时间会延后。医疗物联网正在转向大数据分析,因为它具有一些不可思议的能力,如“对诊治模式的分析能力、非结构化数据分析能力、决策支持能力、预测能力和可追溯性。” 与智慧城市相比,医疗行业的互联网层将选择最容易获得的开发工具。在进入认知时代的过程中,大科技公司对增加这一额外的垫脚石再热情不过了。

尽管本节提及的方案不能直接解决科技巨头的问题,但它们都才刚刚起步。医疗行业提供了一个很好的起点,因为它能让新科技与公共和私有领域的参与者相互融合。出于对病人权利的承诺,基于区块链的大量工作正在医疗保健领域开展。医疗机构和互联网服务供应商在结构上类似,他们都有分散的系统,里面存储着有用的数据,并且需要在不违背道德的情况下实现数据交互。如果科技公司可以像医疗机构对待患者权利一样重视用户的权利,它们就应该把上述解决方案作为示范性数据保护系统的一部分。 MW4p1OefqhfKc0xz3rj5wHnzwpThCmWspz0OWPR/x4TcZPfQpcw/Spv3inDykEZV

点击中间区域
呼出菜单
上一章
目录
下一章
×