什么是DNA存储?简单来说,DNA存储就是用DNA来存储计算机的信息。这个想法是不是听起来很疯狂?基于硅的计算机信息为什么能存到我们碳基生物中去?但是一旦深入到两者的本质层面上,这一切就能得到非常合理的解释,因为计算机世界本质上是由0和1组成的二进制世界,而DNA则是由A、G、T、C组成的四进制世界。这两个进制之间完全可以进行相互转换。
近些年,DNA存储获得了各界的广泛关注,例如:我国把DNA存储列入了《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》和《“十四五”国家信息化规划》;美国的《科学》( Science )杂志提出了未来发展的125个科学问题,其中信息科学的四大问题之一就是能否用DNA做信息存储的介质;美国成立了DNA数据存储联盟,微软等企业已经参与其中;国内的一些信息技术公司也对这个领域非常感兴趣,希望参与这个全新的变革性存储研究。
数据或者信息的存储实际上与整个人类文明的发展密不可分,可以说整个人类社会的文明史就是一个信息存储和传播方式不断变革的历史。从原始人的结绳记事,到纸张的发明,再到20世纪80年代出现电子信息,如今又有了硬盘、U盘、云盘等新的存储介质,数据存储的问题是不是都解决了呢?
实际上并没有,如果看一下全球数据的增长情况就能发现,我们进入了一个信息爆炸时代。2020年全世界的数据是44泽字节(ZB),也就是440万亿亿字节,这些数据的存储需要消耗整个三峡大坝全年的发电量,而且数据还在不断增长,现有能源将难以为继。但是我们再仔细分析就能发现,这些数据里80%~90%都是冷数据,这些数据不像我们手机里的信息需要快速频繁地被调用,相反,它们在一年甚至更长时间里都很少被使用。如果要保存这些数据需要持续地消耗能源或者金钱,但直接丢弃又可能意味着人类文明的一种损失,这就造成了一个困境。
另一个困境来自数据的传输。各种技术的发展使得现在人类活动产生的数据已远超从前。例如前些年人类第一次拍摄黑洞的照片,数据量高达5拍字节(PB),要存满几千个太字节(TB)级别的硬盘,总质量达到半吨。这样的数据量已经无法用网络进行传输,只能回到最原始的方法,用车辆或者飞机来运输,运输的难度和费用直线上升。
第三个困境是存储寿命。现在的硅基存储方式经过10年左右基本都要进行一次数据迁移,除了造成成本上升之外,随之而来的还有数据安全性和可靠性问题。
这些困境都对硅基存储提出了严峻的挑战,于是大家想到了DNA存储。实际上,早在20世纪60年代就有科学家提出DNA存储的设想,1988年这个设想得到了首次证明。如上所述,二进制和四进制的转换实际上并不难。对DNA存储而言,数据的写入就是DNA的合成,而数据的读出就是基因测序。
微软前几年也进入DNA存储领域,并在2019年推出了世界第一台端到端的DNA存储原型机,使DNA存储从科学研究真正走向了产业化。国内的华为、联想和华大基因也都非常关注DNA存储。这种来自业界的高度关注与DNA的优势是密不可分的。经过推算,利用DNA这一来自生命的全新材料存储数据,可以把信息存储的物理极限提高7个数量级,相当于把1 000万块硬盘的数据存到一个只有50克砝码大小的DNA中,而全世界440泽字节数据用200千克DNA就可以存下。这样再也不会担心未来的数据量太大存不下了。除了密度极高之外,DNA存储的能耗极低,寿命极长。对硅基来说,存储10年是寿命极限,DNA却可以存储千年甚至百万年,理论上DNA中的信息可以永久保存。此外,DNA存储还有安全性高和抗干扰性强等优势。
更重要的是DNA存储的上下游已经取得了突破。DNA合成早在20世纪就已经实现,到现在已经是一个成熟的产业,其成本是按照摩尔定律下降的。由于人类基因组计划的推动,基因测序甚至出现了超摩尔定律的发展,已经从一个几十亿美元的天价科学项目变成一个不到1 000元人民币的成熟技术。DNA存储很可能在不久的将来就可以实现。
虽然现在DNA存储的存取和读出速度还比较慢,也只是针对部分冷数据进行存储,但相信在可预见的未来,医疗、航空航天等领域的各种大数据都有可能变成由DNA来存储。
DNA存储是利用来自生物的材料执行信息技术的功能,因此是一种典型的信息技术—生物技术交融的技术,我们期待它能够按照半导体科技爆发式、跨越式、非线性的规律发展。就如1946年全世界第一台计算机“埃尼阿克”问世,整个计算机极其复杂,体积和一个房间一样大;但是到1982年就已经出现与我们现在的计算机非常相似的个人计算机。所以我们期待这台由微软开发的简单、粗糙的DNA存储原型机能在不久的将来脱胎换骨,真正成为一台商业化的设备。我们也在上海交通大学成立了DNA存储研究中心,希望能引领和促进整个行业的发展。未来信息技术和生物技术的交融,以及更多不同学科的交叉与融合,可能就是新一轮技术革命和产业变革的必由之路。
[1]Tikhomirov G, Petersen P, Qian L L. Fractal assembly of micrometre-scale DNA origami arrays with arbitrary patterns[J]. Nature,2017,552:67—71.
[2]Watson J D, Crick F H C. Molecular structure of nucleic acids: a structure for deoxyribose nucleic acid[J]. Nature,1953,171:737—738.
[3]Lv H, Xie N L, Li M Q, et al. DNA-based programmable gate arrays for general-purpose DNA computing[J]. Nature,2023,622:292—300.
[4]Meiser L C, Nguyen B H, Chen Y J, et al. Synthetic DNA applications in information technology[J]. Nature Communications,2022,13:352.
[5]Chao J, Wang J B, Wang F, et al. Solving mazes with single-molecule DNA navigators[J]. Nature Materials,2019,18:273—279.