随着数字经济的蓬勃发展,全球数据生成量与新增存储容量之间的差距正持续扩大。IDC预测,全球数据生成量将从2024年的173ZB增加到2029年的527 ZB,而同期存储容量仅从10 ZB 增长至19 ZB,增速低于数据生成量的一半。预计到2029年,全球将有超过96%的数据因无法有效存储而面临废弃或丢失的风险,数据存储缺口已成为全球性的重大挑战。业内推断,全球每年产生的数据中接近80%为冷数据,其中一年内访问次数为0的数据占比或高达38%。随着人工智能、大数据分析和数智化转型不断加速,这些冷数据的价值正在被重新定义,将逐渐从“成本负担”转变为“战略资产”。如何高效、经济地存储这些冷数据已经成为各国科技战略的重要组成部分。在众多新兴存储技术中,DNA存储凭借其超高密度、超长寿命和低维护成本的优势脱颖而出,被视为未来应对冷数据存储挑战的理想解决方案之一。
1、冷数据存储的新方案:超高密度DNA存储
全球数据生产量正急剧增加,佐治亚理工学院高级研究科学家尼古拉斯·吉斯(Nicholas Guise)在接受英国广播公司(BBC)采访时指出,现有电子存储技术正在接近物理极限。单纯依靠扩大传统存储规模来应对数据增长,无论在成本还是可持续性层面都难以满足日益增长的数据存储需求,因此亟需研发新的存储技术来应对数据爆发式增长带来的成本、功耗、性能等问题。通过分析存储数据的构成,可以发现冷数据占据数据总量的80%,如科研数据、法律文件、医疗记录等,具备总量大、访问频率低、需长期稳定保存等特点。针对这部分数据,发展具有低功耗、高容量、长寿命特性的下一代存储技术,不仅是经济上的必然选择,更是保障国家数字主权与数据安全的战略需求。
DNA存储技术凭借其超高存储密度、超长保存寿命和低维护成本的优势,为海量冷数据存储提供了革命性的解决方案。其存储密度是传统介质的十万倍以上,理论上1克DNA可存储约1000万小时的高清视频数据,1公斤DNA即可存储全球现有的全部数据,且在适宜条件下可稳定保存数千年。这种在“空间”与“时间”维度的双重优势,使其成为替代传统电子存储设备的理想候选者。尤其是在保存科研数据、医疗记录、历史资料、天文观测数据、气候变化等需要长期存储的冷数据场景中,DNA存储具有巨大的应用潜力。
DNA存储是利用人工合成脱氧核糖核酸(DNA)存储信息的技术,其核心原理是将二进制数据通过特定规则,映射为DNA的A、T、C、G四种碱基序列,从而实现信息的编码与解码。主要包括信息编码、DNA合成(写入)、DNA测序(读取)、信息解码四个步骤:
①信息编码:采用特定编码算法将二进制数据转换为由A、T、C、G四种碱基组成的DNA序列,编码时需考虑DNA的生化特性(如避免重复序列、保证稳定性)并加入冗余纠错机制,以提升数据可靠性。
②DNA合成:通过化学或酶促合成技术生成目标DNA链。当前主流技术包括柱合成法(合成长度有限,成本较高)和芯片合成技术(高通量并行合成,适合大规模生产)。而新兴的酶促合成技术,具有低能耗、高精度潜力,有望将成本降低至0.001美元/碱基,但仍处于实验室阶段。
③DNA测序:快速获取DNA链的碱基顺序,目前主流的测序技术主要是单分子测序,包括荧光测序(精度高,但耗时较长)和纳米孔测序(可实现实时读取,适合快速检索)。
④信息解码:将测序得到的碱基序列还原为二进制数据,并利用纠错算法修复可能的错误,最终恢复原始信息。
需要关注的是,在全球范围内,DNA存储近年来的热度持续攀升。美国(微软、Catalog等)、欧洲(DNA Script、Evonetix等)已率先布局DNA存储技术。Catalog Technologies于今年年初发布了第一本商用DNA编码图书。与此同时,我国在该领域表现强劲,政策扶持力度不断加大,相关产业链初步形成,但行业仍处于早期发展阶段,但竞争格局已初步形成,主要参与企业包括华大基因、擎科生物、腾讯云、华为云等。
3、DNA存储的商业化应用仍面临三大核心瓶颈:
①成本高昂:目前合成2MB的DNA数据需要约7000美元,读取数据需要约2000美元,远高于传统存储介质。但随着以酶促合成为代表的第三代DNA合成技术的发展,DNA存储的成本呈现出显著下降趋势。近期中国科学院北京基因组研究所团队提出的“DNA活字存储”新思路,将数据存储成本降低至每MB仅122美元,明显低于现有主流DNA存储方案。随着相关技术的成熟与产业发展,未来DNA存储成本有望逐步接近商业化可行区间。
②读写速度慢:当前DNA存储的写入(合成)速度仅达KB/s级,无法满足大规模数据实时写入需求。实际数据读取速度方面,目前先进的高通量测序仍需数小时才能完成TB级数据检索。但随着纳米孔测序、并行合成等技术的持续发展,读写效率正在逐步提升。
③生态不完善:目前缺乏统一编码标准和专用管理(如DNA数据管理平台)工具,行业标准与监管框架尚未建立。
4、结语
随着数据量的爆炸式增长,我们正面临全球性的存储容量危机。而DNA存储,这种将0和1编码进生命基本单元的技术,为我们提供了一种跨越时空的解决方案。用最紧凑的空间、最少的能源,承载最浩瀚的人类知识与记忆。随着技术的成熟,我们或许真能实现"将全世界装进口袋"的梦想,让人类文明的数字足迹,在生命分子的永恒编码中得以延续。
作者:贾慧迪、刘文涛
单位:中国移动研究院

扫码下载APP
科普中国APP
科普中国
科普中国