DNA存储技术来袭,你了解多少呢?

苏言嘉语课程 2024-03-26 13:32:36

导语:

春节假期,吃喝玩乐之余,用一点点时间简单学习了当下热门的DNA存储与DNA合成技术。时间仓促,加之学习能力有限,只浅浅窥视了这个深奥领域的门缝边缘,然而,却也获益颇多。

我们生活在一个信息爆炸的时代,据IDC预测2021年全球数据总量达到84.5ZB,如此庞大的数据量在对数据计算能力提出了极高要求的同时,也是对数据保存能力的极大挑战。我们需要建立更多的大型数据中心以应对如此庞大的数据存储需求。数据中心越建越多,但土地及能源资源又极其有限,于是提高数据存储密度成为一种可行的解决方案。为寻找更高密度的存储载体,研究者将目光对准到自然界中遗传信息的载体——DNA。

DNA存储是是生物技术(BT)和信息技术(IT)的有效融合,是数据存储的一场绿色革命。

DNA存储的原理

众所周知,DNA是由脱氧核苷酸组成的大分子聚合物。脱氧核苷酸由碱基、脱氧核糖和磷酸构成。组成DNA的碱基有4种:腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)和胞嘧啶(C)。

在自然界中,DNA会按照特定的顺序排列,组成遗传信息,进而指导生物体的生长发育及全生命周期的各项活动。DNA存储技术则是利用这四个碱基的特性,开发并制定代码,实现数字信息在DNA层面的“语言”转化。

目前主流的DNA存储是基于DNA的四种碱基(A、G、C、T)来映射0 和1,通过信息编码将数字信号转化为化学信号。换句话说,为了在DNA中存储二进制数字文件,科学家将0和1转换成为字母A、G、C、T,合成顺序与二进制数字文件对应的DNA链。如果要恢复数据,则对DNA链进行测序,后根据编码规则将碱基顺序还原成初始的数字序列(图1)。

图1.数字化数据在DNA中的编码与解码过程(源自网络)

DNA存储的优势

DNA 存储作为数据存储介质的解决方案之一,在存储密度、使用寿命、能源消耗、数据安全等因素上相对于传统存储介质均有大幅优化和提升。

存储密度高

图2. DNA和传统介质的信息存储密度对比(源自网络)

DNA信息存储密度是已知储存技术中表现最好的(图2)。比如,闪存最多可在10nm内存储1bit数据,而DNA则可以在0.34nm内储存2bits数据。1kg DNA可以储存2×10^24 bits数据,如果改为闪存存储,存储相同数量数据要>10^9千克的硅原料。

稳定性好,使用寿命长

光盘的使用寿命为10~15年,硬盘和闪存的使用寿命为 5~10年,磁带存储的使用寿命为 15-30 年。此外,数据存储系统需要定期清除损坏的数据,并更换故障单元,进而导致传统数据存储方式对于长时、大量数据存储需要极高的维护成本。

DNA则是一种非常稳定的生物分子,其半衰期可超过500年。特别是在低温条件下,DNA可以保存成千上万年。值得一提的是,科学家在2013年发现的储存在永久冻土中长达70万年的马DNA仍能进行测序。

节省能源

一方面,传统存储介质制备需要较多不可再生资源,如稀土金属等。DNA存储介质仅需要核苷单体及部分必需的试剂,从原始材料上即节省能源。

另一方面,基于传统存储介质的信息读取均需要输入电能,且该过程中大部分能量以热能形式耗散(约0.01~0.04W/GB),这对大型数据中心来说,是庞大的电能消耗量,且能量利用率低;而基于DNA存储介质的读写过程,除必要仪器设备的电力消耗外,其余步骤基本为化学反应,能源输入少且利用率高(10~10W/GB),可节省大量电力能源。

数据安全

基于当今数学及计算机技术的发展,传统二进制数据的密码术和隐写术很容易被破解,失去原有的信息加密效果。随着生物学(BT)和信息学(IT)的发展,科学家们开始利用生物分子寻求新型加密技术,如DNA、蛋白质、适配体、细菌等被用来保护信息安全。特别是在DNA存储中,基于不同信息编码的编码原则,以及后续检索、测序、读取等复杂的操作流程,使DNA信息存储天生具有一种技术壁垒性,进而提高数据的安全性。

DNA存储的过程编码

将数字文件中的0/1二进制数据按一定规则转换成为 DNA 碱基序列(包括但不限于自然碱基)。

合成

通过化学原理或生物酶促法原理,根据编码步骤进行DNA序列的从头人工合成。

保存

即携带信息的海量DNA分子的长期稳定存储,常用存储方式包括体外溶液/干粉、活细胞内、不同类型媒介封装等。

检索

通过多重PCR、生物素-链霉亲和素序列特异性磁珠捕获等方式,完成全部或部分编码DNA分子的获取。

测序

对获取的DNA 分子进行分子测序测定,包括 Sanger测序、高通量测序、单分子测序等方式。

解码

对第5步获得的DNA 序列进行生信分析,根据编码规则对 DNA 碱基序列进行解码,得到原始数字文件的二进制数据,实现信息恢复。

图3. DNA存储整体框架图(源自网络)

政策支持与商业化

目前,基于DNA存储的战略发展意义及技术前瞻性,在全球范围内,各国政府机构对DNA 数据存储的直接研发均给予大量的引导资助(图4)。

图4. 相关资助 DNA 合成与存储的政策(源自网络)

此外,基于DNA存储底层的基因合成与测序技术的应用广泛,也得到产业界的广泛关注,吸引了大量投资。在2012-2021年期间,合成生物学企业融资额从3.74亿美元快速增长至89亿美元,CAGR为42.22%,其中64%的企业专注于DNA合成领域(图5)。

图5. 2012-2021年合成生物学企业融资额(源自网络)

2020年11月,由微软、Illumina、Twist Bioscience和西部数据等四家公司牵头成立DNA数据存储产业联盟,共同努力致力于为DNA数据存储领域制定行业标准和路线图,并为建立数据存储商业档案的生态系统奠定基础。发起产业联盟的四家企业中,Twist Bioscience是国际领先的高通量DNA合成公司、Illumina是高通量测序领域的领导者、微软公司是世界信息领域巨头,西部数据公司则是存储方面的领先者。四大巨头共同推动DNA数据存储从底层技术到系统构建的全技术链发展,即吸引了产业界关注,又推动了DNA存储的在迈向商业化的实质性一步。截至2022年4月,DNA数据存储产业联盟已发展到50个成员。

在国内,华大GBI、中国科学院深圳先研院孵化的深圳中科碳元、苏州泓迅、中实基因、华为、腾讯等公司也都对 DNA 数据存储进行了研发布局和商业化的探索。

面临的问题

DNA信息存储具有广阔的发展前景,目前业界也正在逐步解决底层技术的各个卡点。从实验室到商业化运营,目前DNA存储技术还需要以下三个方面重点突破。

成本过高

目前,DNA存储技术大多采用传统的亚磷酰胺化学合成法进行DNA合成,造成DNA信息存储成本过高。

准确率需要提高

DNA存储过程中两项重要的底层技术——合成和测序过程中,均有可能产生错误。比如DNA序列内部由于相互作用产生折叠,会导致测序过程中产生较高的错误率。进而导致DNA存储芯片要花很多成本在纠错和排除冗余信息上。如何把DNA合成和DNA读取的准确率提高到99.9%甚至更高的标准,这是需要在技术上实现的很大突破。

市场需求量不足

传统存储方式为消费者及工业客户提供了很多可选择商品类型,对于大部分基于传输快、成本便宜的存储需求,DNA存储的特殊优势如稳定和密度大根本无法切入用户的实际需求点。必须承认,目前DNA存储的市场需求相对小众,如何让DNA存储更快、更方便、更便宜?是DNA存储未来发展的战略性发展问题。

苏言嘉语:

春节前参加了一个非常有意义的线下经销商见面会,会上很开心,会后却有些焦虑,产品同质化及内卷的严峻性,让这个行业的繁华蒙上了一层暗纱。

但是,在了解完DNA存储与DNA合成技术后,却又惊叹于在内卷与同质化之外,仍然有那么多的高端技术被国外垄断。

虽然任何行业都会存在两极分化,本不足为奇,但在生命科学产品研发的征途中,确实还有很多值得我们反思,值得我们投入大量人力、物力、财力去攻克的高峰。

因原文篇幅较长,本次主题将分三个部分进行分享。后面两期分别为DNA化学合成技术与进展、DNA生物合成技术与进展,敬请期待~~~

——END——

0 阅读:0

苏言嘉语课程

简介:感谢大家的关注