1千克DNA存储全世界 1千克


1千克DNA存储全世界 1千克

文章插图
DNA的双螺旋结构使其成为一种理想的存储介质 , 但它还不能取代传统的硬盘驱动器 。(资料图/图)
(本文首发于2019年7月4日《南方周末》)
DNA具有许多合适的特性 , 使其成为存储海量信息的理想选择 。随着测序技术的进步 , 研究人员开始使用 DNA作为分子记录仪 , 来“读”和“写”信息 。这一进展可能对加速药物开发和治疗疾病意义重大 。
在人类发明硬盘的数十亿年前 , 进化选择了DNA来存储最宝贵的信息——遗传密码 。随着时间推移 , DNA变得非常擅长这项工作 , 成为了地球绝大多数生命的首选工具 。最近的一些技术突破让我们可以轻松“读”、“写”DNA , 于是科学家正在重新利用这种古老的分子存储新类型的信息——在大数据时代 , 人类以指数级速度生成的数据信息 。
利用DNA来存储遗传密码之外的信息 , 这一设想已经得到了广泛的讨论 。毕竟 , 以1和0记录计算机代码的方式正在接近物理极限 。要安全存储我们生成的所有数据 , 需要克服许多难题 。近日 , 其中一个问题重新映入人们的视野 , 曾经风行一时的社交媒体网站Myspace宣布 , 他们在服务器迁移过程中无可挽回地丢失了大约1年的数据 。长期保存数据 , 例如一个休眠一段时间后重新启动的网站中的数据 , 暴露了现有技术的脆弱和笨拙 。而且这不仅仅是一个空间问题:维持数据存储需要消耗大量的能量 。
DNA的特性有望解决这些问题 。一方面 , DNA的双螺旋结构非常适合数据存储 , 因为知道一条单链的序列就会自动知道另一条单链的序列 。另外 , DNA也能长时间维持稳定 , 这意味着信息的完整性和准确性都可以得到保证 。例如 , 2017年 , 科学家分析了从8100年前的人类遗骸内分离出来的DNA 。而这些遗骸的保存环境甚至算不上理想 , 如果是干燥凉爽的环境 , DNA可以保存数万年之久 。
不过 , DNA双螺旋最有吸引力的地方大概是它可以折叠成一个非常紧密的结构 。每个人类细胞都包含一个直径约0.00001米的细胞核 , 但如果把细胞核内的DNA伸展拉直 , 它将长达两米 。换句话说 , 如果将一个人的全部DNA串在一起 , 它将延伸至100万亿米 。在2014年 , 科学家计算出1克DNA理论上可以存储455EB(1018字节)的数据 。这样的信息存储密度大约比硬盘中的物理存储密度高出100万倍 。
虽然DNA通常被认为是一种存储介质 , 但在取代传统硬盘驱动器之前 , 它仍然有许多科学、经济和伦理上的障碍需要克服 。与此同时 , DNA作为一种适用范围更广的信息技术已经得到了越来越多的应用 。例如 , 一些经典的好莱坞电影已经从脆弱的胶片转移到了遗传密码中 。最近 , DNA工具已被用来设计更安全的基因疗法 , 加速抗癌药物研发 , 甚至第一次“直播”活体生物内的遗传活动 。在这个不断发展的领域的前沿 , DNA不仅被用于长期存储数据 , 还在以前所未有的速度促进数据生成 。这是因为DNA在两个方向上都要比其他分子更具可扩展性:它一方面能大幅增加我们获得的数据量 , 另一方面又能缩减存储数据所需的资源 。
加速新药物开发近年来 , 科学家越来越多地用DNA作为分子记录器 , 来理解和跟踪他们的实验结果 。在多数情况下 , 这个过程都用到了DNA条形码编码:为了标记和跟踪单个实验的结果 , 科学家使用已知的DNA序列作为分子标签 。例如 , 一个实验结果可以用DNA序列ACTATC标记 , 而另一个结果可以用TCTGAT标记 。
DNA条形码技术发源于20世纪90年代初 , 当时斯克里普斯研究所的理查德·勒纳(Richard Lerner)和已故的悉尼·布伦纳(Sydney Brenner)提出 , DNA可充当一种追踪化学反应的新工具 。他们的设想极具创新性 , 但也过于超前了:当时还没有廉价的DNA读取技术 。因此 , 直到众多科学家在核苷酸化学、微流控技术等领域做出贡献 , 促成新一代测序技术出现 , DNA条形码技术的潜力才得以兑现 。在2005年 , 测序技术迎来了一个重大突破 , 研究者称 , 他们可在4小时的实验中分析2500万个DNA碱基 。