《Nature》颠覆性突破!DNA将储存天量数据,是时候颠覆一下互联网了?

来源:精准医学

最新一期的国际著名期刊《自然-生物技术》杂志发表一篇重磅文章,由华盛顿大学(University of Washington)和微软研究院(Microsoft Research)的科学家合作将DNA存储数据的容量提升到人类前所未有的新水平,为解决人类巨量大数据困扰提供了新思路。

在中国混互联网行当,要是不说出“颠覆”两个字,貌似就不好意思说自己是搞互联网的。曾几何时,中国互联网一些从业者竟然猖狂到说出“互联网将颠覆一切”行业的梦话。

不过,互联网确实已经深度地改变了这个世界,尤其是我国早已被互联网深度重塑。然而,你互联网光想着颠覆别人,就没有想过被别人颠覆?

要颠覆互联网,恐怕远比想象的简单得多!

一是供电局直接断电;二是电信局直接断网。

还有一个可能就是接下来要讲的这一篇研究了。

▲由华盛顿大学以及微软研究院的科学家在国际著名期刊《自然-生物技术》上面发表的文章(图片来自Nature)

最新一期的国际著名期刊《自然-生物技术》杂志发表一篇重磅文章,由华盛顿大学(University of Washington)和微软研究院(Microsoft Research)的科学家合作将DNA存储数据的容量提升到人类前所未有的新水平,为解决人类巨量大数据困扰提供了新思路【1,2,3】。

互联网的命根子

自从人类发明了电之后,貌似人类取得的几乎所有的成就都建立在电力之上,互联网这项伟大的成就亦如是。

这就是互联网干不过供电所的原因,你不听话,我就断你的电,你互联网任由我拿捏;想当年谷歌自诩为天下第一,但是最终又怎样?在供电所面前只能认怂,断了你的电,看你还能不能上网。

▲Google公司位于美国爱荷华州的一处庞大的数据存储中心(图片来自网络)

当然,扯得有点太远了,言归正传。

话说互联网的命根子是什么呢

存储,一定是存储

的确,没有数据的存储便没有互联网的发展壮大,也没有如今已成香饽饽的大数据产业。你以为你发的微信小视频等等都是游走在虚无缥缈的互联网之中吗?你以为“云存储”就真的是一朵漂浮在互联网之中的“云”吗?

▲互联网巨头Facebook公司在爱尔兰修建的数据存储中心(图片来自网络)

非也

这些数据都是存储在相关公司比如腾讯、阿里巴巴、谷歌等的数据中心。什么是数据中心,说白了,就是一幢幢塞满了硬盘的建筑,互联网上的数据或者手机APP采集的数据等等都会传送到这里存储起来。

因此,简单地讲,互联网(包括电脑手机等)产生的数据均存储在硬盘之中

数据大爆炸

现代世界是一个数据大爆炸的时代!

古时候由于存储数据的介质为布、丝绸、纸等等,人们不能想存储数据就能够存储数据,买纸、布等都需要花钱,“洛阳纸贵”在所难免。难怪古时候的人们留下来的文字及图画(相当于现在存储的数据)都是相当精辟的,短小精悍,很少有废话。

▲千古名篇《兰亭集序》,王羲之把数据存储在“纸”这种介质上,而互联网则是将数据存储在“硬盘”这种介质上(图片来自网络)

而进入互联网时代之后呢?绝大多数都是如同垃圾一般的废话,这些没用的废话也竟然存储了起来,想一想微信上面每天要说多少废话就知道了。

全世界的数据(这里仅包含电子数据digital data)有多少呢

根据美国这方面的权威IDC以及EMC公司的调查,2017年,全世界的数据总量是16ZB(Zettabyte,十万亿亿字节,泽字节),而到了2020年,全世界的数据总量将达到44ZB

▲人类数据的增长,到2020年将达到44ZB的数据量(图片来自www.EMC.com)

泽字节ZB是什么概念

要知道全球最大的云存储公司:亚马逊Amazon的数据存储中心的硬盘数量也只够存储到EB(Exabyte,百亿亿字节,艾字节)级别的数据,而1ZB=1024EB,44ZB就等于45056EB,若是按照这个数据量,到了2020年,全球的数据量需要现在的四万五千个亚马逊公司

一个亚马逊公司值多少钱?而几万个亚马逊公司呢?(当然,这里未必严谨)

▲亚马逊老总光头司令杰夫·贝佐斯(左);无人不识、霸气侧漏、身材苗条的马首富(中)以及外星人(右)

难怪马云要在大数据云存储这一块投入巨资,经过几年的艰苦创业,阿里巴巴已经成为与微软、亚马逊并列的世界大数据云存储三大巨头,由此,不得不惊叹马首富的眼光和嗅觉是多么地超前!堪比外星人!不,惊为外星人!

DNA存储会革了谁的命?

记住,颠覆你的永远不是你的竞争对手

你比如曾经多么不可一世的霸主移动、联通等等通信公司,好像没你就不行似的,结果怎样?一家叫做“企鹅”的外行企业就把你轻而易举颠覆了!

你不革新,别人就革你的命

人类的数据量达到上面所说的天量级别,如何存储呢?难道真的要建设几千个亚马逊公司或者几千个阿里巴巴?

或者让人类少说废话,回到农耕时代采用纸、布、丝绸等存储信息?

这些都不是可能的选项

而DNA存储提供了一种可能性,而且,能够解决困扰人类多年的上述问题,为何?那你就可以问一下存储人类的所有数据(digital data)需要多少DNA呢

▲各种存储介质的比较,存储全世界的数据仅需要1公斤DNA,就像一袋子洗衣粉大小(图片来自Nature)

仅仅需要一公斤(1kg)重量的DNA就可以存储下全世界的数据

震撼吧!

一公斤,也就像一袋洗衣粉、一小袋面粉或者几袋盐的量,提在手上就可以把全世界的数据装下!

▲极其微量的DNA就可以存储海量数据,铅笔尖指向的淡红色物质为DNA(图片来自网络)

你说,你是花费巨资建设几千个阿里巴巴来装数据,还是愿意把全世界的数据一次性装在手提袋中,轻而易举地就搬动了天量的数据?恐怕连小学生都能够判断得了。

若是未来这项技术能够具有实际存储应用价值,恐怕目前的很多大数据云存储公司的命都得被革掉了。

DNA如何存储数据

DNA到底是如何存储数据的呢?或者如何利用DNA来存储数据呢?

实际上,非常简单。

众所周知,互联网存储数据都是以0和1来表示的,每个字母和标点符号都有对应的唯一的0和1组成(ASCII码表),比如小写字母“f”的代码是:01100110,因此,一个英文单词或者其他内容均可对应成一连串的0和1

▲其中一种DNA编码存储的原理示意图,首先把英文字母转变成对应的0和1,然后把0和1转变成碱基A、T、C、G,具体而言,0可以用碱基a或者碱基c表示,而1可以用碱基G或者碱基T表示;编码的时候合成序列,解码的时候测序解读(图片来自Science)【4】

然后,再把0和1转变成碱基A、T、C、G,具体而言,0可以用碱基a或者碱基c表示,而1可以用碱基G或者碱基T表示;编码的时候合成序列,解码的时候测序解读。

由于1克DNA就有极其庞大的碱基,1克DNA就能够表示4.5乘以10的20次方字节的数据【4】,多么地惊人!而1克DNA有多少呢?就如一小勺盐一样多

一小勺盐的量就存储了天量数据,多么地让人惊叹!

芝麻开花节节高

事实上,这篇由华盛顿大学(University of Washington)和微软研究院(Microsoft Research)的科学家合作的关于DNA存储的研究早在2016年就已经有媒体放风出来了。

▲这篇研究的通讯作者Luis Ceze教授(中)及Karin Strauss博士(右)

只不过,当时并没有发表论文而已,只是公布了他们的存储结果达到了人类这方面前所有未有的高度,能够以DNA存储超过200MB的数据

尽管只有区区200多MB的数据,然而,却是人类在这个领域跨出的一大步。

因为,此前的研究也就只能够存储几十MB的数据。

▲这篇研究和之前的DNA存储研究的主要参数对比,这篇研究取得的最重要突破恐怕就是其存储容量远远超越了以前的存储容量,超过200MB数据存储容量(图片来自Nature)

教授说到。

“我们正处于一个交叉学科研究取得许多开创性突破的时代,”文章的第一作者Lee Organick说到。

期待这个领域未来更多重大突破!

参考资料:

1.Random access in large-scale DNA data storage.2018

2.https://www.computerworld.com/article/3093467/data-storage/dna-data-storage-record-broken-by-microsoft-university-researchers.html

3.https://phys.org/news/2018-02-random-access-large-scale-dna-storage.html

4.Next-Generation Digital Information Storagein DNA.2012

发表评论

邮箱地址不会被公开。 必填项已用*标注