来源:精准医学
最新一期的国际著名期刊《自然-生物技术》杂志发表一篇重磅文章,由华盛顿大学(University of Washington)和微软研究院(Microsoft Research)的科学家合作将DNA存储数据的容量提升到人类前所未有的新水平,为解决人类巨量大数据困扰提供了新思路。
在中国混互联网行当,要是不说出“颠覆”两个字,貌似就不好意思说自己是搞互联网的。曾几何时,中国互联网一些从业者竟然猖狂到说出“互联网将颠覆一切”行业的梦话。
不过,互联网确实已经深度地改变了这个世界,尤其是我国早已被互联网深度重塑。然而,你互联网光想着颠覆别人,就没有想过被别人颠覆?
要颠覆互联网,恐怕远比想象的简单得多!
一是供电局直接断电;二是电信局直接断网。
还有一个可能就是接下来要讲的这一篇研究了。
最新一期的国际著名期刊《自然-生物技术》杂志发表一篇重磅文章,由华盛顿大学(University of Washington)和微软研究院(Microsoft Research)的科学家合作将DNA存储数据的容量提升到人类前所未有的新水平,为解决人类巨量大数据困扰提供了新思路【1,2,3】。
▶互联网的命根子◀
自从人类发明了电之后,貌似人类取得的几乎所有的成就都建立在电力之上,互联网这项伟大的成就亦如是。
这就是互联网干不过供电所的原因,你不听话,我就断你的电,你互联网任由我拿捏;想当年谷歌自诩为天下第一,但是最终又怎样?在供电所面前只能认怂,断了你的电,看你还能不能上网。
当然,扯得有点太远了,言归正传。
话说互联网的命根子是什么呢?
存储,一定是存储!
的确,没有数据的存储便没有互联网的发展壮大,也没有如今已成香饽饽的大数据产业。你以为你发的微信小视频等等都是游走在虚无缥缈的互联网之中吗?你以为“云存储”就真的是一朵漂浮在互联网之中的“云”吗?
非也!
这些数据都是存储在相关公司比如腾讯、阿里巴巴、谷歌等的数据中心。什么是数据中心,说白了,就是一幢幢塞满了硬盘的建筑,互联网上的数据或者手机APP采集的数据等等都会传送到这里存储起来。
因此,简单地讲,互联网(包括电脑手机等)产生的数据均存储在硬盘之中!
▶数据大爆炸◀
现代世界是一个数据大爆炸的时代!
古时候由于存储数据的介质为布、丝绸、纸等等,人们不能想存储数据就能够存储数据,买纸、布等都需要花钱,“洛阳纸贵”在所难免。难怪古时候的人们留下来的文字及图画(相当于现在存储的数据)都是相当精辟的,短小精悍,很少有废话。
而进入互联网时代之后呢?绝大多数都是如同垃圾一般的废话,这些没用的废话也竟然存储了起来,想一想微信上面每天要说多少废话就知道了。
全世界的数据(这里仅包含电子数据digital data)有多少呢?
根据美国这方面的权威IDC以及EMC公司的调查,2017年,全世界的数据总量是16ZB(Zettabyte,十万亿亿字节,泽字节),而到了2020年,全世界的数据总量将达到44ZB。
泽字节ZB是什么概念?
要知道全球最大的云存储公司:亚马逊Amazon的数据存储中心的硬盘数量也只够存储到EB(Exabyte,百亿亿字节,艾字节)级别的数据,而1ZB=1024EB,44ZB就等于45056EB,若是按照这个数据量,到了2020年,全球的数据量需要现在的四万五千个亚马逊公司。
一个亚马逊公司值多少钱?而几万个亚马逊公司呢?(当然,这里未必严谨)
难怪马云要在大数据云存储这一块投入巨资,经过几年的艰苦创业,阿里巴巴已经成为与微软、亚马逊并列的世界大数据云存储三大巨头,由此,不得不惊叹马首富的眼光和嗅觉是多么地超前!堪比外星人!不,惊为外星人!
▶DNA存储会革了谁的命?◀
记住,颠覆你的永远不是你的竞争对手!
你比如曾经多么不可一世的霸主移动、联通等等通信公司,好像没你就不行似的,结果怎样?一家叫做“企鹅”的外行企业就把你轻而易举颠覆了!
你不革新,别人就革你的命!
人类的数据量达到上面所说的天量级别,如何存储呢?难道真的要建设几千个亚马逊公司或者几千个阿里巴巴?
或者让人类少说废话,回到农耕时代采用纸、布、丝绸等存储信息?
这些都不是可能的选项。
而DNA存储提供了一种可能性,而且,能够解决困扰人类多年的上述问题,为何?那你就可以问一下存储人类的所有数据(digital data)需要多少DNA呢?
仅仅需要一公斤(1kg)重量的DNA就可以存储下全世界的数据!
震撼吧!
一公斤,也就像一袋洗衣粉、一小袋面粉或者几袋盐的量,提在手上就可以把全世界的数据装下!
你说,你是花费巨资建设几千个阿里巴巴来装数据,还是愿意把全世界的数据一次性装在手提袋中,轻而易举地就搬动了天量的数据?恐怕连小学生都能够判断得了。
若是未来这项技术能够具有实际存储应用价值,恐怕目前的很多大数据云存储公司的命都得被革掉了。
▶DNA如何存储数据◀
DNA到底是如何存储数据的呢?或者如何利用DNA来存储数据呢?
实际上,非常简单。
众所周知,互联网存储数据都是以0和1来表示的,每个字母和标点符号都有对应的唯一的0和1组成(ASCII码表),比如小写字母“f”的代码是:01100110,因此,一个英文单词或者其他内容均可对应成一连串的0和1。
然后,再把0和1转变成碱基A、T、C、G,具体而言,0可以用碱基a或者碱基c表示,而1可以用碱基G或者碱基T表示;编码的时候合成序列,解码的时候测序解读。
由于1克DNA就有极其庞大的碱基,1克DNA就能够表示4.5乘以10的20次方字节的数据【4】,多么地惊人!而1克DNA有多少呢?就如一小勺盐一样多!
一小勺盐的量就存储了天量数据,多么地让人惊叹!
▶芝麻开花节节高◀
事实上,这篇由华盛顿大学(University of Washington)和微软研究院(Microsoft Research)的科学家合作的关于DNA存储的研究早在2016年就已经有媒体放风出来了。
只不过,当时并没有发表论文而已,只是公布了他们的存储结果达到了人类这方面前所有未有的高度,能够以DNA存储超过200MB的数据。
尽管只有区区200多MB的数据,然而,却是人类在这个领域跨出的一大步。
因为,此前的研究也就只能够存储几十MB的数据。
教授说到。
“我们正处于一个交叉学科研究取得许多开创性突破的时代,”文章的第一作者Lee Organick说到。
期待这个领域未来更多重大突破!
参考资料:
1.Random access in large-scale DNA data storage.2018
2.https://www.computerworld.com/article/3093467/data-storage/dna-data-storage-record-broken-by-microsoft-university-researchers.html
3.https://phys.org/news/2018-02-random-access-large-scale-dna-storage.html
4.Next-Generation Digital Information Storagein DNA.2012