DNA Datadrive

De Wereld Heeft Bijna Geen Dataopslag Meer, DNA Zal Ons Redden door op in Wetenschap

Vrij naar Rob Carlson

Hoeveel aandacht besteedt u aan waar u uw spullen bewaart? Elke dag produceren we meer gegevens, waaronder e-mails, teksten, foto's en posts op sociale media. Hoewel veel van deze inhoud vergeetbaar is, besluiten we elke dag impliciet om die gegevens niet te verwijderen. We bewaren het ergens, of het nu op een telefoon is, op de harde schijf van een computer of in de cloud, waar het uiteindelijk wordt gearchiveerd, in de meeste gevallen op magneetband. Denk verder aan de vele uiteenlopende apparaten en sensoren die nu gegevens naar het internet streamen, en de auto's, vliegtuigen en andere voertuigen die reisgegevens opslaan voor later gebruik. Al die miljarden dingen op het Internet of Things leveren data op, en al die informatie moet ook ergens opgeslagen worden.

De gegevens stapelen zich exponentieel op en de snelheid van de informatieproductie neemt sneller toe dan de opslagdichtheid van tape, die de stortvloed aan gegevens nog maar een paar jaar zal kunnen bijhouden. Het onderzoeksbureau Gartner voorspelt dat in 2030 het tekort aan bedrijfsopslagcapaciteit alleen al bijna tweederde van de vraag zou kunnen bedragen, oftewel ongeveer 20 miljoen petabytes. Als we op de huidige weg doorgaan, hebben we de komende decennia niet alleen exponentieel meer magneetbanden, schijfstations en flashgeheugen nodig, maar ook exponentieel meer fabrieken om deze opslagmedia te produceren, en exponentieel meer datacenters en magazijnen om ze op te slaan. Zelfs als dit technisch haalbaar is, is het economisch onwaarschijnlijk.


Een grafiek met petabytes in de miljoenen over een periode van 2019-2030. Eerdere prognoses voor de vereisten voor gegevensopslag schatten een mondiale behoefte aan ongeveer 12 miljoen petabytes aan capaciteit in 2030. Het onderzoeksbureau Gartner heeft onlangs nieuwe prognoses uitgebracht en deze schatting met 20 miljoen petabytes verhoogd. De wereld ligt niet op koers om voldoende moderne opslagtechnologieën te produceren om die leemte op te vullen. BRON: GARTNER

Gelukkig hebben we toegang tot een technologie voor informatieopslag die goedkoop, gemakkelijk verkrijgbaar en millennia lang stabiel is bij kamertemperatuur: DNA, het materiaal van genen. Over een paar jaar kan je harde schijf vol staan met zulke squishy-dingen.

Het opslaan van informatie in DNA is geen ingewikkeld concept. Tientallen jaren geleden leerden mensen DNA te sequencen en synthetiseren, dat wil zeggen: het lezen en schrijven. Elke positie in een enkele DNA-streng bestaat uit een van de vier nucleïnezuren, bekend als basen en weergegeven als A, T, G en C. In principe zou elke positie in de DNA-streng kunnen worden gebruikt om twee bits op te slaan (A zou kunnen vertegenwoordigt 00, T kan 01 zijn, enzovoort), maar in de praktijk wordt informatie over het algemeen opgeslagen met een effectieve bit (een 0 of een 1) per basis.

Bovendien overtreft DNA vele malen de opslagdichtheid van magneetband of solid-state media. Er is berekend dat alle informatie op internet – naar schatting ongeveer 120 zettabytes – kan worden opgeslagen in een DNA-volume ter grootte van een suikerklontje, oftewel ongeveer een kubieke centimeter. Het bereiken van die dichtheid is theoretisch mogelijk, maar we zouden kunnen rondkomen met een veel lagere opslagdichtheid. Een effectieve opslagdichtheid van “één internet per 1.000 kubieke meter” zou nog steeds resulteren in iets dat aanzienlijk kleiner is dan de behuizing van een enkel datacenter vandaag de dag.


In 2018 bouwden onderzoekers dit eerste prototype van een machine die gegevens met DNA kon schrijven, opslaan en lezen. MICROSOFT RESEARCH

De meeste voorbeelden van DNA-gegevensopslag tot nu toe zijn gebaseerd op het chemisch synthetiseren van korte stukjes DNA, tot ongeveer 200 basen. Standaard chemische synthesemethoden zijn geschikt voor demonstratieprojecten, en misschien ook voor vroege commerciële inspanningen, waarbij bescheiden hoeveelheden muziek, afbeeldingen, tekst en video worden opgeslagen, tot misschien wel honderden gigabytes. Naarmate de technologie volwassener wordt, zullen we echter moeten overstappen van chemische synthese naar een veel elegantere, schaalbare en duurzamere oplossing: een halfgeleiderchip die enzymen gebruikt om deze sequenties te schrijven.

Nadat de gegevens in het DNA zijn geschreven, moet het molecuul ergens veilig worden bewaard. Gepubliceerde voorbeelden zijn onder meer het drogen van kleine stukjes DNA op glas of papier, het omhullen van het DNA in suiker- of silicadeeltjes, of het gewoon in een reageerbuisje stoppen. Het lezen kan worden bereikt met een willekeurig aantal commerciële sequencingtechnologieën.

Organisaties over de hele wereld zetten al de eerste stappen in de richting van het bouwen van een DNA-drive die DNA-gegevens zowel kan schrijven als lezen. Ik heb aan deze inspanning deelgenomen via een samenwerking tussen Microsoft en het Molecular Information Systems Lab van de Paul G. Allen School of Computer Science and Engineering aan de Universiteit van Washington. We hebben al aanzienlijke vooruitgang geboekt en we zien de weg voorwaarts. Hoe erg is het probleem met de gegevensopslag?

Laten we eerst eens kijken naar de huidige staat van de opslag. Zoals gezegd magnetische tape-opslag heeft een schaalprobleem. Wat de zaken nog erger maakt, is dat tape snel achteruit gaat in vergelijking met de tijdschaal waarop we informatie willen opslaan. Om langer dan tien jaar mee te gaan, moet tape zorgvuldig worden bewaard bij lage temperaturen en een lage luchtvochtigheid, wat doorgaans betekent dat er voortdurend energie wordt verbruikt voor airconditioning. En zelfs als tape zorgvuldig wordt bewaard, moet deze periodiek worden vervangen. We hebben dus meer tape nodig, niet alleen voor alle nieuwe gegevens, maar ook ter vervanging van de tape waarop de oude gegevens zijn opgeslagen.

De eerlijkheid gebiedt te zeggen dat de opslagdichtheid van magneetband al tientallen jaren toeneemt, een trend die ervoor zal zorgen dat we nog een tijdje het hoofd boven de datavloed kunnen houden. Maar de huidige praktijken zorgen voor kwetsbaarheid in het opslagecosysteem. Achterwaartse compatibiliteit wordt vaak gegarandeerd voor slechts een generatie of twee van de hardware die wordt gebruikt om die media te lezen, wat slechts een paar jaar kan duren, waardoor actief onderhoud van verouderde hardware of voortdurende gegevensmigratie vereist is. Alle gegevens die we al digitaal hebben opgeslagen, lopen dus het risico verloren te gaan door technologische veroudering.

Hoe DNA-gegevensopslag werkt

Chris Philpot

De discussie tot nu toe is ervan uitgegaan dat we alle gegevens die we produceren willen behouden, en dat we daarvoor zullen betalen. We moeten de tegenhypothese koesteren: dat we ons in plaats daarvan zullen bezighouden met systematisch vergeten op wereldschaal. Dit vrijwillige geheugenverlies kan worden bereikt door niet zoveel gegevens over de wereld te verzamelen of door niet alle gegevens die we verzamelen op te slaan, en misschien alleen afgeleide berekeningen en conclusies te bewaren. Of misschien heeft niet elke persoon of organisatie dezelfde toegang tot opslag. Als het een beperkte hulpbron wordt, zou dataopslag een strategische technologie kunnen worden die een bedrijf, of een land, in staat stelt alle gewenste data vast te leggen en te verwerken, terwijl concurrenten te kampen hebben met een opslagtekort. Maar tot nu toe zijn er geen tekenen dat producenten van data bereid zijn er iets van te verliezen.

Als we onbedoeld of opzettelijk vergeten willen voorkomen, moeten we met een fundamenteel andere oplossing komen voor het opslaan van gegevens, een oplossing met het potentieel voor exponentiële verbeteringen die veel verder gaan dan wat voor tape wordt verwacht. DNA is veruit de meest geavanceerde, stabiele en compacte technologie voor informatieopslag die mensen ooit zijn tegengekomen of uitgevonden. Leesbaar genomisch DNA is teruggevonden na 2 miljoen jaar bevroren te zijn geweest in de toendra. DNA is een intrinsiek onderdeel van het leven op deze planeet. Voor zover wij kunnen nagaan, bestaat de op nucleïnezuur gebaseerde opslag van genetische informatie al minstens 3 miljard jaar op aarde, waardoor het een onaantastbaar voordeel heeft als achterwaarts en voorwaarts compatibel gegevensopslagmedium. Wat zijn de voordelen van DNA-dataopslag?

Tot nu toe hebben mensen geleerd korte stukjes enkelstrengs DNA (ssDNA) te sequencen en synthetiseren. In natuurlijk voorkomende genomen heeft DNA echter meestal de vorm van lang, dubbelstrengig DNA (dsDNA). Dit dsDNA bestaat uit twee complementaire sequenties die zijn gebonden in een structuur die lijkt op een kronkelende ladder, waarbij suikerskeletten de zijhekken vormen en de gepaarde basen – A met T en G met C – de treden van de ladder vormen. Vanwege deze structuur is dsDNA over het algemeen robuuster dan ssDNA.

Het lezen en schrijven van DNA zijn beide luidruchtige moleculaire processen. Om veerkracht in de aanwezigheid van deze ruis mogelijk te maken, wordt digitale informatie gecodeerd met behulp van een algoritme dat redundantie introduceert en informatie over vele bases verspreidt. De huidige algoritmen coderen informatie met een fysieke dichtheid van 1 bit per 60 atomen (een paar basen en de suikerruggengraat waaraan ze zijn bevestigd).


Edmon de Haro

Het synthetiseren en sequencen van DNA is van cruciaal belang geworden voor de wereldeconomie, voor de menselijke gezondheid en voor het begrijpen hoe organismen en ecosystemen om ons heen veranderen. En waarschijnlijk zullen we er in de loop van de tijd alleen maar beter in worden. Zowel de kosten als de verwerkingscapaciteit per instrument van het schrijven en lezen van DNA zijn de afgelopen tientallen jaren exponentieel verbeterd, wat grofweg in overeenstemming is met de wet van Moore.

In biologielaboratoria over de hele wereld is het nu gebruikelijk om chemisch gesynthetiseerd ssDNA bij een commerciële leverancier te bestellen; deze moleculen worden geleverd in lengtes van maximaal enkele honderden basen. Het is ook gebruikelijk om DNA-moleculen met een lengte tot duizenden basen te sequencen. Met andere woorden: we zetten al digitale informatie om van en naar DNA, maar gebruiken over het algemeen alleen sequenties die logisch zijn in termen van biologie.

Voor de opslag van DNA-gegevens zullen we echter willekeurige reeksen moeten schrijven die veel langer zijn, waarschijnlijk duizenden tot tienduizenden basen. We zullen dat doen door het natuurlijk voorkomende biologische proces aan te passen en het te combineren met halfgeleidertechnologie om invoer- en uitvoerapparaten met hoge dichtheid te creëren.

Er bestaat mondiale belangstelling voor het creëren van een DNA-drive. De leden van de DNA Data Storage Alliance, opgericht in 2020, zijn afkomstig van universiteiten, bedrijven van elke omvang en overheidslaboratoria uit de hele wereld. Financieringsinstanties in de Verenigde Staten, Europa en Azië investeren in de technologie die nodig is om commercieel relevante apparaten op de markt te brengen. Potentiële klanten zo divers als filmstudio's, het Amerikaanse nationale archief en Boeing hebben interesse getoond in langetermijngegevensopslag in DNA.

Archiefopslag zou wel eens de eerste markt kunnen zijn die zich aandient, aangezien het om eenmalig schrijven gaat en slechts zelden lezen, en toch ook stabiliteit over vele decennia, zo niet eeuwen, vereist. Het opslaan van informatie in DNA voor die tijdspanne is eenvoudig haalbaar. Het uitdagende deel is leren hoe je de informatie op een economisch haalbare manier in en uit het molecuul kunt krijgen. Wat zijn de R&D-uitdagingen bij de opslag van DNA-gegevens?

Het eerste geautomatiseerde prototype dat DNA kon schrijven, opslaan en lezen, werd in 2018 gebouwd door mijn collega's van Microsoft en de Universiteit van Washington. Het prototype integreerde standaard sanitair en chemie om het DNA te schrijven, met een sequencer van het bedrijf Oxford Nanopore Technologieën om het DNA te lezen. Dit eenkanaalsapparaat, dat zich op een tafelblad bevond, had een verwerkingscapaciteit van 5 bytes gedurende ongeveer 21 uur, waarbij op 40 minuten na alle tijd werd besteed aan het schrijven van "HALLO" in het DNA. Het was een begin.

Wil een DNA-drive kunnen concurreren met de huidige archieftapedrives, dan moet deze ongeveer 2 gigabit per seconde kunnen schrijven, wat bij aangetoonde opslagdichtheid van DNA-gegevens ongeveer 2 miljard basen per seconde bedraagt. Om dat in context te plaatsen: ik schat dat de totale mondiale markt voor synthetisch DNA vandaag de dag niet meer dan ongeveer 10 terabasen per jaar bedraagt, wat het equivalent is van ongeveer 300.000 basen per seconde over een jaar. De hele DNA-synthese-industrie zou met ongeveer vier ordes van grootte moeten groeien, alleen al om te kunnen concurreren met een enkele tapedrive. Om de totale mondiale vraag naar opslag bij te houden zou tegen 2030 nog eens een verbetering van acht ordes van grootte nodig zijn.

De exponentiële groei van de op silicium gebaseerde technologie is de reden waarom we uiteindelijk zoveel gegevens hebben geproduceerd. Een soortgelijke exponentiële groei zal van fundamenteel belang zijn in de transitie naar DNA-opslag.

Maar mensen hebben dit soort opschaling al eerder gedaan. De exponentiële groei van de op silicium gebaseerde technologie is de reden waarom we uiteindelijk zoveel gegevens hebben geproduceerd. Een soortgelijke exponentiële groei zal van fundamenteel belang zijn in de transitie naar DNA-opslag.

Mijn werk met collega's van de Universiteit van Washington en Microsoft heeft veel veelbelovende resultaten opgeleverd. Deze samenwerking heeft vooruitgang geboekt op het gebied van fouttolerante codering van DNA, het schrijven van informatie in DNA-sequenties, het stabiel opslaan van dat DNA en het herstellen van de informatie door het DNA te lezen. Het team heeft ook de economische, ecologische en architectonische voordelen van DNA-gegevensopslag vergeleken met alternatieven.

Een van onze doelen was het bouwen van een halfgeleiderchip die DNA-synthese met hoge dichtheid en hoge doorvoer mogelijk zou maken. Die chip, die we in 2021 hebben voltooid, heeft aangetoond dat het mogelijk is om elektrochemische processen in miljoenen putten met een diameter van 650 nanometer digitaal te besturen. Hoewel de chip zelf een technologische stap voorwaarts was, had de chemische synthese die we op die chip gebruikten een aantal nadelen, ondanks dat deze de industriestandaard was. Het grootste probleem is dat er gebruik wordt gemaakt van een vluchtig, bijtend en giftig organisch oplosmiddel (acetonitril), dat geen enkele ingenieur in de buurt van de elektronica van een werkend datacenter wil hebben.

Bovendien concludeer ik, op basis van een duurzaamheidsanalyse van een theoretisch DNA-datacenter, uitgevoerd door mijn collega's bij Microsoft, dat de hoeveelheid acetonitril die nodig is voor slechts één groot datacenter, laat staan voor veel grote datacenters, logistiek en economisch onbetaalbaar zou worden. Zeker, elk datacenter zou kunnen worden uitgerust met een recyclingfaciliteit om het oplosmiddel te hergebruiken, maar dat zou kostbaar zijn.

Gelukkig is er een andere opkomende technologie voor het construeren van DNA waarvoor dergelijke oplosmiddelen niet nodig zijn, maar in plaats daarvan gebruik wordt gemaakt van een goedaardige zoutoplossing. Bedrijven als DNA Script en Molecular Assemblies commercialiseren geautomatiseerde systemen die enzymen gebruiken om DNA te synthetiseren. Deze technieken vervangen de traditionele chemische DNA-synthese voor sommige toepassingen in de biotechnologie-industrie. De huidige generatie systemen maakt gebruik van eenvoudige leidingen of licht om synthesereacties te controleren. Maar het is moeilijk voor te stellen hoe ze kunnen worden geschaald om een doorvoersnelheid te bereiken die hoog genoeg is om een apparaat voor DNA-gegevensopslag mogelijk te maken dat zelfs maar met een fractie van 2 gigabase per seconde kan werken.


Een grafiek die de tijd en Amerikaanse dollars voor DNA-sequencing en -synthese weergeeft. De prijs voor het sequencen van DNA is gedaald van 25 dollar per base in 1990 tot minder dan een miljoenste cent in 2024. De kosten voor het synthetiseren van lange stukken dubbelstrengig DNA zijn ook gedaald, maar de synthese moet veel goedkoper worden wil de opslag van DNA-gegevens echt van de grond komen. BRON: ROB CARLSON

Toch zijn de enzymen in deze systemen belangrijke stukjes van de DNA-drive-puzzel. Net als de opslag van DNA-gegevens is het idee om enzymen te gebruiken om DNA te schrijven niet nieuw, maar commerciele enzymatische synthese werd pas de laatste paar jaar mogelijk. De meeste van dergelijke processen maken gebruik van een enzym dat terminaal deoxynucleotidyltransferase of TdT wordt genoemd. Terwijl de meeste enzymen die op DNA werken de ene streng als sjabloon gebruiken om de andere streng in te vullen, kan TdT willekeurige basen toevoegen aan enkelstrengs DNA.

Natuurlijk voorkomend TdT is geen geweldig enzym voor synthese, omdat het de vier basen met vier verschillende efficiënties bevat, en het is moeilijk te controleren. De inspanningen van het afgelopen decennium waren gericht op het modificeren van de TdT en het inbouwen ervan in een systeem waarin het enzym beter kan worden gecontroleerd.

Deze wijzigingen aan TdT zijn met name mogelijk gemaakt door tientallen jaren van verbetering in het lezen en schrijven van DNA, en de nieuwe gemodificeerde enzymen dragen nu bij aan verdere verbeteringen in het schrijven en dus wijzigen van genen en genomen. Dit fenomeen is hetzelfde soort feedback dat tientallen jaren van exponentiële verbetering in de halfgeleiderindustrie heeft veroorzaakt, waarin bedrijven beter capabele siliciumchips gebruikten om de volgende generatie siliciumchips te ontwerpen. Omdat die feedback in beide arena's snel doorgaat, zal het niet lang meer duren voordat we de twee technologieën kunnen combineren in één functioneel apparaat: een halfgeleiderchip die digitale signalen omzet in chemische toestanden (bijvoorbeeld veranderingen in de pH), en een enzymatisch systeem dat op deze chemische toestanden reageert door specifieke, individuele basen toe te voegen om een streng synthetisch DNA te bouwen.

Het team van de Universiteit van Washington en Microsoft, dat samenwerkte met het enzymatische synthesebedrijf Ansa Biotechnologies, heeft onlangs de eerste stap in de richting van dit apparaat gezet. Met behulp van onze chip met hoge dichtheid hebben we met succes de elektrochemische controle van enzymatische toevoegingen met één base aangetoond. Het project wordt nu gepauzeerd terwijl het team mogelijke volgende stappen evalueert. Maar zelfs als deze inspanning niet wordt hervat, zal iemand de technologie laten werken. Het pad is relatief duidelijk; het opbouwen van een commercieel relevante DNA-drive is simpelweg een kwestie van tijd en geld.


Edmon de Haro

Verder kijken dan de opslag van DNA-gegevens

Uiteindelijk zal de technologie voor DNA-opslag de economie van het lezen en schrijven van allerlei soorten genetische informatie volledig veranderen. Zelfs als de prestatielat ver onder die van een tapedrive ligt, zal elke commerciële operatie die gebaseerd is op het lezen en schrijven van gegevens in DNA een doorvoer hebben die vele malen groter is dan die van de hedendaagse DNA-synthese-industrie, met verwaarloosbaar lage kosten per base.

Tegelijkertijd zal de vooruitgang in de DNA-synthese voor DNA-opslag de toegang tot DNA voor andere toepassingen vergroten, met name in de biotechnologie-industrie, en daardoor de mogelijkheden vergroten om het leven te herprogrammeren. Ergens later, wanneer een DNA-drive een doorvoersnelheid van 2 gigabases per seconde (of 120 gigabases per minuut) bereikt, zou deze box het equivalent van ongeveer 20 volledige menselijke genomen per minuut kunnen synthetiseren. En wanneer mensen onze toenemende kennis over hoe we een genoom kunnen construeren combineren met toegang tot effectief vrij synthetisch DNA, zullen we een heel andere wereld betreden.

De gesprekken die we vandaag voeren over bioveiligheid, wie toegang heeft tot de DNA-synthese, en of deze technologie onder controle kan worden gehouden, zijn nauwelijks een schets van wat ons te wachten staat. We zullen microben kunnen ontwerpen om chemicaliën en medicijnen te produceren, maar ook planten die ongedierte kunnen afweren of mineralen uit de omgeving kunnen opnemen, zoals arseen, koolstof of goud. Bij 2 gigabasen per seconde zal het ontwikkelen van biologische tegenmaatregelen tegen nieuwe ziekteverwekkers een kwestie van minuten duren. Maar dat geldt ook voor het construeren van de genomen van nieuwe ziekteverwekkers. Deze informatiestroom tussen het digitale en het biologische zal ertoe leiden dat elk beveiligingsprobleem uit de IT-wereld ook in de wereld van de biologie zal worden geïntroduceerd. We zullen waakzaam moeten zijn over deze mogelijkheden.

We beginnen nog maar net te leren hoe we systemen moeten bouwen en programmeren die digitale logica en biochemie integreren. De toekomst zal niet worden gebouwd op DNA zoals wij het vinden, maar op DNA zoals wij het zullen schrijven.