Deel dit artikel

dankzij steeds krachtigere computerchips en het groeiende internet produceren we steeds meer digitale data. die enorme hoeveelheid aan gegevens moet uiteraard ook ergens in een datacenter worden opgeslagen. de capaciteit van die dataopslag bereikt echter stilaan zijn grenzen. daar komt nog bij dat onze huidige media voor databewaring in feite niet bestand zijn tegen de tand des tijds. recente doorbraken wijzen in de richting van dna als een nieuw, veelbelovend medium voor het opslaan van digitale data zowel in de proefbuis als in levende wezens. het dna kan in dit laatste geval zelfs worden gebruikt voor het (her)programmeren van levende wezens.

DNA als nieuw medium voor het opslaan van computerdata

Mark Veugelers

Dankzij steeds krachtigere computerchips en het groeiende internet produceren we steeds meer digitale data. Van foto’s die we met onze smartphones op Facebook of Instagram plaatsen tot video’s op YouTube – er lijkt geen einde te komen aan nieuwe databronnen die we op het internet aansluiten. Ongeveer 90 procent van de huidige digitale data is ‘vers’, niet ouder dan twee jaar. Alleen al in 2015 werden meer dan 4.4 zettabytes of 4.4 * 1021 bytes geproduceerd. Hoe meer data, hoe beter? Je zou denken van wel. ‘Big data’ zijn een waardevolle bron van competitieve informatie: studies tonen aan dat bedrijven die data verzamelen en analyseren, een grotere productiviteit en winstmarge hebben dan bedrijven zonder een bigdatastrategie. Google en Facebook, die beide enorme hoeveelheden data opslaan en analyseren, staan niet voor niets in de top vijf van de meest waardevolle bedrijven.
De massale berg digitale data die we met z’n allen produceren en online delen moet uiteraard ook ergens in een datacenter worden opgeslagen, en hier zitten mogelijk enkele problemen.

Een eerste probleem is dat we tegen de grenzen aanlopen van onze capaciteit om data op te slaan. Gewoonweg meer opslagmedium produceren lijkt geen optie, omdat er investeringen van honderden miljarden nodig zijn voor de productie van nieuwe hightechfabrieken om bijkomende dataopslagmedia te produceren. Een tweede probleem is dat onze huidige media voor databewaring niet bestand zijn tegen de tand des tijds. Een harde schijf gaat amper drie tot vijf jaar mee, cd’s/dvd’s vijf tot tien jaar en een magnetische tape tien tot twintig jaar. Er is dus een risico dat al die waardevolle data binnen onafzienbare tijd niet meer leesbaar zijn. Moeten we dan terug naar de middeleeuwen, waar de monniken informatie opsloegen in handgeschreven boeken, die wél tot vandaag overleven? Gelukkig niet. Recente doorbraken wijzen in de richting van DNA als een nieuw, veelbelovend medium voor de opslag van digitale data.

DNA wordt door levende wezens gebruikt als opslagmedium voor erfelijke informatie. De DNA-data, opgeslagen in het genoom, codeert voor informatie om eiwitten op te bouwen die de cel nodig heeft om te leven. In 1953 publiceerden James Watson en Francis Crick in het tijdschrift Nature een absolute mijlpaal in de geschiedenis van de biologie. Hun artikel ‘A Structure for Deoxyribose Nucleic Acid’ beschrijft hoe DNA een dubbele helixstructuur aanneemt, waarbij de individuele bouwstenen – de nucleotiden A, C, G, T – op specifieke wijze met elkaar interageren, waarbij een A altijd met een T paart, en een C met een G. Wat onmiddellijk opviel bij het ontrafelen van de structuur van DNA was hoe elegant de erfelijke informatie in DNA opgeslagen is: de dubbele helix bestaat uit twee complementaire DNA-strengen, waarbij een van de strengen aan de volgende generatie wordt doorgegeven. Een enkele DNA-streng bevat voldoende informatie om de dubbele helix terug op te bouwen. De code voor de opslag van erfelijke informatie in DNA is een quaternaire code: elke geheugenopslagplaats heeft vier mogelijke waarden, namelijk een van de vier nucleotiden A, C, G of T. Voor computers heeft elke geheugenopslagplaats twee mogelijke waarden: een 0 of 1, het is dus een binair systeem. Computers maken gebruik van een binair systeem omdat ze gebaseerd zijn op elektrische circuits, die gemakkelijk met twee inputs of outputs kunnen werken (de schakelaar staat ofwel aan ofwel uit). DNA is een interessant medium voor archivering van data omdat het een zeer hoge dataopslagdensiteit heeft, met een ruwe limiet van 1 exabyte per kubieke millimeter (de grootte van een zandkorrel). Dat is bijna een miljoen keer meer dan optische/magnetische platformen. 1 exabyte komt overeen met ongeveer 200 miljoen dvd’s.

DNA is een interessant medium voor archivering van data omdat het een zeer hoge dataopslagdensiteit heeft

Een vereiste voor een opslagmedium is uiteraard dat men dit medium efficiënt kan (be)schrijven en lezen. Doorbraken in nieuwe technologieën voor zowel het lezen (sequenering) en schrijven (synthese) van DNA, alsook het maken van DNA-modificaties (editering) met specifieke enzymes, hebben nu de deur geopend voor het gebruik van DNA als opslagmedium voor digitale data. De kost voor het lezen van DNA via sequenering is de afgelopen tien jaar spectaculair gedaald, met als resultaat dat men nu een humaan genoom (3 miljard nucleotiden) kan aflezen voor 1 000 dollar. Ook de technologie voor het schrijven of synthetiseren van DNA staat momenteel op een kantelpunt met in de laatste twee jaar een tienvoudige kostenverlaging. Recent hebben enkele bedrijven exponentiële kostenverlagingen aangekondigd met als doel de productie van synthetisch DNA zo goedkoop te maken dat een synthetisch humaan genoom voor 1 000 dollar tegen 2020 haalbaar zou moeten zijn. De DNA-synthese of synthetische biologie-industrie staat momenteel in volle bloei: sinds september 2015 werd alleen al in de Verenigde Staten meer dan een half miljard euro aan investeringen gepompt in deze sector, maar ook in de rest van de wereld boomt SynBio. De sterren staan dus gunstig voor het potentieel van synthetisch DNA.

Hoe kan men nu synthetisch DNA gebruiken als opslagmedium? In twee recente studies werden data van miljoenen boeken, geluidsfragmenten, beelden en Wikipedia-webpagina’s digitaal gecodeerd en vervolgens gesynthetiseerd als DNA. Om te bewijzen dat er geen fouten opgetreden waren bij dit proces, werd het DNA gedecodeerd door DNA-sequenering. Dit toonde aan dat het hele proces correct verlopen was: de informatie opgeslagen in het DNA kon foutloos worden gelezen en terug omgezet naar de originele digitale data. Bij het opslaan van de data werd een digitaal bestand (zij het een jpeg-foto, mp3, pdf of ACSII-text) in digitale code van 0-1-0-1’s omgezet in een DNA-code van A-C-G-T’s en vervolgens chemisch gesynthetiseerd. Het resultaat is een verzameling van verschillende DNA-moleculen in een testtube. De DNA-synthese wordt uitgevoerd zodat er geen repetitieve DNA-sequenties ontstaan (wat momenteel moeilijker te lezen is). In plaats van één lange DNA-streng te maken (synthese van lange DNA-moleculen is moeilijker), wordt het DNA geproduceerd in een set van verschillende korte DNA-moleculen die overlap in sequentie hebben. Dankzij die overlappende DNA-sequenties wordt het mogelijk om de individuele korte sequenties gecodeerd in de korte DNA-moleculen samen te voegen tot één zeer lange DNA-sequentie. Beide strategieën reduceren de fouten bij de decodering van de DNA-sequentie significant. Als men de opgeslagen data wenst te lezen kan men met behulp van de polymerase kettingreactie (PCR) de concentratie van de DNA-fragmenten specifiek doen toenemen, zodat de DNA-sequenties met een instrument voor DNA-sequencing gelezen kunnen worden. De DNA-sequenties van A-C-G-T’s worden daarbij terug omgezet in 0-1-0-1’s, zodat de originele data opnieuw kunnen worden samengesteld.

De informatie opgeslagen in het DNA kon foutloos worden gelezen en terug omgezet naar de originele digitale data

Het concept is alvast veelbelovend. Het grote voordeel van deze manier van dataopslag is dat de data voor lange tijd stabiel zijn, met een halfwaardetijd van ten minste vijfhonderd jaar, en mogelijk veel langer, zoals blijkt uit experimenten die een lang tijdsverloop simuleren. Er zijn natuurlijk ook nog nadelen aan DNA-gebaseerde opslag. De zogenaamde latentietijd is momenteel niet optimaal: het duurt toch enkele dagen om het DNA synthetisch aan te maken en ook het aflezen van het DNA en omzetting in digitale data neemt wat tijd in beslag. De kosten van sequenering en synthese zijn vandaag ook nog te hoog om op grote schaal te kunnen doorbreken. Voorlopig is dit systeem dus alleen interessant voor langetermijnarchivering. Een gsm of laptop met DNA-gebaseerde opslag is dus nog niet voor morgen. Met de exponentiële toename van de mogelijkheden voor DNA-synthese en DNA-sequenering, en nieuwe technologiën die deze minpunten aanpakken lijkt het wel niet langer ondenkbaar dat zulke systemen in de komende decennia praktische toepassingen vinden.

Dat het hier gaat om meer dan een academische studie, blijkt uit werk van wetenschappers van het bedrijf Microsoft. Zij publiceerden onlangs over de ontwikkeling van een verbeterd, op DNA gebaseerd archiveringssysteem dat toelaat om snel naar gegevens te zoeken in een in DNA opgeslagen dataset – ongeveer zoals men bij een cd kan overspringen naar een volgend nummer. Tot voorheen was de enige manier om specifieke data terug te vinden het aflezen van de volledige DNA-sequentie. Dat het Microsoft menens is met synthetisch DNA blijkt ook uit hun recente aankondiging van een investering in de grootschalige productie van synthetisch DNA bij het bedrijf DNA-maker Twist Bioscience.

Nu opslag van computerdata in DNA mogelijk wordt in de proefbuis, is het slechts een klein stapje verder om deze data ook in het DNA van levende cellen op te slaan

Nu opslag van computerdata in DNA mogelijk wordt in de proefbuis, is het slechts een klein stapje verder om deze data ook in het DNA van levende cellen op te slaan. DNA in levende cellen heeft bovendien een eigenschap die fundamenteel verschilt van andere statische opslagbronnen: als bron van erfelijk materiaal kan het worden gereproduceerd en doorgegeven aan de volgende generatie. Een levend organisme kan geen onderscheid maken tussen ‘natuurlijk’ en ‘chemisch gesynthetiseerd’ DNA. Indien men een stukje chemisch gesynthetiseerd DNA inbouwt in het natuurlijke DNA van een organisme, zal de cel dit niet als vreemd herkennen en het doorgeven aan de nakomelingen. Amerikaanse onderzoekers gingen nog een stapje verder: in een huzarenwerk werd het volledige genoom van een bacterie synthetisch nagemaakt, zij het met enkele kleine correcties, inclusief ‘watermerken’ waarbij in het DNA via een code informatie opgeslagen werd die na decodering info gaf over een webadres, alsook quotes en de namen van de wetenschappers die het DNA aangemaakt hadden. Vervolgens werd dit synthetische DNA gebruikt om een leeg celomhulsel op te starten, waarna de synthetische cellen begonnen te groeien. In een eerste stap werd een bijna exacte kopie gemaakt van een bestaand bacterieel genoom. Eens dat lukte, werd de lat hoger gelegd: de wetenschappers kozen bepaalde genen en door het uittesten van verschillende combinaties werd een cel ontworpen met een ‘minimaal’ design om leven mogelijk te maken. Nu wetenschappers steeds beter de basisprocessen willen begrijpen die cellen in leven houden, groeit de interesse om synthetische genomen te ontwikkelen. Via een arsenaal aan nieuwe technologieën lukt het ons vandaag steeds beter om genomen te hercoderen of chemisch te synthetiseren.

Tot dusver waren deze technologiën veeleer het domein van organismen met eenvoudige, kleine genomen, zoals microben, maar dankzij onder meer de CRISPR-editeertechnologie kan men nu ook zeer gemakkelijk meer complexe genomen, inclusief het menselijke genoom, gaan editeren. CRISPR is een technologie die het toelaat om doelgericht op eender welke plaats in het genoom een DNA-code te wijzigen, en zo het genoom te her-coderen. Het achterliggende idee is dat men met DNA-editering nieuwe genomen zou kunnen ontwikkelen met interessante (commerciële/therapeutische) eigenschappen, of dat men beschadigde genomen zou kunnen genezen, bijvoorbeeld in tumorcellen of bij patiënten met genetische ziektes. Het is met die technologie echter ook mogelijk om data in de vorm van DNA op te slaan in levende cellen en er zelfs computerberekeningen mee te doen.

Levende cellen zijn continu bezig met het verwerken van signalen die de cel ontvangt. De cel beschikt hiervoor over complexe circuits, opgeslagen in het DNA, die de cel in leven houden en toelaten om input en output perfect op elkaar af te stemmen. Bio-ingenieurs proberen deze circuits door DNA-editering te hertekenen voor biomedische en biotechnologische applicaties. Dit zou het mogelijk maken om nieuwe circuits te ontwerpen die in reactie op bepaalde triggers (ziekte, aanwezigheid van bepaalde processen, chemische stimuli, licht) een bepaalde actie ondernemen (genexpressie, opslag van genetische informatie, foutcorrectie). Deze genetische circuits laten toe om complexe logische functies uit te oefenen (in computertaal: AND, OR), waarbij cellen ‘geprogrammeerd’ worden om te functioneren zoals een computer. In principe zou men cellen kunnen herprogrammeren zodat ze signalen uit hun omgeving detecteren en die detectie omzetten in informatie, gecodeerd in hun DNA. Dit kan via een ingenieus systeem, ‘cellular recorders integrating biological events (SCRIBE)’. Dit systeem bestaat uit twee componenten: een ‘retron’, een eiwit dat een specifieke enkelstrengige DNA-sequentie produceert als antwoord op een specifieke stimulus, en een ‘recombinase’, een eiwit dat DNA editeert. Indien de stimulus aanwezig is, zal het retron enkelstrengig DNA produceren. Het recombinase gebruikt dit enkelstrengige DNA als kompas om op een specifieke plaats in het genoom, zoals bijvoorbeeld een inactief antibioticaresistentiegen van de bacterie, een wijziging aan te brengen. Als gevolg van de stimulus zal dit gen dan geherprogrammeerd worden tot een actief antibioticaresistentiegen. Het resultaat is dat een antibioticaselectie alleen de bacteriën die blootgesteld werden aan de stimulus zal laten overleven, vermits die bacteriën resistent geworden zijn tegen de antibiotica. Het SCRIBE-systeem werkt dus als een ‘levende’ taperecorder: de ontwikkelaar van het systeem bepaalt waar de detectie van het signaal opgeslagen wordt in het DNA. Ook belangrijk is dat de opgeslagen informatie een erfelijk kenmerk wordt en dus wordt doorgegeven aan alle dochtercellen. Het mooie aan dit systeem is dat het via DNA-sequenering van de bacteriële populatie toelaat de grootte en tijdsduur van de stimulus te meten: hoe meer bacteriën in de originele populatie geherprogrammeerd zijn, hoe groter of langer de stimulus was. SCRIBE meet dus analoge signalen.

SCRIBE heeft ook mogelijke toepassingen in milieutesting en in de ontwikkeling van biosensors: bacteriën uitgerust met SCRIBE zouden als milieusensors in de watervoorziening kunnen meten of er toxines aanwezig waren en als een computer deze data vervolgens in hun DNA opslaan. Of ze zouden het CO2-gehalte of de zuurtegraad kunnen testen. Er zijn ook toepassingen mogelijk in de diagnostiek: bacteriën met SCRIBE zouden in het spijsverteringsstelsel van patiënten de dieetopname van suikers en vetten kunnen detecteren en kunnen meten of er bepaalde ziekteprocessen aanwezig zijn, waarbij al die info in het bacterieel DNA zou worden gecodeerd. Tot dusver werkt SCRIBE alleen voor bacteriën, een gelijkaardig systeem in dierlijke cellen zou het mogelijk maken om te meten wanneer bijvoorbeeld neuronen actief zijn.
Ongetwijfeld zorgt de intersectie van informatica en biotechnologie voor nieuwe interessante kruisbestuivingen. Niet zo vreemd aangezien beide domeinen data-intensief zijn: biotech met genetische data, informatica met computerdata. En terwijl onze cellen al miljoenen jaren aan computing doen met de data die opgeslagen zijn in ons DNA, komt er in de toekomst misschien een laptop of gsm die ook op DNA draait.

Megan Scudellari, ‘Inner workings: DNA for data storage and computing’, in: PNAS, 2015, 112, 52.
http://www.pnas.org/content/112/52/15771.lo

Mark Veugelers is als Senior Science Policy Manager verbonden aan het VIB.

Deel dit artikel
Gerelateerde artikelen