Deel dit artikel

fouten in ons dna veroorzaken tal van ziekten, zoals erfelijke aandoeningen en kanker. de identificatie en interpretatie van die fouten vormen een centraal thema in biomedisch onderzoek. hoewel de volledige sequentie van de basenparen in de dna-ladder al sinds 2001 gekend is, weet men nog maar van een kleine fractie welke functie die vervult in onze ontwikkeling, metabolisme en gedrag. Het encode-project heeft nu het ambitieuze doel om de functie te achterhalen van elke nucleotide in het menselijk genoom.

Big data en de encyclopedie van ons DNA

Stein Aerts

Ons DNA bevat de volledige ‘code’ of set van instructies om vanuit een enkele bevruchte eicel een volledig ontwikkelingsprogramma te ontplooien en een complex organisme te vormen dat leeft en interageert met zijn omgeving. Deze gigantische hoeveelheid informatie wordt opgeslagen in enkele picogrammen DNA als een specifieke sequentie of opeenvolging van moleculaire bouwstenen. Sinds 1953 weten we, dankzij Watson en Crick, dat DNA een dubbele helix vormt die opgebouwd is uit slechts vier verschillende bouwstenen of nucleotiden – A (Adenine) dat altijd paart met T (Thymine), en G (Guanine) dat altijd paart met C (Cytosine). De volgorde waarin deze basenparen gerangschikt zijn in de DNA-ladder bepaalt de unieke eigenschappen van een organisme. Bij de mens bestaat de ladder uit drie miljard treden waarvan de volledige sequentie sinds 2001 gekend is. Uitgeprint in boekvorm beslaat dit 130 volumes en zou het tegen een snelheid van één letter per seconde, 95 jaar duren om uit te lezen. Vandaag, twaalf jaar na de bepaling van de sequentie van de basen, weten we echter slechts van een zeer kleine fractie welke functie die vervult in onze ontwikkeling, metabolisme of gedrag. Een fascinerende wereld van onwetendheid openbaart zich met mondjesmaat aan een nieuwe generatie ‘big data’-wetenschappers.

Fouten in de genoomsequentie (of mutaties) veroorzaken tal van ziekten, waaronder erfelijke aandoeningen en kanker. De identificatie en interpretatie van dergelijke fouten in ons DNA vormen dan ook een centraal thema in de biologie en in het biomedische onderzoek. Ook in de landbouwsector is kennis van veranderingen in het DNA en de gevolgen daarvan zeer waardevol, aangezien eigenschappen als opbrengst of resistentie tegen ziekten bij planten en dieren mede worden bepaald door hun DNA-sequentie. Daarom hebben gerichte veranderingen in het DNA van dieren en planten ook interessante toepassingen voor de mens (de zogenaamde Genetisch Gemodificeerde Organismen of GMO’s). Bovendien is het mogelijk in ons DNA evolutionaire principes te bestuderen, dankzij vergelijkingen met genoomsequenties van andere soorten. Natuurlijke selectie werkt immers in op mutaties in het DNA, waardoor morfologische en andere verschillen tussen organismen terug te brengen zijn tot verschillen in DNA-sequentie. Een volledige kennis van de genoomsequentie kan verder ook de deur openen tot vernieuwde vormen van gentherapie en ontelbare toepassingen van synthetische biologie.

Sinds de beschikbaarheid van volledige genoomsequenties zijn genetici en bio-informatici verwoed aan het werk om de vierlettercode te kraken en de DNA-taal te ontcijferen

Maar voor we zover zijn dienen we dus te achterhalen welke van onze drie miljard basenparen een specifieke functie hebben, en welk gedeelte van ons genoom niet-functioneel ‘junk’ DNA is. Sinds de beschikbaarheid van volledige genoomsequenties zijn genetici en bio-informatici verwoed aan het werk om de vierlettercode te kraken en de DNA-taal te ontcijferen. We maken in de DNA-code een onderscheid tussen eiwitcoderende sequenties en niet-eiwitcoderende sequenties, waarbij de eiwitten de structurele en functionele bouwstenen zijn van onze cellen. De sequenties die coderen voor eiwitten liggen vervat in ongeveer 20.000 genen die zeer sterk overeenkomen tussen verschillende soorten. Het histoneiwit dat DNA ‘verpakt’ in chromatine bijvoorbeeld is zelfs exact hetzelfde bij planten en dieren. Een eiwit bestaat uit een specifieke opeenvolging van aminozuren, en de volgorde waarin aminozuren voorkomen wordt direct afgeleid uit de al lang gekende ‘genetische code’. Die code, die vervat zit in eiwitcoderende sequenties, bestaat uit tripletten van drie basenparen (‘codons’), waarbij elk codon overeenkomt met een bepaald aminozuur. Bio-informatica-algoritmen gebruiken deze code, en hebben zo alle eiwitcoderende genen in het menselijke genoom kunnen lokaliseren. Van vele genen is de functie van hun eiwitten nog niet gekend, maar vanuit het perspectief van de DNA-code is dit belangrijkste deel van de code ‘opgelost’. Dankzij de kennis van de code kunnen we immers binnen eiwitcoderende sequenties variaties of mutaties identificeren, interpreteren, en vervolgens de mogelijke consequentie van die verandering op eiwitniveau behoorlijk accuraat voorspellen.

Verrassend genoeg beslaan de eiwitcoderende genen minder dan twee procent van de totale drie miljard basen menselijke sequentie. Wat is dan de rol van de overige 98 procent van het DNA dat we van generatie op generatie doorgeven aan onze nakomelingen, en dat naar elk van de miljarden cellen in ons lichaam wordt gekopieerd? De functie achterhalen van elke nucleotide in het menselijke genoom is het ambitieuze doel van ENCODE. Op 6 september 2012 verschenen zes artikels in het tijdschrift Nature, samen met tientallen artikels in de tijdschriften Genome Research en Genome Biology. Samen beschrijven ze de resultaten van een grootschalig internationaal samenwerkingsproject, de ENCyclopedia of DNA Elements. Meer nog dan het aantal artikels zijn vooral de honderden terabytes aan data die beschikbaar werden gemaakt indrukwekkend. In totaal werden 1 640 genomische experimenten uitgevoerd op het totale menselijke DNA, waarbij telkens elk van de drie miljard bouwstenen op een andere manier werd ondervraagd, gemeten en getest doorheen 147 verschillende celtypes (zowel cellijnen als primaire celtypes, voornamelijk geselecteerd op basis van hun beschikbaarheid en makkelijke groeicondities), met als ultieme doel zoveel mogelijk functionele elementen in ons genoom te beschrijven.

Het eiwitcoderende DNA op zichzelf vervult in feite geen functie in onze cellen, behalve wanneer het wordt afgeschreven tot RNA (transcriptie). Dit RNA kan op zichzelf een functie hebben in de cel, of het kan door de ribosomen in de cel worden vertaald tot een eiwit (translatie). In ENCODE werden van verschillende celtypes alle aanwezige RNA-moleculen geëxtraheerd. Vervolgens werd de volledige sequentie van al deze tien- tot honderdduizenden RNA-moleculen (het volledige transcriptome) in bulk bepaald, dankzij de nieuwste generatie ‘DNA sequencers’. Door het opnieuw vergelijken (of ‘mappen’) van deze sequenties met de menselijke referentiesequentie kan worden achterhaald welke delen van het genoom, dus welke genen, in welk celtype worden afgeschreven. Aan de hand van die vergelijkingen werden de grenzen en de precieze samenstelling van alle genen tot in detail bepaald. ENCODE ontdekte daarbij dat er veel meer transcriptie plaatsvindt in het genoom dan voorheen gedacht, met een cumulatieve dekking (over vijftien celtypes) van meer dan zestig procent van het genoom. Tussen al die transcripten blijken zeer veel niet-eiwitcoderende RNA-genen te bestaan, waarvan de transcripten voornamelijk in de celkern blijven en daar vermoedelijk regulatorische functies uitoefenen. Dit is opnieuw een wereld van onwetendheid die zich openbaart, en die zorgt voor een enorme nood aan functionele studies.

Het belangrijkste onderwerp van de experimenten in ENCODE zijn de regulatorische elementen in het genoom: de schakelaars die bepalen waar, wanneer en hoeveel elk gen in het genoom tot expressie komt

Het belangrijkste onderwerp echter van de experimenten in ENCODE zijn de regulatorische elementen in het genoom: alle schakelaars die bepalen waar, wanneer en hoeveel elk gen in het genoom tot expressie komt. Deze schakelaars bevinden zich zowel tussen de genen (intergenisch) als binnenin de genen. De experimenten die werden uitgevoerd om de locatie van regulatorische elementen te bepalen zijn net als bij de studie van transcriptie gebaseerd op hogedoorvoersequentiebepalingen. Dankzij biochemische technieken kunnen specifieke niet-coderende elementen met een bepaalde functie, zoals bepaalde regulatorische gebieden, worden opgevist uit de cel, vervolgens en masse gesequenced, en via mapping op het referentiegenoom worden geïdentificeerd.

De voornaamste klasse van schakelaars die verspreid liggen in en tussen de genen zijn de zogeheten ‘promoters’ en ‘enhancers’, die samen het gros van de genomische controle voor hun rekening nemen. Deze DNA-gebieden van enkele honderden basenparen worden herkend door speciale eiwitten, de transcriptiefactoren (TF), die op deze gebieden kunnen binden en daardoor bepalen hoeveel en hoe snel een gen wordt afgeschreven tot RNA. De sequentie in de promoters en enhancers bevat de tot nu toe niet-ontcijferde regulatorische code. Men kan stellen dat elk organisme een uniek plan heeft dat geschreven is in de regulatorische code. Dit plan schetst het volledige ontwikkelingsprogramma, en is vergelijkbaar met een architecturaal bouwplan: met nagenoeg dezelfde stenen kan een bibliotheek of treinstation worden gebouwd, afhankelijk van de architect en het bouwplan. Analoog hieraan kan in de natuur met nagenoeg dezelfde genen een fruitvlieg, een eekhoorn of een gorilla worden gemaakt, afhankelijk van het regulatorische plan.

Een uiterst nauwkeurige techniek om te achterhalen welke regio’s in het genoom deel uitmaken van dit complexe controlesysteem, is het DNA in stukken knippen met een enzyme (DNaseI), dat veel frequenter knipt in promoters en enhancers omdat er op die plaatsen een minder compacte structuur van DNA en eiwitten wordt gevormd. Een vereiste om actief te zijn als promoter of enhancer is immers dat een open structuur wordt gegenereerd, waardoor er plaats is voor de transcriptiefactoren om te binden. Dankzij DNaseI-experimenten werden meer dan 200 000 open regio’s per celtype ontdekt, en in totaal meer dan twee miljoen actieve promoters en enhancers in ons genoom. Dit is opnieuw een heel onbekend terrein, en een enorme opgave om de functie van al die enhancers te achterhalen.

Het ENCODE-project heeft ook al een eerste stap gezet naar een verdere ontcijfering van al deze enhancers. Om te achterhalen hoe de regulatorische code wordt ‘uitgelezen’ door transcriptiefactoren (TFs), werd een groot aantal ‘snapshots’ genomen van cellen, waarbij alle gebonden TFs aan het DNA worden gefixeerd. Daarna kan voor elk van 119 verschillende TFs worden bepaald waar ze gebonden waren. Zoals verwacht, bestaat er een combinatorische complexiteit, waarbij sommige enhancers gebonden kunnen worden door zeer veel TFs. Samen met de DNaseI-metingen werden die gegevens al gebruikt in de eerste pogingen om mutaties geassocieerd met ziekten te interpreteren, alsook variaties in de menselijke populatie geassocieerd met individuele verschillen. De DNAseI en de TF-bindingsplaatsen bevestigen ook dat veel enhancers ver verwijderd zijn van hun doelgenen, en deze verafgelegen enhancers blijken andere combinaties van TFs gebonden te hebben dan dichterbij gelegen elementen of promoters. Dankzij deze grote hoeveelheid datapunten kon men al achterhalen welke ‘woorden’ of motieven in het DNA aanwezig moeten zijn opdat een TF kan binden, en dankzij verder onderzoek kan men nu ook computermodellen opmaken die trachten deze regulatorische code beter te begrijpen en te voorspellen.

Om het allemaal nog iets ingewikkelder te maken zijn er nog bijkomende lagen van controle. DNA vormt immers geen lineaire structuur in de kern van onze cellen. De enorm lange DNA-streng, die wel drie meter lang is van kop tot staart, moet namelijk opgerold worden binnen een zeer kleine celkern van slechts vijf micron diameter (vijfduizend keer kleiner dan een centimeter). Deze verpakking gebeurt niet als naakt DNA maar als chromatine (de associatie van DNA en eiwitten die chromosomen vormen). Dit chromatine heeft een specifieke samenstelling en activiteit dankzij chemische modificaties op bepaalde plaatsen. Daarnaast heeft het een driedimensionale structuur in de kern waardoor bepaalde enhancers contact kunnen maken met bepaalde promoters in de buurt, maar niet met sommige andere promoters. Hierdoor kunnen genen worden afgeschermd van de invloed van te sterke schakelaars, zodat niet alle genen te pas en te onpas worden aangeschakeld. Deze chromatinemodificaties en chromatine-interacties vormen een belangrijke regulatorische laag die verweven is met de binding van regulatorische eiwitten (de TFs). Ook hier heeft ENCODE een belangrijke bijdrage geleverd door het systematisch bepalen van verschillende modificaties doorheen verschillende celtypes, en door na te gaan hoe die kunnen worden gebruikt om betere voorspellingen te doen van actieve enhancers en promoters.

Dankzij de massale hoeveelheid gegevens zijn we een stapje dichter bij de ontrafeling van de regulatorische code. De vele metingen zijn bijzonder nuttig voor de wetenschap, maar ze vormen slechts het startpunt voor verdere studies om de effectieve functie van een regio te achterhalen. In ENCODE wordt ‘functie’ immers zeer los gedefinieerd. Elke biochemische meting, de vorming van een transcript, of de binding door een eiwit, werd geregistreerd en ‘geteld’. Maar eiwit-DNA-binding of transcriptie is an sich geen functie. De totale tachtig procent van het genoom waaraan door ENCODE een ‘functie’ werd toegekend is vooral bij sommige evolutionaire biologen in het verkeerde keelgat geschoten. Functie is in dergelijke domeinen een zwaar beladen woord, dat meestal ook selectie omvat, terwijl binnen ENCODE één meting van een activiteit voldoende was. Deze kritiek op de ietwat lichtzinnige opvatting van ‘functie’ is bovendien niet de enige stof tot discussie. Hoewel ENCODE een mooi voorbeeld is van big data-wetenschap, moet de tijd verder uitwijzen of er voldoende return on investment zal zijn. Want met een totale investering van meer dan 185 miljoen dollar kwamen er veel klachten van wetenschappers die hun kleinschalige, fundamentele, en vaak creatieve onderzoeksprojecten niet gefinancierd zagen door de grote hap die ENCODE nam uit de in totaal beschikbare budgetten voor wetenschappelijk onderzoek.

De vele metingen zijn bijzonder nuttig voor de wetenschap, maar ze vormen slechts het startpunt voor verdere studies om de effectieve functie van een regio te achterhalen

De uitdaging voor ENCODE was enerzijds technologisch – hoe meten we de mogelijke functies van alle basenparen in het genoom – maar anderzijds ook analytisch of computationeel. Eenmaal alle sequenties werden bepaald, werden de gegevens geanalyseerd door een leger bio-informatici. Zij combineren technieken uit de statistiek, de toegepaste wiskunde, en de informatica om de gegevens te analyseren en patronen te herkennen. Deze big data-wetenschap is dus voornamelijk digitaal, en steunt op de combinatie van robots, hoogtechnologische infrastructuur, en supercomputers. De volgende stap, namelijk de verdere verfijning van deze technieken en de toepassing op diverse biologische en ziekteprocessen, zal moeten gepaard gaan met een revolutie op het vlak van analysemethoden die gebruikmaken van de gigantische hoeveelheden data in de ‘cloud’ voor een beter begrip van het menselijke genoom. Op haar beurt zal een dieper inzicht in de DNA-code bijdragen tot de verdere ontrafeling van onze afkomst, ontwikkeling en veroudering, en tot een gepersonaliseerde geneeskunde afgestemd op ieders unieke genoomsequentie.

ENCODE Project Consortium, B.E. Bernstein, E. Birney, I. Dunham, E.D. Green, C. Gunter, M. Snyder, ‘An integrated encyclopedia of DNA elements in the human genome’, in: Nature, 2012, 489 (7414), 57-74.
Mouse ENCODE Consortium, J.A. Stamatoyannopoulos, M. Snyder, R. Hardison, B. Ren, T. Gingeras, D.M. Gilbert, M. Groudine, M. Bender, R. Kaul, et al., ‘ An encylopeda of mouse DNA elements (Mouse ENCODE), in: Genome Biology, 2012, 13 (8), 418.
ENCODE Project Consortium, ‘The ENCODE (ENCyclopedia Of DNA Elements) Project’, in: Science, 2004, 306 (5696), 636-40.
http://www.nature.com/encode
http://www.sciencemag.org/content/330/6012/1787.full

Deel dit artikel
Gerelateerde artikelen