Deel dit artikel

toen in 2001 het volledige menselijke genoom werd geïdentificeerd, dacht men dat de rangschikking van de nucleotiden nagenoeg identiek was binnen de menselijke soort. uit grootschalige vergelijkende genoomanalyses, met behulp van de nieuwe microarray-cgh-techniek waarmee verschillen in het aantal kopieën van dna-fragmenten worden gedetecteerd, werd duidelijk dat de variatie veel groter was dan gedacht. die ‘copy number variations’ werpen een nieuw licht op hoe een individu functioneert en ziekten ontstaan.

Hoe groot is de genetische variabiliteit van de mens?

Guy Froyen

Het menselijke genoom bestaat uit een eenvoudige aaneenschakeling van vier bouwstenen, ook nucleotiden of basen genaamd: adenine (A), cytosine (C), guanine (G) en thymidine (T). Het genoom is opgedeeld in één paar geslachtschromosomen en 22 paar niet-geslachtschromosomen (autosomen), die dus 46 chromosomen per cel leveren, wat goed is voor een totaal van 6 miljard basenparen. Aanvankelijk werd gedacht dat de rangschikking (of sequentie) van die nucleotiden nagenoeg identiek was binnen de menselijke soort en dat we allemaal voor meer dan 99,7 procent dezelfde sequentie bevatten. Met het identificeren van het volledige menselijke genoom in 2001 dacht men dan ook dat het grootste werk geleverd was en dat alleen hier en daar nog de puntjes op de i moesten worden gezet om een volledig uniform beeld van het genoom te krijgen. Via grootschalige sequentieprojecten werd echter al snel duidelijk dat de variatie groter was dan verwacht.

Een eerste type variatie betreft de miljoenen nucleotideverschillen die werden gevonden tussen individuen, de zogenaamde ‘single nucleotide polymorphisms’ (SNP’s). Dit betekent dat op bepaalde plaatsen in het genoom één nucleotide kan variëren tussen verschillende personen en dus op die plaats als meer dan één base kan voorkomen (bijvoorbeeld A of C) zonder dat dit een nadelig effect heeft voor het individu. Je kunt dit vergelijken met het vervangen van één letter in een woord in een boek. Die erg kleine verandering zal het begrijpen van het boek niet in de weg staan. In het genoom komt een SNP ongeveer eenmaal per driehonderd basen voor, met een totaal van minstens tien miljoen SNP’s voor het hele genoom. Dit resulteert in een variatie die zeker minder dan één procent van het genoom bedraagt. Het gebruik van deze SNP’s voor genoomwijde associatiestudies (GWA) bij ziekten werd vorig jaar in Karakter (nummer 22) beschreven. Met een GWA-studie kan het volledige genoom in één keer worden getest om bepaalde genomische regio’s te associëren met ziektes of met bepaalde eigenschappen zoals gewicht of lengte.

Een tweede soort genetische variatie was reeds langer gekend en betrof de variabiliteit in herhalingssequenties (micro- en minisatellieten). Hierbij kan het aantal herhalingen (repeats) van twee tot enkele tientallen nucleotiden sterk variëren. Aangezien die herhalingen vooral gevonden worden in gebieden die voor de eiwitproductie niet relevant zijn, werden ze als weinig belangrijk beschouwd voor de interindividuele variatie en vooral gebruikt voor koppelingsanalyse en forensisch onderzoek. Nu weet men dat vele van die herhalingen ook voorkomen in coderende gebieden met kleine maar soms belangrijke wijzigingen in proteïnen tot gevolg. Een derde soort variatie zijn de structurele wijzingen zoals verplaatsingen (translocaties en inversies), invoegingen (inserties en duplicaties) en verwijderingen (deleties) van grote stukken van een chromosoom. Met de standaard microscopische studie en comparatieve genoomhybridisatie (CGH), een techniek waarbij chromosomen kwantitatief worden bestudeerd met behulp van fluorescente markering, was het mogelijk om structurele wijzigingen op te sporen van DNA-ketens die groter zijn dan vijf miljoen basen (5 megabasen of 5 Mb). Die ‘grote’ structurele variaties werden voornamelijk geassocieerd met genetische ziekten in patiënten, hoewel sommige ook voorkomen in gezonde personen. Tot eind vorige eeuw was het technisch alleen mogelijk om ofwel de zeer kleine structurele veranderingen (SNP’s en satellieten) te detecteren, ofwel de zeer grote structurele veranderingen.

Microarrays zijn kleine glaasjes waarop duizenden gekende DNA-stukjes op een geordende wijze worden aangebracht

Daar kwam echter verandering in door de ontwikkeling van de microarray-CGH-techniek, waardoor men nu ook de intermediaire, submicroscopische wijzigingen kan detecteren. Microarrays zijn kleine glaasjes waarop duizenden gekende DNA-stukjes op een geordende wijze worden aangebracht. Die revolutionaire technologie laat toe om een verschil in het aantal kopieën van een DNA-fragment met een bepaalde lengte (tot 0.1 Mb) tussen individuen vast te stellen. Die variaties werden ‘copy number variations’ (CNV’s) genoemd en al snel werd duidelijk dat dergelijke CNV’s vaak gerelateerd zijn met ziekte. Daarom werd de techniek in het begin vooral gebruikt om variaties op te sporen die aan de oorsprong liggen van frequent voorkomende erfelijke ziektes, zoals mentale retardatie, en om genetische veranderingen bij kanker op te sporen. Dit leidde tot de ontdekking van vele tot dan toe ongekende genetische oorzaken van verschillende aandoeningen, waardoor de microarray-CGH-techniek als een grote doorbraak wordt beschouwd in de huidige diagnostiek.

Het werd echter al snel duidelijk dat CNV’s niet alleen met ziektes geassocieerd zijn, maar dat er ook tussen gezonde individuen heel wat ‘kleine’ structurele verschillen bestaan. In 2004 verschenen de eerste rapporten over grootschalige studies die het volledige genoom van honderden gezonde individuen vergeleken via de microarray-CGH-techniek. Het resultaat was verbluffend omdat er grote hoeveelheden CNV’s verspreid over het ganse genoom werden gevonden. Daarenboven werd via de nieuwe ‘paired-end sequentieanalyse’-technologie ook aangetoond dat er vele omkeringen (inversies) van DNA-stukjes voorkomen, wat de genomische variabiliteit nog groter maakt. Al die variaties kunnen worden vergeleken met de afwezigheid, het dubbel voorkomen of het omkeren van woorden, zinnen, paragrafen of zelfs bladzijden van een boek. Je kunt het boek wel nog begrijpen, het wordt er daarom niet negatief door beïnvloed. Alles is afhankelijk van hoeveel er veranderd is en hoe belangrijk de veranderingen zijn. Een opvallende vaststelling bij het vinden van vele CNV’s in gezonde personen is dat de afwezigheid (deletie) of verdubbeling (duplicatie) van talrijke stukjes DNA schijnbaar geen negatief effect heeft op het normaal functioneren van het lichaam. Bij afwezigheid is er namelijk genetische informatie verdwenen, bij verdubbeling komt die in een grotere hoeveelheid voor. Die bevindingen waren totaal onverwacht en impliceren dat de genetische informatie tussen twee gezonde individuen veel sterker verschilt dan oorspronkelijk werd gedacht.

De afwezigheid of verdubbeling van talrijke stukjes DNA heeft schijnbaar geen negatief effect op het normaal functioneren van het lichaam

Dankzij belangrijke technische verbeteringen in de microarraytechnologie konden steeds kleinere CNV’s worden gedetecteerd. De eerste microarrays waren opgebouwd uit relatief grote stukken DNA in de orde van 0.1 Mb of 100 kilobasen (kb) en er konden slechts een paar duizend van die stukken op een microarray worden geplaatst. Daardoor was de ‘resolutie’ beperkt tot 100 kb, wat betekende dat je een verandering tot een grootte van 100 kb kon detecteren. De arrays die tegenwoordig commercieel beschikbaar zijn, bestaan uit enkele miljoenen oligonucleotiden (DNA-stukjes van 25 tot 80 bp), waardoor het mogelijk is om CNV’s tot 10 kb op te sporen. De verwachting is dat er vele nog kleinere variaties optreden, maar die vallen momenteel nog onder de detectielimiet van de beschikbare microarrays. Een recente studie met ultrahoge resolutie, voor detectie van CNV’s tot 500 bp, uitgevoerd in het Sanger Center in het Verenigd Koninkrijk, identificeerde meer dan tienduizend varianten.

Dergelijke microarrays, samen met andere technieken zoals ‘paired-end mapping’ en ‘next-generation sequentieanalyse’, zullen in de nabije toekomst een juist idee kunnen geven van het totale aantal, de locatie en grootte van de verschillende CNV’s in een populatie. Momenteel wordt geschat dat twaalf procent van het genoom in een variabele hoeveelheid (kopie-aantal) kan voorkomen, wat overeenkomt met 360 Mb. (Ter vergelijking: toen alleen de SNP’s, herhalingen en grote structurele wijzigingen als variabel werden beschouwd, bedroeg deze portie slechts 20 tot 30 Mb.) Het aantal stalen dat tot nu toe onderzocht is, blijft nog eerder beperkt (minder dan duizend) waardoor de statistische ‘power’ ontbreekt om alle varianten met grote zekerheid te kunnen identificeren. Uiteraard is het niet zo dat tussen elke twee willekeurige individuen een genetische variatie van twaalf procent aanwezig is. Vergelijkende studies tussen bevolkingsgroepen wereldwijd tonen zoals verwacht aan dat er grotere verschillen zijn tussen bevolkingsgroepen dan erbinnen. Het is evident dat hoe meer personen met elkaar verwant zijn, hoe meer ze ook gemeenschappelijke CNV’s zullen dragen.

Vergelijkende studies tussen bevolkingsgroepen wereldwijd tonen aan dat er grotere verschillen zijn tussen bevolkingsgroepen dan erbinnen

De studie naar CNV’s in gezonde en zieke personen is in volle ontwikkeling. Zoals bij vele nieuwe technologieën bestaat er echter nog heel wat onzekerheid. Het gebruik van verschillende microarray-CGH-platformen maakt het moeilijk om de bekomen gegevens met elkaar te vergelijken. Dit wordt mee bemoeilijkt door het gebruik van verschillende softwarepakketten die ontwikkeld zijn om een zo gevoelig mogelijke analyse van de miljoenen datapunten te maken en de daaraan gekoppelde experimentele neveneffecten die leiden tot vele ‘vals-positieve’ CNV’s. Aangezien het onmogelijk is om alle CNV’s te verifiëren met een onafhankelijke methode zoals fluorescente in-situhybridisatie (FISH) of kwantitatieve PCR (qPCR) moet de validatie van elke CNV gebeuren via grootschalige vergelijkende studies van de gegevens die bekomen zijn via verschillende platvormen en analyses. Dit betekent dat we momenteel nog voorzichtig moeten omspringen met die gegevens.

Los van de methodologische problemen werpt de ontdekking van CNV’s sowieso een nieuw licht op het functioneren van een individu. Doordat CNV’s sterk kunnen verschillen in grootte en verspreid liggen over het ganse genoom kunnen zij één of meerdere genen bevatten. Genen zijn de functionele DNA-eenheden die een eiwit kunnen produceren en de aanwezigheid van elk van hen wordt beschouwd als essentieel voor de overleving en instandhouding van de soort. Bij afwezigheid van een genomisch gebied zal de dosis van een gen dat hierin aanwezig is, verlagen. Een duplicatie zal deze gendosis doen stijgen. Wanneer een dergelijk CNV gedetecteerd wordt in een gezonde persoon, dan betekent dit dat de concentratie van het gen ogenschijnlijk niet belangrijk is voor zijn of haar normaal functioneren.

Soms kan echter een dosisafhankelijk gen betrokken zijn in een CNV, dit is een gen dat in een ‘juiste’ hoeveelheid moet aanwezig zijn in de cellen. In dit geval leidt afwezigheid of verdubbeling tot een verstoorde functie van de signaalweg, mogelijk met ziekte tot gevolg. Dergelijke ziektes worden ‘genomic disorders’ genoemd. Hiervan zijn reeds tientallen voorbeelden gerapporteerd. Zo leidt een duplicatie van een Xq28 regio (het uiteinde van de lange arm van het X-chromosoom) waarin het gen MECP2 aanwezig is, steeds tot een ernstige verstandelijke handicap, verslapping van de spieren, ernstige spraakstoornis en problemen met lopen. Het oorzakelijke verband tussen een overdosis van MECP2 en deze aandoening werd bewezen door overexpressie van MECP2 in muizen, met gelijkaardige klinische symptomen tot gevolg. Die specifieke verdubbeling wordt daarom het MECP2-duplicatiesyndroom genoemd. Afwezigheid van een 3.7 Mb regio op chromosoom 17 veroorzaakt het Smith-Magenissyndroom, een ernstige aandoening met tal van klinische symptomen zoals een laag IQ, spraak- en gehoorproblemen en bij vele patiënten hersen-, hart- en nierafwijkingen. De oorzaak hiervan is een afwezigheid van een RAI1-gen aanwezig in het 3.7 Mb-gebied. Het is echter niet altijd duidelijk of een CNV gerelateerd is met de ziekte. In eerste instantie moet worden nagegaan of de CNV ook aanwezig is in één van beide ouders en dus overgeërfd is, of dat deze nieuw (de novo) is ontstaan. Als de gezonde moeder of vader de variant ook draagt, is het onwaarschijnlijk dat de variant op zich de ziekte veroorzaakt.

Dit is de algemene regel, maar voor sommige varianten is het geweten dat ze soms wel en soms niet gerelateerd zijn met ziekte. Die correlatie is dan afhankelijk van de rest van de genetische informatie van die persoon. Wanneer bijvoorbeeld een ziekte alleen maar optreedt wanneer de genetische variaties A en B aanwezig zijn, dan zal een persoon met alleen de variatie A niet ziek worden, terwijl dezelfde variant A wel ziekte veroorzaakt in een persoon waarin B al aanwezig is. Dit wordt variabele penetrantie genoemd en kan de diagnose enorm bemoeilijken. Het typevoorbeeld hiervan is de submicroscopische afwezigheid op de lange arm van chromosoom 1 bij patiënten met het thrombocytopenia-absent-radius-syndroom (TAR). Slechts bij 25 procent van deze patiënten is de deletie de novo, terwijl bij de overige 75 procent de deletie wordt overgeërfd van een gezonde ouder. Aan de andere kant is het ook niet zo dat een ‘de novo’-CNV steeds leidt tot gezondheidsproblemen: de mutatiefrequentie wordt immers geschat op minstens één nieuwe CNV per generatie.

Een tweede stap bij het nagaan van een mogelijke relatie tussen CNV en ziekte bestaat erin databanken te consulteren met daarin alle CNV’s die gevonden werden in gezonde personen. Maar zelfs wanneer een CNV afwezig is in deze databanken, kan het nog altijd gaan om een zeldzame, nog niet gedetecteerde variant zonder klinische implicaties. Het is met andere woorden niet evident om CNV’s te linken aan ziektes of om ze hiermee niet te associëren. Een nog grotere uitdaging betreft het bepalen van een verband tussen CNV’s en zogenaamde complexe ziekten zoals bij verschillende types van kanker, schizofrenie, autisme en de ziekte van Crohn. Hierbij wordt de aandoening niet veroorzaakt door mutatie van één enkel gen, maar zijn wijzigingen in expressie van verschillende genen samen bepalend. Voor dergelijke ziekten worden met genoomwijde associatiestudies varianten opgespoord die meer aanwezig zijn in patiënten met bijvoorbeeld autisme dan in personen zonder autisme. Niet het aantal CNV’s maar wel hun positie in het genoom is dus belangrijk.

De hamvraag is dan of bepaalde CNV’s toevallig samen voorkomen met de ziekte dan wel causaal verwant zijn. Zo zijn er recent twee studies gepubliceerd in de toptijdschriften Science en Nature, die de relatie van CNV’s bestuderen met schizofrenie. In de ene studie toont men aan dat enkele zeldzame CNV’s drie tot vier keer meer aanwezig zijn in patiënten met deze neurodegeneratieve aandoening terwijl dit in de andere studie maar 1.15 keer meer was. Een dergelijk verschil toont nogmaals aan dat de experimentele procedure bepalend is voor het finale resultaat. Bij het interpreteren van gepubliceerde data is het cruciaal na te gaan welk microarray-platvorm gebruikt werd en hoe de data werden geanalyseerd. Verschillende groepen voeren momenteel reeds CNV-associatiestudies uit voor lichaamsparameters zoals gewicht en lengte, maar het zal nog even duren vooraleer hieruit betrouwbare gegevens kunnen worden bekomen.

J. Couzin, ‘Interest rising in DNA copy number variations – Along with questions’, in: Science, 2008, 322, 1314.

A. Sharp, ‘Emerging themes and new challenges in defining the role of structural variation in human disease’, in: Human Mutation, 2009, 30, 135-144.

Guy Froyen is als moleculair geneticus verbonden aan de KU Leuven.

Deel dit artikel
Gerelateerde artikelen