dankzij de eiwitten in onze cellen – meer dan 20 000 stuks per menselijke cel – functioneert ons lichaam zoals het hoort. elk van die eiwitten heeft een eigen rol en een bepaalde driedimensionale structuur of ‘vouwing’, die biochemici en moleculair biologen al een halve eeuw proberen te ontrafelen. recent zorgde het deepmindteam van google voor een revolutie in de biologie en de biomedische wetenschappen met de ontwikkeling van het programma alphafold. geruchten omtrent een mogelijke nobelprijs gonzen, maar waarom precies?

AlphaFold: driedimensionale eiwitvouwing met behulp van kunstmatige intelligentie

Vera van Noort

In al onze cellen zitten eiwitten, of proteïnen, die de processen uitvoeren waardoor wij kunnen leven. Een menselijke cel bevat wel meer dan 20 000 verschillende van die eiwitten. Ieder eiwit bestaat uit een combinatie van 20 verschillende aminozuren waarvan de zijketens allemaal een verschillende lading, flexibiliteit, en voorkeur om op te lossen in water hebben. Deze eigenschappen zorgen ervoor dat ieder eiwit een driedimensionale structuur aanneemt om zijn rol binnen de cel uit te voeren. Om erachter te komen wat deze eiwitten allemaal doen, wordt door biochemici en moleculair biologen al sinds de jaren ’70 hard gewerkt om deze driedimensionale vouwing van eiwitten te ontrafelen.

Je kan eiwitvouwing vergelijken met origami, waarbij een vlak blad door een serie van vouwingen kan leiden tot een ruimtelijk object. Bij een eiwit is het zelfs eerder vergelijkbaar met een lange strook papier, waar muizentrapjes en spiralen in worden gevouwen om deze vervolgens in elkaar te zetten tot een grotere machine. Het ontrafelen van de structuren gebeurt met behulp van zeer grote onderzoeksinfrastructuur, zoals de deeltjesversneller in Genève. Voor vele menselijke eiwitten en ook voor veel eiwitten van andere organismen is de structuur al opgehelderd. Deze data worden in centrale databanken opgeslagen en publiek beschikbaar gesteld. In januari 2023 bevatte de proteïnedatabank (PDB) 173 900 eiwitstructuren, een grote schat aan data.

Zoals een origamiblaadje eender welke figuur kan worden, weten we nog niet welke aminozuurvolgorde tot welke structuur opvouwt

Nu blijkt dat verschillende volgordes van aminozuren kunnen opvouwen tot dezelfde structuur; wetenschappers classificeren de structuren in slechts een paar duizend folds. Even terug naar ons origamivoorbeeld: er zijn ook verschillende bladen en vouwvolgordes waarmee je tot een opgevouwen paraplu komt. Eigenlijk kennen we dus al alle mogelijke structuren, en moeten we alleen nog uitvissen in welke structuur die eiwitten opvouwen waarvoor er tot nu toe geen bekend resultaat is, maar alleen een aminozuurvolgorde. We weten namelijk nog niet welke aminozuurvolgorde tot welke structuur opvouwt, zoals een origamiblaadje ook net zo goed een dinosaurus of een kraanvogel kan worden als een paraplu. Er zijn meer dan honderd miljoen mogelijkheden. Als we op hetzelfde tempo experimenteel structuren wilden bepalen, dan zou dat nog dertigduizend jaar duren.

Dit is dan ook een perfecte taak voor kunstmatige intelligentie, met name deep learning, zoals bij het AlphaFoldmodel dat werd ontwikkeld door het DeepMindteam van Google. De tussenstap die gebruikt wordt voor de voorspelling van de opvouwing bestaat uit gecorreleerde mutaties ofwel co-evolutie. Om een eiwit stabiel op te laten vouwen zijn verbindingen tussen de verschillende delen van een eiwit nodig. Je kunt dit zien als legoblokjes die in elkaar klikken en ook weer uit elkaar kunnen. Verandert het dopje op het ene blokje van vorm, dan zal het gaatje waar het in moet klikken ook van vorm moeten veranderen om de verbinding in stand te kunnen houden. In de evolutie veranderen aminozuurvolgordes ook, terwijl de structuren over het algemeen gelijkaardig blijven. Denk aan hemoglobine in mensen en hetzelfde eiwit in muizen: het heeft exact dezelfde vorm en functie, namelijk het transport van zuurstof in het bloed, alleen zijn een paar aminozuren verschillend door toevallige mutaties. Als AlphaFold een 3D-structuur gaat voorspellen uit een aminozuurketting maakt het eerst een sequentie-alignering, van meerdere sequenties. Dat wil zeggen dat er een matrix wordt gemaakt met de aminozuurvolgorde van het eiwit en alle homologe eiwitten in andere organismen. Daarna wordt een tweedimensionale matrix gemaakt van het aantal kolommen en rijen in de aminozuursequentie en rekent het programma uit welke aminozuren steeds tegelijkertijd gemuteerd zijn geweest in de evolutie. Verwacht wordt dat deze co-evoluerende paren aan elkaar binden en zorgen voor de eiwitopvouwing. Dat betekent dat de ai de evolutionaire stappen die zijn gezet in het veranderen van de aminozuren reconstrueert en deze gebruikt voor de voorspelling. Dat betekent ook dat de ai niet goed werkt om de structuur te voorspellen van aminozuursequenties die evolutionair nieuwe uitvindingen zijn en bijvoorbeeld alleen bij mensapen voorkomen. Hij heeft de hele voorgeschiedenis nodig.

AlphaFold hanteert dezelfde technologie die wordt gebruikt om objecten te herkennen in foto’s en video’s

Omdat we heel veel eiwitsequenties kennen, dankzij de genomicsrevolutie, zijn deze matrices zeer nauwkeurig geworden. Met dezelfde technologie die gebruikt wordt om objecten te herkennen in foto’s en video’s wordt uit deze tweedimensionale co-evolutiematrices herkend in welke van de paar duizend folds het eiwit opvouwt. De foto’s die gebruikt worden voor de deep learning zijn tweedimensionale matrices met afstanden tussen aminozuren, afgeleid van de 3D-structuren. Hierbij wordt nog een truc gebruikt om de aminozuurketen vereenvoudigd weer te geven, waarbij ieder aminozuur in de keten wordt voorgesteld door een driehoek in plaats van door individuele atomen en atoombindingen. De voorspelling gaat gepaard met een betrouwbaarheid voor iedere positie in de structuur: hoe zeker is het programma van de structuur op deze plaats? De structuren kunnen met goedkope middelen worden bevestigd, bijvoorbeeld door een mutatie aan te brengen waarmee je de structuur verbreekt. Na het voorspellen van de fold wordt de structuur dan verder geoptimaliseerd met behulp van een fysisch model dat de krachten tussen atomen beschrijft, zodat de atomen uit de eiwitmolecule bijvoorbeeld niet te dicht bij elkaar in de buurt zitten.

De nauwkeurigheid waarmee AlphaFold eiwitstructuren kan voorspellen op basis van de aminozuurvolgorde is zo goed dat deze voorspelde structuren bijna even betrouwbaar zijn als de experimenteel bepaalde structuren. Sinds de publicatie van het programma door het DeepMindteam werden al meer dan honderd miljoen eiwitstructuren in de UniProtdatabank voorspeld, voor de eiwitsequenties van de mens maar ook van belangrijke modelorganismen. Op deze manier kunnen we de moleculaire processen in biologische cellen veel beter gaan begrijpen.

De kennis van eiwitstructuren is heel belangrijk, bijvoorbeeld bij de ontwikkeling van geneesmiddelen. Met behulp van AlphaFold konden heel snel de structuren van eiwitten van het covid-19-virus voorspeld worden: zo’n voorspelling is in een paar uur gemaakt, terwijl het minstens vier jaar zou kosten om die structuren experimenteel op te helderen. Op basis van de voorspelde structuren zou je kleine moleculegeneesmiddelen kunnen ontwerpen die de werking van eiwitten kunnen remmen door zich vast te hechten aan het eiwit. Op deze manier werden er al geneesmiddelen gevonden voor hiv/aids. De structuur van hiv-1 protease werd in de jaren ’90 opgehelderd, en op basis hiervan konden remmers van dit eiwit worden ontworpen, die nog steeds de meest gebruikte geneesmiddelen tegen dit virus zijn. Ook voor het ontwerpen van nieuwe bestrijdingsmiddelen in de landbouw worden eiwitstructuren gebruikt, net als voor het maken van nieuwe enzymen die bijvoorbeeld plastics kunnen afbreken. In de oceanen zitten enorm veel organismen, die speciale dingen kunnen zoals dat afbreken van plastic, maar ook het katalyseren van andere reacties. De organismen kunnen vaak niet in het laboratorium gekweekt worden, maar we kunnen wel de volgorde van het dna, de genomen, bepalen. Nu kunnen we dus ook de 3D-structuren van gecodeerde eiwitten gaan bepalen en zo nieuwe enzymfuncties ontdekken.

Op basis van de voorspelde structuren kun je kleine moleculegeneesmiddelen ontwerpen die zich vasthechten aan het eiwit

Dit biedt dus al meteen vele nieuwe mogelijkheden voor de biotechnologie en de farmaceutische industrie. Doordat gebruik wordt gemaakt van evolutionaire informatie, dus het gelijktijdige muteren van aminozuren, heeft het programma minder last van typische technische problemen waar men tegenaan loopt bij het ophelderen van eiwitstructuren. Deze problemen duiken op wanneer een eiwit zich bijvoorbeeld bindt met een metaalion om stabiel op te vouwen, zich in het celmembraan bevindt, enkel stabiel is bij extreem koude temperaturen of veel modificaties ondergaat, zoals het koppelen van suikergroepen. Die eigenschappen kunnen er allemaal voor zorgen dat het moeilijk wordt om de 3D-structuur te bepalen met behulp van biochemische technologieën. AlphaFold biedt nu de mogelijkheid om zulke moeilijke eiwitstructuren ook te voorspellen.

De langzaamste en meest cruciale stap in de structuurvoorspelling is het vinden van homologe sequenties en het juist aligneren van deze sequenties onder elkaar. Het onderzoeksgebied van de bio-informatica is al sinds de jaren ’80 bezig om dit soort methoden te perfectioneren en steeds sneller en efficiënter te maken. Het meest recente is MMSeq2, dat gebruikmaakt van een combinatie van een dynamic programming-algoritme en profielsearches om zo tot heel grote multiple sequence alignments te komen. Voor een accurate structuurvoorspelling is het cruciaal dat er homologe sequenties ter beschikking zijn. Dat wil zeggen dat het voor zeer unieke organismen waar we weinig verwanten van kennen heel lastig wordt om een structuurvoorspelling te doen. Daarom is het belangrijk, wanneer we bijvoorbeeld een nieuw virus tegenkomen, om niet alleen van dit virus maar ook van verwante virussen de genoomsequentie te bepalen en de eiwitsequentie te vinden.

Voor zeer unieke organismen met weinig gekende verwanten wordt het heel lastig om een voorspelling te doen

De volgende stap in de ontwikkeling van AlphaFold is het gaan voorspellen van eiwitcomplexen. Eiwitten functioneren vaak niet in hun eentje in een biologische cel. Ze vormen een groter geheel bestaande uit meerdere kopieën van hetzelfde eiwit (homomultimeren) of uit verschillende eiwitten (heteromultimeren). Een logisch vervolg op AlphaFold is dus AlphaFold Multimer, waarbij niet alleen de opvouwing van een enkel eiwit maar ook de binding aan andere eiwitten voorspeld kan worden. Met AlphaFold Multimer werden al honderden nieuwe driedimensionale structuren gevonden voor grotere eiwitcomplexen van eukaryote cellen, zoals die van planten, dieren en schimmels. Voor deze methode moeten we wel al van tevoren weten welke eiwitten er aan elkaar binden of grotere complexen vormen. Dit kunnen we doen door arbeidsintensieve biochemische technieken zoals pull-down assays, waarbij je een eiwit purificeert uit de cel samen met alles wat eraan bindt en de opgeviste eiwitten identificeert, of met two-hybridmethoden waarbij je test of twee eiwitten aan elkaar binden.

Een interessante onderzoekspiste is of we nu ook deze biochemische stap kunnen vervangen door kunstmatige-intelligentiemethoden. Er zijn al onderzoekers bezig met het maken van methoden om de interactietechnieken te vervangen door een ai-voorspelling gebaseerd op dezelfde technologie als AlphaFold. Hier hebben we vooralsnog wel erg zware rekeninfrastructuur voor nodig. Het blijft dus altijd een afweging tussen de kosten van zo’n biochemisch assay en de computervoorspelling.

Een andere toekomstige ontwikkeling is het krijgen van een dynamisch beeld van de eiwitten, zodat we ze in actie kunnen zien als in een film, waar de structuur ons tot nu toe slechts een 3D-foto bood. Met behulp van Nuclear Magnetic Resonance (nmr), hetzelfde soort apparaat als waarmee in ziekenhuizen mri-scans worden gemaakt, kunnen we nu via metingen bepalen welke delen van een eiwit bewegen: om de werking van onze eiwitmachientjes te begrijpen, is het natuurlijk ook van belang om te zien hoe alles beweegt. Omdat we nu bijna alle eiwitstructuren accuraat kunnen voorspellen, wordt het mogelijk om de dynamiek van de eiwitten in computersimulaties te zetten. Vergelijk het met het voorspellen van het weer: op basis van metingen kan het weer van de komende weken worden voorspeld. Hier kunnen, op basis van de voorspelde vaste structuur, de bewegingen van de atomen voorspeld worden door de computer. Met deze molecular-dynamicsmethoden kunnen we ook de effecten van mutaties op de eiwitdynamiek gaan berekenen, bijvoorbeeld het effect van een ziektemutatie, of van een mutatie die een bio-ingenieur inbrengt in een enzym om het stabieler te maken. Zo krijgen we antwoorden op vragen als: klikken de legosteentjes nog steeds goed in elkaar? Welke aanpassingen kunnen we doen om ze nog sterker te laten binden?

Een toekomstige ontwikkeling kan ons een dynamisch beeld bezorgen van de eiwitten, zodat we ze in actie kunnen zien

Er is een grote revolutie gekomen op het gebied van elektronenmicroscopie van cellen en grote eiwitcomplexen. Met behulp van die elektronenmicroscopie kunnen we een globaal beeld krijgen van de vorm van eiwitten, met name van grote eiwitcomplexen. Door de vormen te clusteren kan je snapshots maken van eiwitcomplexen in verschillende stadia van hun functie-uitvoering. Deze 3D-vormen met lage resolutie kunnen dan verder in detail ingevuld worden met bekende structuren van de enkele eiwitten en de eiwitstructuren voorspeld met AlphaFold. Op deze manier werd recent de werking van eiwitsynthese aan het endoplasmatisch reticulum, een onderdeel van de cel, gedetailleerd in kaart gebracht. Omdat de ribosomen, de machientjes die nieuwe eiwitten aanmaken, hier aan een membraan gebonden zijn, zou het onmogelijk zijn geweest om kristallen te maken van deze eiwitcomplexen om zo de structuur te bepalen. Door een combinatie van elektronenmicroscopie en AlphaFold kan dit nu wel opgehelderd worden. De combinatie van lageresolutiemethoden zoals elektronenmicroscopie en tomografie met de deeplearningmethode van AlphaFold zal in de toekomst nog veel andere machinerie in de cel gedetailleerd in kaart brengen. De combinatie met molecular dynamics gaat ons nog heel veel leren over de moleculaire werking van onze cellen.

Zijn er dan geen beperkingen aan wat AlphaFold kan? Zeker wel: er zijn eiwitten of delen van eiwitten die niet netjes opvouwen tot een stabiele eiwitstructuur. De aminozuren zitten niet op een vaste plek ten opzichte van elkaar. De eiwitmachientjes bestaan zogezegd niet allemaal uit raders en stangen. Je kan deze eiwitten of delen van eiwitten voorstellen als lasso’s of plakdraden, of misschien lange flappers in de wasstraat. Deze hebben wel degelijk een functie, maar die is niet te vangen in een star driedimensionaal beeld. Voor deze eiwitten of delen van eiwitten hebben we andere modellen nodig dan AlphaFold, die eerder zullen komen uit de hoek van fasescheidingsmodellen. De lessen die geleerd zijn uit AlphaFold gaan hier waarschijnlijk wel voor verbetering zorgen, zoals de vereenvoudigde voorstelling van de aminozuurketen als driehoeken.

Er zijn ook (delen van) eiwitten die niet netjes opvouwen tot een stabiele eiwitstructuur

Voor het interpreteren van mutaties die resulteren in het verlies van verbindingen tussen eiwitten, hoeven we misschien niet eens naar de volledige driedimensionale structuur te gaan. De sequentie-alignering en bijbehorende co-evolutiematrix zouden in de toekomst ook al direct gebruikt kunnen worden om te interpreteren wat de effecten van mutaties zijn. Op deze manier kunnen we nog sneller gaan screenen op mogelijk desastreuze mutaties, die bijvoorbeeld een rol hebben in het veroorzaken van kanker. In mijn eigen onderzoek gebruik ik AlphaFold en AlphaFold Multimer om de structuren van eiwitten te voorspellen bij mijn favoriete bacterie Pseudomonas aeruginosa, om de interacties tussen de eiwitten en die van fagen (virussen die bacteriën kunnen doden) beter te begrijpen. Dit soort kennis laat ons toe om in de toekomst nieuwe biotechnologische gereedschappen te ontwikkelen, net als antibacteriële strategieën.

De genomicsrevolutie heeft de biologische, biomedische en biotechnologische wereld enorm veranderd. Waar een onderzoek naar het vinden van één mutatie betrokken bij een ziekte vroeger jaren in beslag nam, kan dat nu in enkele weken. We kunnen eenvoudig de dna-sequenties van genen opzoeken in databanken en hoeven deze volgorde niet meer geval per geval te bepalen. Op dezelfde manier zal de revolutie in 3D-structuurvoorspelling ervoor zorgen dat elke onderzoeker zijn/haar eiwitcoderend gen gaat opzoeken in de databank om mutaties te interpreteren in termen van de structuur-functierelatie of voorstellen doet voor mutaties om de werking van een enzym te verbeteren.

Vera van Noort is hoogleraar aan de faculteit Bio-ingenieurswetenschappen van KU Leuven en aan het Instituut voor Biologie Leiden. Zij studeerde biologie aan de Universiteit Utrecht en specialiseerde in bio-informatica. Haar doctoraatsonderzoek ging over het vergelijken van genomen. Na een onderzoeksperiode aan het Europees Moleculair Biologisch Laboratorium (embl) begon zij haar onderzoeksgroep aan KU Leuven in 2013. De groep gebruikt informaticamethoden om moleculair biologische processen beter te begrijpen en nieuwe biotechnologische gereedschappen te ontwikkelen.

Deel dit artikel