Deel dit artikel

wie denkt dat met artificiële intelligentie alles mogelijk wordt, zolang we maar genoeg data verzamelen, vergist zich. puur observationele data zeggen niets over het proces waarmee ze gegenereerd worden of over de oorzaken die daarachter schuilgaan. actie ondernemen zonder oorzakelijk model waarmee we de effecten van die actie kunnen inschatten is een bijzonder slecht idee. pas in de laatste decennia is ook de wiskunde zich met causaliteit gaan bezighouden, onder meer onder impuls van computerwetenschapper judea pearl.

Waarom The Book of Why belangrijk is

Joost Vennekens en Wannes Meert

Data, data, en nog meer data. Recente ontwikkelingen op het gebied van Artificiële Intelligentie (AI) geven de indruk dat zelfrijdende auto’s, medische expertsystemen en autonome robots enkel nog maar een kwestie zijn van genoeg data te verzamelen. Niet waar, zegt computerwetenschapper en Turing-Award-winnaar Judea Pearl. In zijn nieuwste boek, The Book of Why, bestrijdt hij deze datagebaseerde hoogmoed, die overigens niet nieuw is. Twee eeuwen geleden al leden Galton en Pearson, de stamvaders van de moderne statistiek, aan dezelfde illusie, aldus Pearl. Ook zij dachten dat ze de subjectiviteit van de domeinexpert konden bannen, en dat enkel pure, objectieve data alle wetenschappelijke vragen zouden kunnen beantwoorden. Meer nog, zij draaiden de zaken zelfs om: voor Galton en Pearson waren enkel vragen die op basis van data te beantwoorden waren nog wetenschappelijk te noemen.

Een aanpak die enkel en alleen op data gebaseerd is, heeft echter belangrijke beperkingen. Wat zou ons bijvoorbeeld tegenhouden om ijsjeszaken te sluiten om zo een inbrakengolf af te remmen? De data tonen immers een duidelijk patroon: wanneer er meer ijsjes verkocht worden, zijn er ook meer inbraken. Ondanks dit patroon is het voor ons toch meteen duidelijk dat het sluiten van ijsjeszaken nooit een goede manier kan zijn om inbraken tegen te gaan, net zoals duwen tegen de wijzer van een barometer geen goede manier is om de luchtdruk te doen stijgen. Maar hoe weten we dit? Waarom is het voor ieder van ons evident dat spelen met een barometer geen invloed zal hebben op de luchtdruk?

Zelfs dit eenvoudige voorbeeld bevat al een belangrijke les in bescheidenheid voor eender welke data-gebaseerde analyse: het feit dat de luchtdruk een invloed heeft op de barometer in plaats van andersom is immers iets dat niet kan worden afgeleid uit observationele data alleen. Om dit te kunnen besluiten, hebben we nood aan meer dan enkel data. We moeten ook kennis hebben over het proces dat deze data genereert, en meer bepaald over de oorzakelijke verbanden in dit proces. Het is pas wanneer we weten dat een grote verkoop van ijsjes geen oorzaak is van inbraken – maar dat beide wel veroorzaakt worden door warme dagen, die mensen liever buitenshuis doorbrengen, waardoor inbrekers vrij spel krijgen – dat we op een zinvolle manier kunnen nadenken over manieren om inbraken te voorkomen. Dit voorbeeld laat zich bovendien perfect veralgemenen. Gelijk wanneer we overwegen om een bepaalde actie te ondernemen, zoals het sluiten van ijsjeszaken of het verdraaien van de wijzer op een barometer, hebben we een oorzakelijk model nodig om de effecten daarvan te kunnen inschatten. Zonder zo’n model helpen alle data ter wereld ons niet verder.

Het vervolg van dit artikel lees je in de papieren versie van Karakter 71. De volledige tekst verschijnt later online.
Deel dit artikel
Gerelateerde artikelen