de statistiek wordt soms beschouwd als een gladde tak van de wiskunde waarmee je alles kunt bewijzen. een statistisch juiste redenering houdt soms een schijnbare paradox in. die paradox heeft veelal te maken met het feit dat significantie niet wit of zwart is, maar een appreciatie van een grijstint. de verwarring die vaak heerst rond statistische analyses kan echter worden vermeden door de opbouw van een zorgvuldig en logisch denkkader.

Statistische wetenschap: tussen twee stoelen of op de brug? (#40)

Geert Molenberghs

Voor de wiskundige impliceert A = B en B = C, dat A = C. Voor niet-wiskundigen geldt dit trouwens ook. De statisticus daarentegen kan perfect leven met het feit dat A = B en B = C nog altijd zowel A = C als A ≠ C kan impliceren. Vooraleer we besluiten dat statistiek die gladde tak van de wiskunde is waarmee je alles kunt bewijzen (‘lies, damned lies, and statistics’), loont het de moeite dit probleem tegen het licht te houden, samen met een paar andere klassieke problemen uit de statistiek.

Dit probleem kwam recent in de belangstelling door het werk van de Nederlandse psychologen Sander Nieuwenhuis, Birte Forstmann en Eric-Jan Wagenmakers. Die hebben een reeks publicaties uit de neurowetenschappen herlezen, waarin telkens de volgende redenering gebruikt werd: ‘Als de ene interventie een significant effect heeft tegenover de placebo en de andere interventie niet, dan moeten ze wel van elkaar verschillen.’ Die redenering is volgens hen wijd verbreid in de neurowetenschappen, maar ook foutief. En ze hebben tweemaal gelijk: ze is onjuist en komt bovendien voor bij zowat alle empirisch onderzoek, ver buiten de neurowetenschappen en de geneeskunde. De redenering is een voorbeeld van wat we in de eerste alinea beschreven: A is placebo, B is de ene interventie en C is de andere. Symbolisch betekent dit dat A = B en A ≠ C, terwijl het toch kan dat B = C. De statistisch juiste redenering houdt dus een schijnbare paradox in.

Om die paradox te verklaren moeten we ons realiseren dat significantie niet wit of zwart is, maar een appreciatie van een grijstint. Als een interventie niet significant verschilt van de placebo, dan betekent dit niet dat ze een exact gelijk effect heeft, maar dat het verschil te klein is om te detecteren met de beschikbare steekproef. Stel dat de bloeddruk bij de gemiddelde patiënt in placebo-omstandigheden (A) met drie eenheden toeneemt en met behandeling B slechts met twee eenheden. Als onze steekproef niet groot genoeg is om een verschil van één eenheid te zien, dan heb je geen significant resultaat. Stel nu dat een derde behandeling C de bloeddruk met één eenheid doet toenemen. Om dezelfde reden verschillen B en C dan niet significant van elkaar. Maar het verschil tussen A en C is twee eenheden, en dat is wel groot genoeg voor significantie. Of neem drie steden die op een rij liggen: wie in B woont kan gerust naar A of naar C wandelen, maar de wandeling van A naar C is net te ver.

Het koppelen van twee statistische conclusies om tot een derde conclusie te komen, is geen goed idee

Wat leren we hieruit? Dat het koppelen van twee statistische conclusies om tot een derde conclusie te komen, geen goed idee is. Daarom gaan we rechtstreeks te werk, door B met C te vergelijken. In een studie met drie groepen – placebo, behandeling B en behandeling C – moeten B en C worden vergeleken, zonder omweg via de placebo. Maar daarmee houdt het niet op. Een rechtstreekse vergelijking tussen B en C betekent niet noodzakelijk dat er geen andere spelers op het veld staan. In het voorbeeld van de klinische studie maken we dankbaar gebruik van randomisatie om dit probleem te omzeilen. Een groep van bijvoorbeeld 600 patiënten wordt willekeurig in drie gesplitst: 200 patiënten krijgen A (de placebo), 200 krijgen B, en de laatste groep wordt C toegediend. De patiënten zijn mooi vergelijkbaar, behalve in de behandeling die ze krijgen. Zo kan causaliteit worden aangetoond.

In een epidemiologische studie liggen de kaarten anders. Als we bijvoorbeeld willen aantonen dat er een verband is tussen cadmiumblootstelling en longkanker, dan kunnen we uiteraard niet randomiseren. We kunnen alleen observeren. Dit wil zeggen dat een groep mensen die zijn blootgesteld aan cadmium wordt vergeleken met een controlegroep. Omdat we hier slechts twee groepen hebben om te vergelijken, lijkt de situatie eenvoudiger. Het is echter niet gegarandeerd, en wellicht ook niet het geval, dat de twee groepen a priori vergelijkbaar zijn. Omdat er niet gerandomiseerd wordt, kunnen er immers verschillen zijn in socio-economische status, leeftijd, geslacht en – zeer belangrijk – in rookgedrag. Dat betekent dan dat de cadmiumgroep en de niet-cadmiumgroep niet vergelijkbaar zijn qua rookgedrag, met andere woorden dat cadmium en roken samengaan. Weinig mensen zullen nog twijfelen aan het verband tussen roken en longkanker. Roken is dus een derde speler op het veld. Epidemiologen spreken van een ‘verstorende variabele’ (confounder). Het klopt nog altijd dat we het verband willen aantonen tussen cadmiumblootstelling en longkanker door de cadmiumgroep met de niet-cadmiumgroep te vergelijken. Maar we moeten dit doen via een statistisch model dat eveneens de variabele ‘roken’ bevat. We moeten dus oog hebben voor zaken die niet direct het voorwerp van de studie uitmaken, hier door middel van een correctie voor verstorende veranderlijken. Dit voorbeeld is niet zo vergezocht. Telkens als we schadelijke effecten bestuderen, zoals het al of niet dragen van de veiligheidsgordel bij ongevallen, of vetrijke voeding bij cardiovasculaire aandoeningen, is er een verstorende variabele. Voorlopig besluiten we dat we alle facetten die een probleem beïnvloeden, zorgvuldig in kaart moeten brengen en dat we een model bouwen waarbinnen het te bestuderen effect direct aanwezig is.

Als het nodig is, draaien we daar zelfs de klok voor terug. Stel dat we de invloed willen onderzoeken van een toxische stof zoals agent orange – het beruchte ontbladeringsmiddel uit de Vietnamoorlog – op het voorkomen van spina bifida (open rug). Spina bifida is een ernstige maar gelukkig vrij zeldzame aandoening, en in onze contreien komt blootstelling aan agent orange nauwelijks voor. Een klassieke prospectieve studie, waarbij de tijd vooruitloopt, is niet aan de orde. Zo’n studie zou betekenen dat we vandaag een aantal zwangerschappen beginnen observeren, gegevens over blootstelling bijhouden en aan het einde kijken of er meer spina bifida voorkomt naarmate de blootstelling aan agent orange toeneemt. De studie zou decennia duren vooraleer er zich voldoende gevallen hebben voorgedaan. Daarom draaien we de tijdas gewoon om: we beschouwen alle gevallen van spina bifida van de jongste decennia, selecteren een even grote controlegroep en verifiëren dan retrospectief de blootstelling. Ziekenhuisregisters en andere registers laten die handige techniek toe.

Er zijn nog andere aspecten waarmee we rekening (zouden) moeten houden, zoals herhaling. Als de bloeddruk van persoon A vandaag en morgen gemeten wordt en dit gebeurt ook bij persoon B, dan verwachten we dat de twee metingen van A dichter bij elkaar zullen liggen dan een meting van A en een meting van B. We verwachten ook een sterk verband tussen de systolische druk (bovendruk) en de diastolische druk (onderdruk) van dezelfde persoon op hetzelfde moment gemeten. Natuurlijk zeggen we niet meer dat ze heel dicht bij elkaar zullen liggen, want de onderdruk zal (hopelijk) lager liggen dan de bovendruk. Anders gezegd, de diastolische druk is gemiddeld lager dan de systolische, maar voor een bepaald persoon op een bepaald moment is de ene druk voorspellend voor de andere. Die voorspelling is niet perfect, net zo min als de beide systolische drukken, gemeten met een dag verschil bij dezelfde persoon, exact gelijk zullen zijn. Ook al is het voorspellend vermogen meestal niet perfect, het is ook niet totaal afwezig: de gegevens zijn gecorreleerd, meestal met een correlatie die noch 0, noch 1 is, maar ergens daartussenin. De correlatie laat toe om vooruit te kijken en dus preventief te handelen. In dit geval spreken we van herhaalde metingen, toch voor het temporele aspect, waarbij eenzelfde waarde bij eenzelfde patiënt herhaald in de tijd wordt gemeten. Voor het samen noteren van systolische en diastolische bloeddruk spreken we eerder van ‘bivariate’ gegevens. De ‘multivariate’ uitbreiding ontstaat wanneer we meer dan twee waarden meten, zoals bij de analyse van een bloedstaal.

Herhaalde metingen en multivariate gegevens zijn niet de enige voorbeelden van hiërarchische gegevens, die tot stand komen via opeenvolgende selecties. In dit geval: (a) we selecteren patiënten en (b) we herhalen de metingen bij dezelfde patiënt. Een ander belangrijk voorbeeld ontstaat in een zogenaamde ‘multilevel’ context. Stel dat we leerlingen selecteren op de volgende manier: (a) we selecteren scholen; (b) we selecteren klassen binnen die scholen; (c) we selecteren leerlingen binnen die klassen. Bij een test zullen de antwoorden van twee leerlingen uit dezelfde school maar uit een verschillende klas minder gelijkenis vertonen dan wanneer ze ook nog uit dezelfde klas zouden komen. Hun antwoorden zullen uiteraard nog altijd meer overeenkomen dan wanneer ze ook nog eens uit een andere school komen. Hoe meer niveaus ze delen, hoe groter het verband zal zijn.

Hiërarchie in de gegevens is bijgevolg een ander belangrijk facet dat een plaats verdient in de analyse. Is hiërarchie een voordeel of een nadeel? Ze kan beide zijn. Wanneer we politieke voorkeur in kaart willen brengen, is het niet zo verstandig steeds meer mensen uit hetzelfde gezin of dezelfde wijk te bevragen, zelfs niet als die gezinnen en wijken willekeurig gekozen zijn. We krijgen dan gewoon ‘meer van hetzelfde’. Anders gezegd: bijkomende respondenten uit dezelfde wijk leveren steeds minder informatie. Bij het schatten van een gemiddelde of een proportie kunnen hiërarchieën tegen ons werken. Maar er zijn ook situaties waarin de hiërarchie ons helpt. Stel dat we willen weten hoe één bloeddrukremmer A zich qua werkzaamheid verhoudt tot een andere bloeddrukremmer B. Eén mogelijkheid is een gerandomiseerde studie, waarbij 200 mensen A krijgen en 200 anderen B. Maar we kunnen ook 20 mensen A geven, enkele weken later gevolgd door B, met daarnaast 20 andere proefpersonen die de omgekeerde sequentie toegediend krijgen, eerst B en dan A. De getallen 200 en 20 zijn niet helemaal arbitrair, ze wijzen op het voordeel van de tweede studie, de zogenaamde cross-overstudie: door mensen beide producten te geven, schakelen we de interpersoonlijke variabiliteit uit, en krijgen we dus veel scherper gestelde vergelijkingen.

Herhaling biedt een bijkomend voordeel bij onvolledige gegevens. In een klinische studie bijvoorbeeld komt het regelmatig voor dat niet alle geplande gegevens kunnen worden verzameld. Patiënten kunnen en zullen soms vroegtijdig opgeven. Dat is een internationaal grondrecht, beschermd door de Conventie van Helsinki, dat in het leven werd geroepen na de onmenselijke experimenten in de naziconcentratiekampen. Onvolledige gegevens, vooral op het initiatief van de patiënt, ‘breken’ de randomisatie, waardoor een zuiver causale vergelijking moeilijk wordt. Maar door de correlatie te benutten tussen wat een patiënt aanlevert en wat hij of zij niet meer aanlevert, kunnen we de pijn van onvolledige gegevens verzachten. We hebben opnieuw te maken met een sterk voordeel van herhaalde metingen.

Herhaalde metingen laten toe om twee onderscheiden tijdsevoluties uit elkaar te halen

Ten slotte laten herhaalde metingen toe om twee onderscheiden tijdsevoluties uit elkaar te halen, zoals in het volgende fictieve voorbeeld. Stel dat opeenvolgende onderwijsvernieuwingen het proces van het leren lezen steeds efficiënter zouden hebben gemaakt. Dan kon iemand die twaalf jaar was in 2000, beter lezen op die leeftijd dan iemand van twaalf jaar in 1980, die op zijn of haar beurt weer betere leesvaardigheden had dan de twaalfjarige uit 1960. Als je aanneemt dat ze die voorsprong behouden, zou het lijken alsof de leesvaardigheid afneemt met de leeftijd. De drie kinderen uit het voorbeeld zijn intussen respectievelijk 24, 44 en 64 jaar. Als we in een grafiek de leeftijd tegenover de leesvaardigheid uitzetten, dan zien we een daling. Maar ons gedachte-experiment maakt duidelijk dat dit niet de verklaring is. We hebben hier namelijk te maken met een cohorte-effect. Stel dat we die drie kinderen, en een aantal van hun leeftijdsgenoten, gedurende een periode van zes jaar gemeten hebben op zes, acht, tien en twaalf jaar, dan zouden we zien dat elk van de kinderen beter leerde lezen naarmate ze ouder werden. De evolutie binnen een kind over de tijd is dus stijgend, terwijl het cohorte-effect van daarnet de andere kant opging. Herhaalde metingen, waarbij we drie cohorten kinderen over de tijd volgen, laten toe beide uit elkaar te halen. Als we elke persoon één keer meten (een cross-sectionele of ‘univariate’ studie, geen anarchistische of egalitaire …) en dan nog op verschillende leeftijden, dan zijn beide niet meer te onderscheiden. Voor dit fenomeen bestaat een naam: ‘ecological fallacy’. Het verwijst naar het foutief transponeren van een relatie op een bepaald hiërarchisch niveau naar een ander.

Hiërarchieën in gegevens laten ons dus toe om dingen te zien die anders niet aan de oppervlakte zouden komen

Hiërarchieën laten ons dus toe om dingen te zien die anders niet aan de oppervlakte zouden komen. Daarom worden multivariate technieken sinds lang ingezet als werkpaard. Een voorbeeld is om auteurschap van een tekst te bepalen. Neem een aantal auteurs met voor elk van hen een aantal teksten. Noteer voor welgekozen woorden of letters de frequentie in de tekst. Over het algemeen hebben we dan een uitzonderlijk goed middel om onzekerheid over auteurschap te beslechten. In de forensische wetenschap wordt vaak gebruikgemaakt van multivariate technieken. Als we twee of meer karakteristieken samen observeren, kunnen we veel scherpere uitspraken doen over hun gemeenzaam voorkomen dan voor elk van de karakteristieken apart. In ons land is het ongeveer één twaalfde van het jaar juli en kan het -10 graden Celsius zijn, maar dat die twee feiten samen voorkomen, is behoorlijk uitzonderlijk.

Wanneer we een hypothese toetsen of de grootte van een effect schatten, moeten we ook steeds een dubbel examen passeren. Ten eerste willen we dat het resultaat significant is, anders interpreteren we ruis. Daar houdt het niet op, want ten tweede moeten we nagaan of het significante effect relevant is. Als voorbeeld kun je twee geneesmiddelen nemen, waarvan het ene het leven met zes maanden verlengt, het andere met zes maanden en één dag. Eén dag is weinig maar toch niet niks, dus voor een voldoende grote steekproef (van misschien enkele honderdduizenden patiënten) zullen we dat ook daadwerkelijk als significant detecteren. De klinische en maatschappelijke vraag is echter of een dergelijk verschil de moeite waard is. De tweede toetssteen is niet statistisch, maar ethisch, medisch en economisch.

De verwarring die wel eens heerst rond statistische analyses kan voor een stuk worden vermeden door de opbouw van een zorgvuldig en logisch denkkader. Zo’n denkkader heeft ook een logische taxonomie en heldere terminologie nodig. Dat laatste wil wel eens mislopen, met uiteenlopende namen voor hetzelfde begrip (panelstudie, longitudinale studie, herhaalde metingen, …) en dezelfde naam voor onderscheiden concepten. Zoiets is natuurlijk verwarrend. Maar het is misschien het onvermijdelijke gevolg van een discipline die zich bezighoudt met het empirisch onderzoek van zowat alle andere wetenschappelijke disciplines.

Sander Nieuwenhuis, Birte U. Forstmann en Eric-Jan Wagenmakers, ‘Erroneous analysis of interactions in neuroscience: a problem of significance’ in: Nature Neuroscience 2011, 14, 1105-1107.

Geert Molenberghs is als biostatisticus verbonden aan de KU Leuven en de Universiteit Hasselt.

Deel dit artikel