statistiek speelt een steeds prominentere rol in de toegepaste wetenschappen, en zeker in de biomedische wetenschappen. dat is te zien aan de tabellen en grafieken in de vakliteratuur, maar ook in de opzet van onderwijsprogramma’s. helaas worden nog al te vaak verkeerde methodes gebruikt of resultaten van correcte analyses verkeerd geïnterpreteerd. dat leidt tot foute en schijnbaar tegenstrijdige conclusies. zo kan de indruk worden gewekt dat met statistiek alles te bewijzen valt.

Goochelen met statistiek

Geert Verbeke

Begin dit jaar stelde Robert May in Science het misbruik en verkeerd gebruik van wiskunde in de biologie aan de kaak. Hij gaf een aantal voorbeelden waarbij verkeerde mathematische modellen hebben geleid tot foute predicties van onder meer de impact van HIV/AIDS in Centraal-Afrika en van het aantal dieren geïnfecteerd met mond en klauwzeer. De gevolgen van dergelijke fouten kunnen enorm zijn.

Wat kan er eigenlijk allemaal misgaan wanneer men in de toegepaste wetenschappen data interpreteert en hoe kan dat worden vermeden? Vooraleer die vraag te beantwoorden, is het nuttig stil te staan bij enkele basisprincipes. Een typisch voorbeeld is het gebruik van statistiek om na te gaan of een behandeling effect heeft bij patiënten met een welbepaalde aandoening. Ideaal is indien we de gehele patiëntenpopulatie kunnen behandelen en het effect kunnen meten. Omdat dit praktisch onmogelijk is en omdat we niet alleen een uitspraak wensen te doen over de huidige patiënten, maar ook over alle patiënten met dezelfde aandoening die we in de toekomst wensen te behandelen, nemen we een steekproef uit de populatie. Die steekproef moet voldoende groot zijn. Als één persoon effect ondervindt van het drinken van vruchtensap bij migraine, kunnen we daaruit geen algemeen geldende conclusies trekken, omdat dit effect slechts bij één, wellicht erg specifiek individu is geobserveerd. Verder is het van cruciaal belang dat de steekproef random getrokken is.

Dat wil zeggen dat alle subjecten willekeurig moeten worden gekozen uit de populatie die men wenst te bestuderen. Om besluiten op basis van een steekproef te kunnen veralgemenen naar de totale populatie moet de steekproef de populatie zo goed mogelijk representeren. Dat kan alleen als de steekproef volledig willekeurig werd getrokken. Het is duidelijk dat men bij een studie over rugklachten bij verpleegkundigen de steekproef niet kan beperken tot enkel mannen of tot enkel verpleegkundigen in Belgische universitaire ziekenhuizen.

Maar wanneer niet alle proefpersonen uit een willekeurige steekproef bereid zijn aan een studie deel te nemen, wordt dit minder als een probleem ervaren. Toch heeft men dan noodgedwongen slechts gegevens kunnen verzamelen op een wellicht selectief gedeelte. In hoeverre is de uiteindelijke steekproef dan nog een afspiegeling van de algemene populatie? Een ander, problematischer voorbeeld is een dierproef waarin de groei van ratten wordt bestudeerd, maar waarbij er ratten sterven door de anesthesie die wordt toegediend om de groeiparameters te kunnen opmeten. In hoeverre zijn de overlevenden anders dan de ratten die de anesthesie niet overleefd hebben?

Na elke steekproef worden er statistische technieken gebruikt om trends en verbanden die men in de steekproef observeert te veralgemenen naar de populatie. Ook hier is er veel ruimte voor misinterpretatie. Enerzijds moet men rekening houden met variabiliteit in de populatie en in de steekproef. Bij een behandeling voor hypertensie zullen niet alle proefpersonen dezelfde bloeddrukdaling ondervinden. Bij sommigen zal de bloeddruk sterk dalen, bij anderen zal die niet dalen, of misschien zelfs lichtjes stijgen. De statistiek kan dus geen uitspraak doen over het effect op elke nieuwe patiënt die men in de toekomst behandelt. Men beschikt slechts over een schatting van de gemiddelde bloeddrukdaling, het te verwachten gemiddelde effect, indien men een grote groep patiënten zou behandelen.

Anderzijds is het cruciaal om te beseffen dat de verzamelde gegevens onderhevig zijn aan toeval. Indien de studie herhaald wordt, kunnen er (lichtjes) andere resultaten worden gevonden. Het is dus mogelijk dat een positief gemiddeld effect geobserveerd in de ene studie, volledig verdwijnt of zelfs negatief wordt in een volgende studie. Statistiek leidt steeds tot uitspraken die onderhevig zijn aan onzekerheid en het is belangrijk die onzekerheid te schatten. Men moet met andere woorden steeds berekenen hoe nauwkeurig de gedane uitspraken zijn. Heel wat clinici ervaren het als bijzonder hinderlijk dat de statistiek geen sluitend antwoord kan bieden op hun vragen. Toch is het volledig contra-intuïtief wanneer men op basis van een steekproef uitspraken doet over de totale populatie, en dit met 100 % zekerheid. De steekproef is immers slechts een (zeer) klein onderdeel van de studiepopulatie, en leidt dus nooit tot volledige zekerheid.

Heel wat clinici ervaren het als bijzonder hinderlijk dat de statistiek geen sluitend antwoord kan bieden op hun vragen

Hoe moet de besluitvorming dan totstandkomen? Het komt er op neer dat steeds berekend moet worden in hoeverre geobserveerde (gemiddelde) effecten toegeschreven kunnen worden aan puur toeval. Indien men in de eerste les van de statistiekcursus merkt dat de studenten links in het auditorium gemiddeld een maand ouder zijn dan hun medestudenten die rechts hebben plaatsgenomen, dan is dit nog geen bewijs dat oudere studenten systematisch meer geneigd zijn links plaats te nemen. Zoals gezegd is het geobserveerd verschil onderhevig aan toeval. Dus zal een uitspraak gebaseerd moeten zijn op de kans dat een dergelijk verschil louter toeval is. Indien de studenten op volledig willekeurige manier hun plaatsen innemen, hoe groot is dan de kans dat men toch door toeval zo’n (groot) verschil van één maand observeert?

Wanneer deze kans erg groot is, dan is dit geobserveerde verschil onvoldoende evidentie om daaruit af te leiden dat er een verband is tussen de leeftijd en de gekozen plaats in het auditorium. Anderzijds zal een kleine kans betekenen dat het weinig waarschijnlijk is dat het geobserveerde verschil volledig op toeval berust. Deze kans wordt p-waarde genoemd. Een gebruiker moet zelf beslissen hoe klein deze p-waarde moet zijn alvorens een geobserveerd verschil aan puur toeval toe te schrijven. In de biomedische wereld neemt men vaak 0.05 (5 %) als grenswaarde. Indien er minder dan 5 % kans is dat men door puur toeval een gemiddeld verschil in leeftijd observeert van minstens één maand, dan gebruikt men dit als evidentie dat oudere studenten inderdaad eerder geneigd zijn links in het auditorium plaats te nemen.

Het is belangrijk te weten dat de waarde die men gebruikt om een onderscheid te maken tussen ‘significant’ en ‘niet significant’ een arbitraire keuze is (bijvoorbeeld 0.05). Er mag zeker niet worden overgeïnterpreteerd. In wetenschappelijke publicaties geeft men vaak geen p-waarden weer, maar slechts een indicatie van welke p-waarden kleiner en welke groter waren dan de magische grens van 5 %. Men rapporteert dus enkel of gevonden effecten significant zijn of niet. Het geheimhouden van de p-waarde moet worden vermeden, omdat het dan onmogelijk wordt een onderscheid te maken tussen de significante resultaten p=0.0001 en p=0.04 of tussen de niet-significante resultaten p=0.06 en p=0.8725, terwijl p=0.04 en p=0.06 wel tot tegenovergestelde conclusies leiden.

Al te vaak wordt een significant resultaat verkeerd geïnterpreteerd als een bewijs van aanwezig effect, terwijl een niet-significant resultaat wordt beschouwd als een bewijs voor het ontbreken van enig effect. Nochtans drukt de p-waarde slechts uit hoe waarschijnlijk het is dat een resultaat puur toeval is. Een kleine p-waarde, hoe klein ook (bijvoorbeeld p=0.0001), geeft weer dat het geobserveerde met zeer kleine kans toeval kan zijn, wat geenszins uitsluit dat het inderdaad toeval geweest is. In een loterij met zeer kleine kans op winst zijn er toch regelmatig winnaars. Een grote p-waarde (bijvoorbeeld p=0.9263) duidt dan weer op een grote kans dat het resultaat puur toeval was, wat niet noodzakelijk impliceert dat het daadwerkelijk toeval is geweest. Als een behandeling slechts een erg klein effect heeft, dan zal het geobserveerde effect in de steekproef wellicht ook klein zijn, en kan het ook gemakkelijk door toeval gegenereerd zijn. Een aanwezig effect kan dus te klein zijn om het te kunnen onderscheiden van puur toeval.

Bij de besluitvorming kan men dus fouten maken: men kan ten onrechte beslissen dat er een effect is (een type I fout), of men kan ten onrechte beslissen dat er geen effect is (een type II fout). De kans dat men een dergelijke fout maakt hangt af van de grootte van de steekproef. Hoe groter de steekproef, hoe kleiner de kans op een fout. In de praktijk heeft dit allerlei implicaties. Een niet-significant resultaat kan het gevolg zijn van de afwezigheid van een effect in de populatie, maar het kan ook dat een aanwezig effect niet gedetecteerd wordt door een te kleine steekproef. Dan wordt een type II fout gemaakt.

Verder kunnen klinisch irrelevante effecten als hoog significant worden bevonden in (erg) grote steekproeven. Indien een behandeling voor hypertensie een gemiddelde bloeddrukdaling impliceert van slechts 1mm Hg, dan zal men deze behandeling wellicht nooit op grote schaal toepassen omdat het effect klinisch niet relevant is. Toch zou een studie van voldoende omvang dergelijke kleine effecten significant bevinden, omdat de kans op een type II fout (ten onrechte beslissen dat er geen effect is) daalt met de grootte van de steekproef. Elk effect, hoe klein ook, kan dus vroeg of laat significant worden gemaakt door voldoende grote steekproeven te nemen. Dit betekent dat men de besluitvorming nooit kan baseren op p-waarden alleen, maar dat men steeds de grootte van de steekproef in overweging moet nemen, alsmede het geobserveerde effect in de steekproef. Zo kan men nagaan of de steekproef wel voldoende groot was om klinisch relevante effecten te ontdekken, maar ook of gevonden significante effecten wel klinisch relevant zijn.

Bij herhaaldelijk testen zullen de kansen op foute conclusies cumuleren

Steeds wanneer men een test uitvoert, bestaat dus de mogelijkheid dat men tot een foute conclusie komt. Bij herhaaldelijk testen zullen de kansen op foute conclusies cumuleren zodat men uiteindelijk met bijna zekerheid minstens één fout besluit zal trekken. Indien de studenten links in het auditorium niet significant verschillen in leeftijd van de studenten rechts in het auditorium, kunnen we verder gaan testen voor links-rechtsverschillen in gewicht, lengte, haarkleur, geslacht … Vroeg of laat zal er dan wel een toevallig verschil significant worden bevonden, wat opnieuw overeenkomt met een type I fout in de conclusies. Dit heeft belangrijke implicaties voor de praktijk. Als een artikel tabellen bevat met resultaten van tientallen testen (dus tientallen p-waarden) waarvan er slechts enkele significant zijn, dan moet men deze met grote omzichtigheid interpreteren. Ze kunnen het gevolg zijn van het meervoudig testen. Erger is het wanneer een auteur enkel significante resultaten rapporteert, zonder te vermelden hoeveel niet-significante effecten er daarnaast gevonden zijn. Indien dat er tientallen zijn, dan is het erg waarschijnlijk dat de uiteindelijke conclusies op puur toeval berusten.

Hoe moet een significant effect dan wel correct worden geïnterpreteerd? Stel dat er bij heupfractuurpatiënten postoperatief een verband wordt gevonden tussen de lichamelijke en de mentale (cognitieve) toestand van de patiënt, wijst dit er dan op dat een lichamelijk slechtere conditie automatisch ook leidt tot een mentale disfunctie (verwardheid …)? Wat indien dit verband artificieel geïnduceerd wordt door verschillen in leeftijd, waarbij jongere patiënten er zowel lichamelijk als mentaal beter aan toe zijn, terwijl de ouderen er lichamelijk en mentaal slechter aan toe zijn? Een vergelijkbare situatie kan zich voordoen bij het vergelijken van twee groepen. Stel dat er een significant verschil wordt gedetecteerd tussen een groep patiënten behandeld met medicatie A en een tweede groep behandeld met medicatie B. Mogen we dan besluiten dat dit verschil een gevolg is van het verschil in behandeling? Wat indien de ene groep relatief meer vrouwen bevat, of relatief meer oudere patiënten? Dan zou het geobserveerde behandelingseffect een gevolg kunnen zijn van de verschillende geslachts- en/of leeftijdsverdeling in beide groepen, terwijl er van een verschil in behandelingseffect geen sprake zou kunnen zijn. Indien men een geobserveerd effect wil kunnen toeschrijven aan de behandeling, dan zal men er bij het samenstellen van de groepen voor moeten zorgen dat die volledig vergelijkbaar zijn wat betreft geslacht en leeftijd, maar ook wat betreft alle andere gekende en ongekende factoren die mogelijk een verschil in effect kunnen verklaren.

Dit kan alleen via randomisering, dat wil zeggen door patiënten op volledig willekeurige manier in te delen in de behandelingsgroepen. De meest eenvoudige vorm van randomisering is het opgooien van een muntstuk om de toekenning van behandeling A of B te bepalen. Alhoewel randomisering de gouden standaard is, wordt dit omwille van ethische of praktische redenen in de praktijk toch niet steeds toegepast. De enige manier om een causaal verband aan te tonen tussen roken en longkanker is een groep proefpersonen willekeurig in te delen in twee groepen, waarbij de eerste groep verboden wordt te roken en de tweede groep een verplicht aantal sigaretten per dag moet roken, gedurende een lange periode. Indien beide groepen voldoende groot zijn en voldoende lang worden gevolgd, dan kunnen verschillen in het voorkomen van longkanker toegeschreven worden aan het roken. Het is duidelijk dat een dergelijke studieopzet in deze context niet te verantwoorden is. Toch is er tegenwoordig een brede consensus dat roken schadelijk is, en longkanker veroorzaakt. Dat is gebaseerd op het feit dat herhaaldelijk, in vele studies en in steeds andere populaties, consistent een dergelijk effect werd geobserveerd, waaruit het gevoel groeit dat dit wel degelijk wijst op een aanwezig effect. Het is inderdaad weinig waarschijnlijk dat al deze bevindingen type I fouten (ten onrechte besluiten dat er een effect is) waren.

Het is belangrijk dat de clinicus tijdig een statisticus consulteert

Veel verwarring omtrent de mogelijkheden en beperkingen, alsmede omtrent het gebruik en de interpretatie van statistiek ontstaat vermoedelijk door een niet-optimale communicatie tussen clinicus en statisticus. Wanneer men de bloeddruk van mannen en vrouwen wenst te vergelijken, dan moet er in het geval de mannen en vrouwen volledig onafhankelijk van elkaar worden geselecteerd, een andere statistische methodologie worden gebruikt dan in het geval de mannen en vrouwen koppels zijn. In het laatste geval moet rekening worden gehouden met het feit dat beide partners heel veel factoren (eetgewoonten, lichaamsbeweging …) gemeenschappelijk hebben die van belang kunnen zijn in de vergelijking van hun bloeddruk. Dit toont aan dat een correcte keuze van de te gebruiken technieken pas mogelijk is als de statisticus voldoende voorkennis heeft over de context waarin de gegevens zijn verzameld. Ook moet de klinische vraag op een correcte manier begrepen en statistisch vertaald worden. Een statisticus heeft dus meer nodig dan een tabel met gegevens. Tevens is het belangrijk dat de clinicus tijdig een statisticus consulteert, zodat fouten in de opzet van een studie vermeden worden, er correcte technieken gebruikt worden, en de resultaten op de juiste manier geïnterpreteerd worden. De gebruiksvriendelijkheid van statistische pakketten leidt er soms toe dat clinici zelf hun gegevens analyseren. Het blijft echter belangrijk dit in nauwe samenwerking te doen met een ervaren statisticus. Elke statistische methodologie is gebaseerd op assumpties die moeten worden nagekeken. Wanneer niet aan deze veronderstellingen wordt voldaan, kan dit tot (sterk) verkeerde resultaten leiden.

Het valt moeilijk te schatten hoe groot de reikwijdte van het probleem is en in hoeverre fouten al dan niet bewust gebeuren. Vaak bevat een publicatie te weinig informatie om met zekerheid te kunnen vaststellen of de conclusies terecht zijn en gebaseerd op correcte methodologie, maar ook om te kunnen uitsluiten dat er fouten zijn gemaakt. Dit maakt het voor de lezers, die vaak niet statistisch zijn geschoold, erg moeilijk om misbruik te detecteren. In elk geval is duidelijk dat conclusies gebaseerd op foute methodologie ernstige gevolgen kunnen hebben. Zo kunnen foutief gevonden effecten aanleiding geven tot het opzetten van nieuwe, grotere studies om deze effecten meer in detail te bestuderen, of kunnen niet-ontdekte aanwezige effecten voor lange tijd onbenut blijven omdat er geen verder onderzoek naar wordt gedaan.

Robert M. May, ‘Uses and Abuses of Mathematics in Biology’, in: Science, 2004, nr. 303, 790-793.

Geert Verbeke is als biostatisticus verbonden aan de KU Leuven.

Deel dit artikel