universiteiten moeten grondig verantwoording afleggen over de kwaliteit van hun onderzoek en onderwijs. internationale rankings, aantallen promovendi en citatiescores moeten helpen om de bewering te staven dat zij de beste zijn. wetenschappelijke kwaliteit wordt tegenwoordig vooral gemeten op basis van kwantitatieve en objectieve gegevens. maar ook de maatschappelijke kwaliteit en relevantie van het onderzoek zouden moeten meetellen.

Kwaliteit van onderzoek meten? (#40)

Jan Willem van Henten

In mijn studententijd was wetenschappelijke kwaliteit evident, althans voor mijn docenten en vele medestudenten in Leiden. Leiden was de beste universiteit. Van de twee voornaamste concurrenten ging de ene (de Universiteit van Amsterdam) ten onder aan het marxisme en onderlinge tweestrijd, terwijl de andere (de Universiteit van Utrecht) te veel op de beroepspraktijk gericht was – in elk geval in mijn discipline. Wat die wetenschappelijke kwaliteit inhield, was niet precies duidelijk, maar de overtuiging dat Leiden de beste was, was zonder twijfel authentiek. Die kwaliteit zou eenvoudig blijken uit het onderwijs en onderzoek en de studenten die de universiteit afleverde.

In de kleine veertig jaar tussen mijn studententijd en nu heb ik een heel circus meegemaakt van visitaties en bijbehorende beoordelingen van onderwijs en onderzoek. Nederland en Vlaanderen hebben sinds enige tijd zelfs een gemeenschappelijke accreditatieorganisatie voor het onderwijs (de NVAO). Die beoordelingen vloeien mede voort uit de toenemende maatschappelijke druk dat universiteiten grondig verantwoording moeten afleggen over de kwaliteit van hun onderzoek en onderwijs. Ook nu claimen universiteiten dat zij de beste zijn. Het principiële verschil met veertig jaar geleden is dat zij die bewering proberen te onderbouwen met harde gegevens: internationale rankings, aantallen promovendi, hoeveelheid onderzoek op tweede en derde geldstroom, of resultaten van een meer geavanceerde aanpak als een bibliometrische analyse van publicaties in A-tijdschriften of de zogenaamde h-score van onderzoekers. De verleiding om wetenschappelijke kwaliteit te meten op basis van kwantitatieve en objectieve gegevens, zoals citatiescores, is heel goed voorstelbaar. Dergelijke metingen lijken immers twee grote voordelen te hebben. In de eerste plaats kunnen de resultaten in het digitale tijdperk relatief eenvoudig worden gegenereerd. In de tweede plaats zijn bestuurders dolblij met objectieve gegevens die moeilijk in twijfel kunnen worden getrokken. Dat laatste is belangrijk als zij de uitkomsten willen gebruiken voor een herverdeling van onderzoeksbudgetten onder de best scorende onderzoeksgroepen.

Digitale databanken, zoals het Web of Science, zijn voor het ene wetenschapsgebied behoorlijk representatief, maar voor het andere niet of nauwelijks

Bij deze nadruk op kwaliteitsindicatoren die eenvoudig en zonder bemoeienis van deskundigen uit het veld gemeten kunnen worden, wil ik wel enkele kanttekeningen maken. Uitkomsten zoals die van bibliometrische analyses zijn gebaseerd op grote digitale databanken zoals het Web of Science. Dergelijke archieven zijn voor het ene wetenschapsgebied behoorlijk representatief, maar voor het andere niet of nauwelijks. Het Web of Science concentreert zich op Engelstalige publicaties, zodat publicaties in andere talen buiten de boot vallen. Het aantal tijdschriften op het gebied van rechten en geesteswetenschappen dat in deze database opgenomen is, blijft tot nu toe beperkt. Dat betekent dat een flink deel van het onderzoek op deze vakgebieden buiten beschouwing blijft.
De bibliometrische analyses worden nog problematischer als men rekening houdt met de sterk uiteenlopende praktijken van publiceren. Voor de ene discipline zijn monografieën iets uit een prehistorisch tijdperk, maar voor de andere zijn ze nog altijd de standaard. Daarnaast zijn er natuurlijk ook nieuwe types van publicatiekanalen waarmee rekening moet worden gehouden. Een sprekend voorbeeld is dat van een vooraanstaand natuurkundige, die onlangs aan de hand van zijn eigen website liet zien dat de artikelen die hij in eigen beheer via het web gepubliceerd had, duidelijk de hoogste citatiescores van al zijn publicaties behaald hadden. Kunnen die documenten meetellen bij een bibliometrische analyse? Zijn het wel publicaties? Er was in elk geval geen sprake van peer review voordat ze openbaar gemaakt werden. Voor een beoordeling van de impact van deze geleerde en de waardering die collega’s aan zijn werk toekennen, lijken zij toch essentiële informatie op te leveren. Tegelijkertijd weten we dat veel artikelen in tijdschriften niet gelezen worden of geen citaties opleveren, maar wel profiteren van de impactfactor van het tijdschrift.
Een derde kanttekening die bij een kwantitatieve aanpak gemaakt kan worden, is dat die sterk anticiperend gedrag in de hand kan werken. Als elke publicatie telt, kunnen wetenschappers in de verleiding komen om hun publicaties in stukken te knippen of te recycleren om zo een hogere score te halen. Een vermoedelijk fictief, maar goed voorstelbaar en leerzaam voorbeeld dat de ronde doet, is dat er in het Verenigd Koninkrijk na de definitie van een boek als een werk met minimaal 81 bladzijden opvallend veel boeken van 82 bladzijden verschijnen.

De Koninklijke Nederlandse Academie van Wetenschappen heeft aan drie commissies de opdracht gegeven om voor hun discipline een advies voor te bereiden over de kwaliteitsbeoordeling van onderzoek

Tegen die achtergrond is het opmerkelijk dat de Koninklijke Nederlandse Academie van Wetenschappen recent maar liefst drie commissies de opdracht heeft gegeven om voor hun discipline een advies voor te bereiden over de kwaliteitsbeoordeling van onderzoek (respectievelijk de Ontwerpende en construerende wetenschappen, de Sociale wetenschappen en de Geesteswetenschappen). Het rapport voor de Geesteswetenschappen, mijn eigen discipline, stelt een systeem van kwaliteitsbeoordeling voor dat gebaseerd is op panels van beoordelaars, maar deze peers moeten hun oordeel over de onderzoeksoutput van een groep of instelling bepalen aan de hand van de uitkomsten van drie sets van indicatoren. Die indicatoren geven informatie over respectievelijk verschillende categorieën van publicaties, het gebruik van deze output door anderen en de erkenning die de betrokken onderzoekers ten deel gevallen is (bijvoorbeeld door het toekennen van prijzen of de redactie van vooraanstaande tijdschriften). Het systeem is flexibel opgezet, zodat rekening kan worden gehouden met de aanzienlijke verschillen binnen de geesteswetenschappelijke praktijk en de uiteenlopende ambities die de instellingen nastreven, zoals een sterke focus op relevantie voor de samenleving of juist op fundamentele wetenschappelijke vragen.

De beoordelingen van onderzoeksoutput moeten niet alleen gebaseerd zijn op harde meetbare gegevens

Een belangrijk punt is dat het systeem ook drie sets van indicatoren van maatschappelijke kwaliteit bevat (opnieuw gericht op publicaties, gebruik van output en erkenning). Hier sluit de KNAW aan bij wensen die in de politiek en bij onderzoeksorganisaties leven om maatschappelijke kwaliteit een even grote betekenis toe te kennen als wetenschappelijke kwaliteit. Deze keuze heeft consequenties voor de samenstelling van de beoordelingscommissies, omdat die niet alleen uit wetenschappelijke peers maar ook uit experts vanuit de maatschappij zullen moeten bestaan. Zo ligt het voor de hand om een museumdirecteur of conservator bij de beoordeling van onderzoek op het gebied van de kunstwetenschappen te betrekken, en een beleidsmedewerker voor de monumentenzorg bij de beoordeling van archeologisch of architectuurhistorisch onderzoek. De verhoging van de maatschappelijke relevantie vereist in ieder geval ook dat wetenschappers zich meer bewust worden van die kant van het onderzoek. Hoewel nog niet alle drie de eindrapporten beschikbaar zijn, is de teneur van deze adviezen al wel duidelijk: de KNAW streeft naar een evenwichtige combinatie van peer review en kwaliteitsindicatoren voor output, die bovendien recht doet aan de verschillende contexten waarin onderzoek verricht wordt. Duidelijk is dus dat beoordelingen van onderzoeksoutput niet alleen gebaseerd moeten zijn op harde meetbare gegevens.

De grote vraag is echter wat de follow-up van het aangereikte advies zal zijn: wat gaan de potentiële gebruikers ermee doen? Het advies kan alleen succesvol zijn als de instellingen een hoge mate van consensus bereiken over het doel van de kwaliteitsbeoordelingen van onderzoek en de wijze van implementatie van de indicatoren. Een systeem dat nadrukkelijk de context en missie van de onderzoeksgroepen in het oordeel wil betrekken, leent zich natuurlijk minder gemakkelijk voor disciplinaire vergelijkingen van onderzoekskwaliteit en de toptienlijstjes die men daar maar al te graag uit afleidt. Want de ene groep kan zich op fundamenteel onderzoek concentreren en een andere op maatschappelijk gebruik. De logische uitkomst van dit gedifferentieerde systeem kan niet anders zijn dan een serie van op maat geleverde beoordelingen van individuele onderzoeksgroepen, die dan samen tot een verhoging van de kwaliteit en maatschappelijke relevantie moeten leiden. Deze kwaliteitsverhoging over de hele linie zou dan het voornaamste doel van de beoordelingen moeten zijn.

Het systeem vereist eveneens consensus over de toepassing van de indicatoren. De indicatoren moeten worden geconcretiseerd om duidelijke informatie voor de peers op te leveren. Dat zal vooral voor de indicatoren voor maatschappelijke kwaliteit nog een flinke operatie zijn, die intensief overleg met de maatschappelijke gebruikers vereist. Voor de geesteswetenschappen en rechten, en misschien nog wel voor meer disciplines, moeten de indicatoren voor wetenschappelijke publicaties gekoppeld worden aan nog samen te stellen lijsten van tijdschriften met peer review en wetenschappelijke uitgeverijen van boeken. Dat is een forse uitdaging voor het veld, maar het is een noodzakelijke stap. Gebeurt dit niet, dan ligt het voor de hand dat louter kwantitatieve beoordelingsmethoden de standaard worden. Dat zouden we op grond van de hierboven genoemde bezwaren niet moeten willen.

Het rapport is als pdf beschikbaar op we website van KNAW, op http://www.knaw.nl.

Jan Willem van Henten is als historicus en theoloog verbonden aan de Universiteit van Amsterdam en is lid van de KNAW-commissie Kwaliteitsindicatoren voor onderzoek in de geesteswetenschappen.

Deel dit artikel