in de academische wereld zijn collega-wetenschappers het best geplaatst om de wetenschappelijke kwaliteit van onderzoek en onderzoekers te beoordelen. omdat die beoordelingsprocessen doorgaans plaatsvinden achter gesloten deuren is er weinig geweten over hoe ze precies verlopen. in How Professors Think schetst michèle lamont de werking van academische evaluatieprocessen binnen de humane wetenschappen. excellentie en topkwaliteit zijn hierbij kernbegrippen – die evenwel openstaan voor interpretatie.

In de coulissen van de menswetenschappen

Gert Verschraegen

In tegenstelling tot vele andere sociale domeinen is kwaliteitsbewaking in de wetenschap vooral een zaak van ‘insiders’. Omdat buitenstaanders doorgaans de kennis, vaardigheden en vertrouwdheid missen om wetenschappelijk werk te beoordelen, gaat men ervan uit dat academische ‘peers’ (gelijken) het best geplaatst zijn om de wetenschappelijke kwaliteit van onderzoek en onderzoekers te toetsen. Op basis van individuele dossiers en een interne deliberatie beslist een commissie van gevestigde collega-wetenschappers welke mandaten of projecten financiële steun verdienen. Zulke beoordelingspanels vormen een beslissende toegangspoort tot de wetenschappelijke wereld: ze verdelen de schaarse onderzoeksmiddelen en bepalen mee de toekomstige richting van het wetenschappelijk onderzoek. Toch is er weinig geweten over hoe die academische beoordeling juist verloopt. De resultaten van de deliberatie evenals enkele algemene beoordelingscriteria worden publiek bekendgemaakt, maar het beoordelingsproces zelf vindt plaats achter gesloten deuren en blijft een ‘black box’ die voor buitenstaanders nooit volledig wordt geopend.

In How Professors Think. Inside the Curious World of Academic Judgment legt Michèle Lamont de werking van die academische evaluatieprocessen bloot. De sociologe, die aan Harvard doceert, wist toegang te verkrijgen tot enkele van de belangrijkste Amerikaanse beoordelingscommissies die instaan voor de verdeling van academische ‘fellowships’ of mandaten. Twee jaar lang observeerde Lamont de werking en beraadslagingen van een vijftiental multidisciplinaire beoordelingscommissies binnen de schoot van verscheidene prestigieuze financieringskanalen in de sociale en cultuurwetenschappen (zoals de American Council for Learned Societies en de Social Science Research Council). Tijdens haar verblijf in de coulissen van de wetenschapsevaluatie voerde ze uiteraard ook vele informele gesprekken. Voorts nam ze vlak na de deliberaties interviews af van de verschillende commissieleden en van panelcoördinatoren die instaan voor de organisatie van het evaluatieproces. De belangrijkste vraag is hoe het deliberatieproces tussen de panelleden de waarde van wetenschappelijk werk bepaalt. Hoe verloopt de deliberatie? Welke logica en argumenten hanteren panelleden bij het goed- of afkeuren van projectvoorstellen en het opstellen van een bepaalde rangorde? Welke rol speelt de uiteenlopende disciplinaire achtergrond van de beoordelaars? Welke betekenis geven verschillende commissieleden aan de ingeroepen beoordelingscriteria? Hoewel de bestudeerde evaluatiecommissies enkele particuliere kenmerken van het Amerikaanse universitaire systeem vertonen – zoals schaalgrootte, sterkere nadruk op ‘positieve discriminatie’, grotere gevoeligheid voor de financiële ongelijkheid en statusverschillen tussen universiteiten – kunnen heel wat bevindingen worden veralgemeend naar Europa. Ze kunnen ons ook veel leren over de complexiteit en de dilemma’s van onderzoeksevaluatie in de humane wetenschappen.

Verschillende beoordelaars hanteren zeer uiteenlopende standaarden om ‘excellentie’ te definiëren

De wetenschappelijke wereld is in de greep van een zoektocht naar ‘excellentie’ en ‘topkwaliteit’. Dat is ook de strekking van de programmatische teksten op webstekken van zowel Europese als Amerikaanse wetenschappelijke financieringskanalen: ze willen ‘uitmuntende’ onderzoekers en ‘excellente’ onderzoeksprojecten financieren. De lectuur van How Professors Think biedt enkele interessante kanttekeningen bij dit lichtjes hyperbolisch aandoende taalgebruik. Opvallend is dat Lamont weinig panelleden ontmoette die het discours van ‘excellentie’ ongeloofwaardig vinden. Doorgaans onderschrijven ze het geloof in uitmuntendheid en bevestigen dat het evaluatiesysteem dient om ‘excellent’ onderzoek te selecteren. Als Lamont echter peilt naar de precieze invulling van dit begrip, wordt het plaatje minder duidelijk. De verschillende beoordelaars hanteren zeer uiteenlopende standaarden om ‘excellentie’ te definiëren: helderheid, kwaliteit, originaliteit, methodologie, haalbaarheid, elegantie, … Sommigen hechten belang aan mooi schrijven en culturele eruditie, anderen hebben vooral oog voor de kwaliteit van de data en het onderzoeksdesign. Nog anderen kijken hoofdzakelijk naar de praktische haalbaarheid en de realiteitszin van het ingediende dossier. Niet alleen bestaat er een breed gevarieerd palet aan beoordelingsstandaarden, tijdens het beoordelingsproces worden die standaarden ook op heel diverse manieren geïnterpreteerd. Zo vinden alle commissieleden ‘originaliteit’ belangrijk, maar definiëren dit op uiteenlopende manieren. Sommigen omschrijven originaliteit aan de hand van de onderzoeksbenadering of theoretische aanpak, anderen geven meer gewicht aan nieuwe data, een innovatieve methodologie of een onderbestudeerd thema.

Ook de gehanteerde criteria en de invulling ervan verschuiven al naargelang van de specifieke context van vergelijking. Wanneer bijvoorbeeld beslist moet worden over een vijftal resterende aanvragen, kunnen heel uiteenlopende standaarden – zoals methode, haalbaarheid of geografische spreiding – worden toegepast. Voorstellen winnen of verliezen niet altijd omwille van dezelfde redenen. Sommige projecten halen de eindstreep omdat ze een originele theoretische invalshoek aanreiken, andere omdat ze binnen het beschikbare financiële kader haalbare onderzoeksresultaten voorspiegelen. Het simpele gegeven dat elke beoordeling zich in de tijd afspeelt, zorgt voor wel meer inconsistenties. Zo blijkt de volgorde waarin voorstellen worden bediscussieerd, erg belangrijk. Meestal worden voorstellen elk apart behandeld en is het erg ongewoon om een al goedgekeurd voorstel alsnog uit de lijst van gefinancierde voorstellen te halen. Over een bepaalde sessie vertelt een panellid: ‘Ik heb het gevoel dat, als deze vergadering op een andere dag had plaatsgevonden en als het toegelaten was om mensen uit de ‘ja’-lijst te halen en van opvatting te veranderen, er zeker zes, zeven of acht aanvragen van plaats veranderd zouden zijn.’ Meestal zijn de beoordelaars zich niet bewust van de contingentie en inconsistentie die de vergelijking van een groot aantal verschillende onderzoeksprojecten met zich meebrengt. De taal van ‘uitmuntendheid’ en ‘excellentie’ veronderstelt dat er ergens een duidelijk afgelijnde rangorde bestaat van de slechtste tot de allerbeste voorstellen. In de realiteit blijkt de beoordeling niet zo lineair te verlopen. De commissieleden vergelijken verschillende facetten van de voorstellen met zeer verschillende criteria en wegen telkens af welke facetten en criteria de doorslag moeten geven. De lijst van de ‘beste’ voorstellen komt dus niet automatisch bovendrijven, maar is het resultaat van een voorafgaande collectieve interactie, gekenmerkt door wisselende sociale verhoudingen, conflicterende standaarden, verschuivende perspectieven en loutere toevalligheden.

De menswetenschappen vormen een breed gevarieerd palet aan wetenschapsstijlen en evaluatieculturen

De door Lamont bestudeerde evaluatiecommissies zijn alle heterogeen samengesteld en bevatten vertegenwoordigers uit de verschillende disciplines van de sociale en cultuurwetenschappen. Eén van de meest boeiende hoofdstukken gaat dieper in op het belang van die disciplinaire achtergrond. De verschillende menswetenschappelijke disciplines – het boek bestudeert er zes in het bijzonder: geschiedenis, economie, antropologie, filosofie, politieke wetenschappen en Engelse taal- en literatuurwetenschap – hebben elk hun intellectuele tradities, standaarden en technieken voortgebracht. Lamont omschrijft die specifieke disciplinaire gerichtheid met het begrip ‘epistemologische stijl’: elke discipline (en vaak ook subdiscipline) heeft een eigen wijze om vragen over fenomenen om te vormen tot wetenschappelijk onderzoekbare problemen. Of met een allicht te simpele typologie: sommige (sub)disciplines zijn vooral geïnteresseerd in het ‘hoeveel?’, terwijl andere eerder vragen naar het ‘hoe?’ of het ‘waarom?’. Dit zijn allemaal vragen die andere onderzoeksbenaderingen, andere vormen van communicatie en andere methoden van dataverzameling en -analyse vereisen. Over het algemeen zal een econoom duidelijk afgelijnde hypothesen en mathematische modellen verkiezen, terwijl een antropoloog of historicus vaker aandacht heeft voor betekenisgeving en de sociaal-historische context. Politieke wetenschappers leggen veel nadruk op een sterk onderzoeksdesign dat theoretische veralgemeningen toelaat op grond van verschillende ‘cases’. Een filosoof zal eerder de conceptuele veronderstellingen van een bepaald kennisclaim of politieke stelling problematiseren. Die verschillende epistemologische stijlen zijn niet alleen een kwestie van methode en techniek, ze omvatten ook een andere opvatting over de relatie tussen theorie en empirie, en zelfs over de mogelijkheid tot betrouwbare en veralgemeenbare kennis.

Die verschillen hebben natuurlijk een belangrijke invloed op de manier waarop voorstellen worden beoordeeld. De diverse disciplines en subdisciplines definiëren uitmuntendheid op een andere manier en gebruiken andersoortige criteria om iets als ‘(on)interessant’, ‘degelijk’ of ‘slordig’ te omschrijven. Economen hanteren kennisopvattingen en evaluatiestandaarden die afwijken van wat in andere sociaal- of cultuurwetenschappelijke disciplines gebruikelijk is. In tegenstelling tot de historici, antropologen en taalwetenschappers beschouwen de door Lamont geïnterviewde economen wetenschappelijke evaluatie bijvoorbeeld als een relatief eenduidige kwestie waarbij ‘winnaars’ en ‘verliezers’ van elkaar moeten worden gescheiden. Die opvatting van een duidelijke scheidslijn vloeit ten dele voort uit een meer objectivistisch beeld van kennis: de positivistisch en mathematisch ingestelde economie heeft meer vertrouwen in de ‘objectiviteit’ van kennis dan de hermeneutisch of constructivistische ingestelde wetenschappers die de historische en culturele specificiteit van kennis benadrukken. Belangrijk is ook de sterke epistemologische consensus in de (huidige) economie, die gekenmerkt wordt door een relatief grote eensgezindheid over de doelen, methoden en standaarden van onderzoek. Bijna alle andere sociale en cultuurwetenschappen worden sterker gespleten door theoretische en methodologische verschillen. Zo bestaat er binnen de sociologie relatief weinig epistemologische of methodologische overlapping tussen een demograaf en een cultuursocioloog. Bijgevolg kan daar ook moeilijker worden gewerkt met uniforme of éénduidige beoordelingscriteria.

De menswetenschappen vormen kennelijk een breed gevarieerd palet aan wetenschapsstijlen en evaluatieculturen. Ondanks de ruim aanwezige conflictstof gelijken de bestudeerde evaluatiecommissies niet bepaald op een menselijke krabbenmand. Er is eerder een uitgesproken collegialiteit, die tot uiting komt in de onderlinge interesse en het respect voor elkaars oordelen. Tijdens de vaak lange deliberaties is er een doorlopende, veelal geanimeerde maar slechts zelden conflictueuze uitwisseling van ideeën. De discussie wordt in goede banen geleid door sterke informele normen zoals universalisme (alle voorstellen, ongeacht de discipline, worden op een gelijkaardige manier behandeld) en onpartijdigheid (persoonlijke netwerken en belangen blijven buiten beschouwing). Volgens Lamont is een goede beoordelaar iemand die zijn expertise gebruikt om de voorstellen zelf op hun merites af te wegen en zijn persoonlijke of disciplinaire ‘vooroordelen’ in het gareel houdt. In de interviews wordt dan ook geregeld het respect voor elkaars professionele en disciplinaire autonomie benadrukt. Men verwacht een zekere ‘openheid’ voor specifieke onderzoeksbenaderingen en men toont weinig appreciatie voor beoordelaars die hun eigen evaluatiecriteria aan anderen willen opleggen. Zo beschrijft een geograaf zijn frustratie over een politieke wetenschapper die weigert om een onderzoeksvoorstel op een adequate manier te evalueren: ‘Dit voorstel gaat niet over hoeveel individuen er feitelijk ziek zijn in een bevolking, maar eerder over hoeveel mensen zeggen dat ze ziek zijn, en dus over discourse. Het past helemaal niet in de gebruikelijke statistische number crunching. Het gaat over hoe mensen deze kwesties gebruiken om protest uit te drukken, en hij was helemaal niet bereid om dit te aanvaarden.’ Lamont portretteert een wereld met sterke professionele en collegiale normen. Toch is het algemene beeld iets dubbelzinniger. Je hoeft geen socioloog te zijn om te weten dat gedeelde normen steeds onderhandeld en geïnterpreteerd kunnen worden. Zo ook in die wetenschappelijke beoordelingscommissies. Hoewel de panelleden in hun beoordelingen consistentie, universalisme en disciplinaire autonomie nastreven, beseffen ze tegelijk dat concessies en een zeker pragmatisme onvermijdelijk zijn. Het budget en de tijd zijn beperkt en de aanwezigheid van andere wetenschapsbenaderingen vereist compromissen.

Enkele van de meest opmerkelijke bladzijden van How Professors Think behandelen de verschillende onderhandelingsstrategieën van de panelleden om een door hen verkozen voorstel gefinancierd te krijgen. Daarbij is het belangrijk om te weten dat de beoordelingscommissies relatief weinig tijd besteden aan de voorstellen die door iedereen worden gesteund of afgewezen. De deliberatie concentreert zich vooral op het peloton van voorstellen die veel goeds beloven maar, al naargelang de naar voren geschoven beoordelingscriteria, verschillende sterktes en zwaktes met zich meebrengen. Over die voorstellen wordt het meest intensief onderhandeld en gemarchandeerd. Vele panelleden stippen bijvoorbeeld aan dat ze allianties vormen met gelijkgestemde beoordelaars of op een ‘strategische’ manier stemmen voor voorstellen die men minder genegen is om zo steun te verkrijgen voor de dossiers die men zelf gefinancierd wil zien. Sommigen geven ook toe dat ze voorstellen die aansluiten bij de eigen onderzoeksinteresses en -benadering hogere scores geven dan ze eigenlijk verdienen, alleen om ze in de competitie te houden. Zo vertelt een hoogleraar literatuurwetenschappen dat hij een voorstel erg hoog rangschikte ‘ten dele omdat ik wist dat de andere panelleden afgeschrikt zouden worden door haar stijl … ik heb haar andere werk gelezen en ik bewonder het … ik dacht dat haar stijl zo irriterend zou overkomen dat men niet meer in staat zou zijn om de waarde van haar werk te zien.’ De meeste panelleden zijn zich ervan bewust dat voorstellen aan zeer verschillende evaluatieculturen onderworpen worden. Omdat men ook het oordeel van anderen kan inschatten, anticipeert men op andere beslissingen door strategisch te stemmen of te scoren. Men keurt dit gewoonlijk wel af, maar men speelt het spel mee.

Favoritisme, waarbij de eigen studenten, vrienden of collega’s worden bevoordeeld, wordt unisono afgewezen en geschandaliseerd

Tegelijk worden ook duidelijke grenzen gesteld aan het gemarchandeer. Favoritisme, waarbij de eigen studenten, vrienden of collega’s worden bevoordeeld, wordt unisono afgewezen en geschandaliseerd. Alle geïnterviewden zijn het erover eens dat eigenbelang en persoonlijke netwerken niet mogen meespelen bij de beoordeling van dossiers. Zo verwacht men dat panelleden voorstellen uit de eigen discipline niet bevoordelen. Sommige beoordelaars merken op dat die verwachting van (disciplinaire) belangeloosheid zo sterk speelt dat er tegenovergestelde effecten kunnen optreden: ‘Hoe meer specialisten over het Midden-Oosten je in je commissie hebt, hoe minder voorstellen over het Midden-Oosten gerangschikt zullen worden.’ Juist omdat panelleden de claims gemaakt binnen de eigen discipline beter kunnen beoordelen dan buitenstaanders, bestaat er een tendens om strenger te zijn voor die voorstellen. Lamont merkt op dat ook hierop uitzonderingen bestaan. Kleinere disciplines waarvan de status onzeker is, of die een achteruitgang hebben gekend van het aantal studenten en aanvragers, zijn eerder geneigd om voorstellen uit de eigen discipline te promoten. Een panellid uit het domein van de vrouwenstudies zegt dat ze hoge punten geeft aan feministisch geïnspireerde voorstellen omdat het genderaspect ‘onvoldoende geïntegreerd is in het wereldbeeld van de meeste academici’ en vaak erg negatief wordt bejegend. Wie de eigen discipline of ‘stal’ wil promoten, moet evenwel behoedzaam te werk gaan. Als men te opvallend de eigen belangen promoot, verliest men snel legitimiteit bij de andere beoordelaars en wordt men niet meer opnieuw uitgenodigd voor latere beoordelingscommissies.

De verschillende, collectief gedeelde normen van ‘onpartijdigheid’ lijken dus behoorlijk effectief te werken. Toch spelen de persoonlijke achtergrond en particuliere belangen van de panelleden ook een rol, maar op een meer indirecte manier. Zo heeft de wetenschappelijke status van de beoordelaars zelf een onmiskenbare invloed: de ene beoordelaar legt meer ‘gewicht’ in de schaal dan de andere. Ook het beoordelingsproces wordt vertekend door subjectieve of persoonlijke voorkeuren. Hoewel bijna alle panelleden beklemtonen dat ze hun persoonlijke voorkeuren ondergeschikt proberen te maken aan meer neutrale standaarden, vertonen voorstellen die een beoordelaar als ‘interessant’ of ‘uitmuntend’ omschrijft, doorgaans opvallende parallellen met het type en de stijl van onderzoek die de beoordelaar zelf beoefent en nastreeft. Vaak versmelten panelleden onbewust hun definities van wat ‘relevant’ of ‘interessant’ is met de eigen voorliefdes en wetenschapsopvattingen. Dit is niet verrassend: niemand ontsnapt aan zijn eigen interesses of aan de bredere betekeniskaders waarin men werkt. Iets is maar ‘interessant’ of ‘origineel’ dankzij de wetenschappelijke ‘bril’ en netwerken die men heeft opgebouwd. Toch pleit Lamont ervoor voldoende ‘checks and balances’ in te bouwen in de samenstelling van beoordelingscommissies. Evaluatiepanels – zowel in disciplinaire als multidisciplinaire settings – kunnen het best gebalanceerd worden samengesteld zodat ze verschillende onderzoeksinteresses en epistemologische stijlen representeren. Anders dreigt een versmalling en verschraling van de wetenschap, waarbij alleen bepaalde typen en vormen van onderzoek nog gefinancierd worden. Beoordelingscommissies met voldoende theoretische en methodologische pluriformiteit bieden meer kansen aan innovatieve voorstellen die in homogenere of meer gespecialiseerde evaluatiecontexten moeilijker aan de bak komen.

Door nauwgezet te analyseren welke betekenis panelleden aan verschillende evaluatiecriteria geven, demonstreert Lamont dat de wereld van de academische beoordeling een meerkamp is van diverse evaluatieculturen en ‘epistemologische stijlen’. Er bestaat geen overkoepelende hiërarchie van evaluatiecriteria die voor alle stijlen van wetenschap, alle disciplines en subdisciplines, zou moeten gelden. Er is meer dan één model van excellentie. Criteria zoals ‘methodologische sterkte’, ‘originaliteit’ of ‘helderheid’ krijgen niet alleen een verschillend gewicht van verschillende beoordelaars, maar worden ook op meerdere manieren geïnterpreteerd. Een normatieve conclusie is dat onderzoeksevaluatie in een domein met zo’n diversiteit als de humane wetenschappen, het best gediend is met een evaluatiesysteem dat die heterogeniteit ook expliciet erkent. ‘Het is zinloos om de zeer verschillende overwegingen die meespelen in financieringsbeslissingen samen te vouwen tot één enkele matrix, of die nu gestoeld is op een positivistische dan wel meer interpretatieve epistemologie (…) De doelstelling om een volledig consistent en geharmoniseerd beoordelingsproces te creëren is utopisch. Omdat perspectieven voortdurend verschuiven, het gewicht dat aan elk criterium wordt gegeven verschilt en de groep voorstellen die moet worden beoordeeld steeds anders is, zijn beoordelaars genoodzaakt om telkens opnieuw verschillende facetten van een voorstel tegen elkaar af te wegen.’

Met die stelling neemt Lamont een duidelijke positie in binnen het debat over onderzoeksevaluatie en onderzoeksmeting in de sociale en cultuurwetenschappen. Meer dan in de biomedische of exacte wetenschappen staat de mogelijkheid van een ‘objectieve’ onderzoeksevaluatie ter discussie. Sommigen vinden dat de menswetenschappen, net als de ‘exacte’ wetenschappen, het best worden geëvalueerd met een duidelijk en objectief meetsysteem zoals bibliometrie, dat over de disciplines heen vergelijkingen mogelijk maakt. De beste onderzoekers zijn dan zonder meer diegenen met de meeste citaties of de meeste publicaties in de best aangeschreven tijdschriften. Anderen stellen dat zo’n kwantitatief systeem misschien ‘objectief’ lijkt, maar voorbijgaat aan de hoge complexiteit en diversiteit van het menswetenschappelijke domein. De nadruk op kwantitatieve ‘output’ heeft geen oog voor kwalitatieve verschillen en zal de gevraagde creativiteit en vernieuwing eerder belemmeren. Het is veiliger om onderzoek te doen waarvan je zeker weet dat het leidt tot publiceerbare uitkomsten, en dat betekent vaak: meer van hetzelfde. De ‘toegevoegde waarde’ van wetenschappelijk werk kan daarom beter worden ingeschat door insiders die vertrouwd zijn met de stand van zaken binnen een bepaald vakdomein.

Lamonts bevindingen lijken vooral aan te sluiten bij die laatste positie. De epistemologische heterogeniteit van de sociale en cultuurwetenschappen maakt het inderdaad moeilijk om uniforme, ondubbelzinnige en precies meetbare kwaliteitsstandaarden aan onderzoek op te leggen. Hoewel een kwantitatieve meting van onderzoeksprestaties een onderdeel kan vormen van elke evaluatie, vormt het een te smalle basis om menswetenschappelijk werk te beoordelen. De face-to-facedeliberatie – volgens Lamont ‘een imperfect maar bevredigend systeem’ – biedt uiteindelijk meer ruimte om de verschillende vormen van excellentie te appreciëren en uiteenlopende beoordelingsfactoren tegen elkaar af te wegen. Toch is ze niet blind voor het gevaar van nepotisme, territoriumdrift en disciplinaire kortzichtigheid. Haar boek kan worden gelezen als een lang pleidooi voor epistemologische diversiteit en tegen intellectueel parochialisme. Argumenten moeten verdedigen en uitleggen tegenover collega’s met een heel andere wetenschapscultuur, is uiteindelijk de beste garantie tegen een ‘disciplinaire tunnelvisie’.

Michèle Lamont, How Professors Think. Inside the Curious World of Academic Judgment (Cambridge MA, Harvard University Press, 2009).

Gert Verschraegen is als socioloog verbonden aan de Universiteit Antwerpen.

Deel dit artikel