wetenschappers staan tegenwoordig onder zware druk om zoveel mogelijk artikelen te publiceren in hooggewaardeerde tijdschriften. de nadruk op kwantiteit eerder dan op kwaliteit werkt echter wetenschapsfraude en (zelf)plagiaat in de hand. om plagiaat makkelijker op te sporen wordt nu software ontwikkeld die niet alleen in staat is tekstfragmenten te herkennen maar ook te begrijpen.

Van tekstherkenning naar tekstbegrip

Computers en plagiaatdetectie

Orphée de Clercq

De afgelopen jaren kwamen verschillende gevallen van wetenschapsfraude en (zelf)plagiaat bij Vlaamse wetenschappers aan het licht. Ook vloeide er heel wat inkt over de werkdruk die het leven van wetenschappers vandaag bepaalt. Het publish-or-perish-principe stelt dat wie de academische ladder wil opklimmen, moet opvallen door wetenschappelijke artikelen te publiceren in hooggewaardeerde tijdschriften, en het liefst zoveel mogelijk. Dat de nadruk ligt op kwantiteit en niet op kwaliteit zou oneerlijk gedrag – waaronder plagiaat – kunnen bevorderen.

De wetenschappelijke wereld hanteert vele principes voor zelfcontrole. Het meest gekende is allicht het proces van peer review waarbij een toekomstige publicatie eerst door verschillende experten uit het veld wordt beoordeeld, waarna een discussie volgt tussen die experten en de auteur(s). Dit proces zou kwaliteit moeten garanderen en de experten worden verondersteld plagiaat of onrechtmatig verworven resultaten te herkennen. In 1997 werd het Committee on Publication Ethics (COPE) opgericht, waarbij deontologische richtlijnen werden opgesteld om het peerreviewproces te stroomlijnen. De meeste toonaangevende wetenschappelijke uitgevers zijn intussen lid van COPE. Als we echter het ritme waarmee vandaag gepubliceerd wordt bekijken, dan kunnen we niet anders dan de nodige vraagtekens plaatsen bij dit beoordelingsproces.

In 2005 ontwikkelden enkele MIT-studenten ‘SciGen’ – een computerprogramma dat automatisch academische papers genereert. De teksten zien er wetenschappelijk uit, met bijbehorende grafieken, figuren en referenties, maar de inhoud is totale onzin. In de jaren daarna werden verschillende gelijkaardige algoritmes ontwikkeld en werden ook enkele van deze nonsense-artikelen aanvaard voor publicatie. Zo berichtte Nature in 2014 dat zestien SciGen-artikelen werden gepubliceerd bij Springer en meer dan honderd bij het US Institute of Electrical and Electronic Engineers (IEEE).

Het overnemen van andermans woorden of het parafraseren van iemands gedachtegang zonder de vindplaats te vermelden wordt gezien als plagiaat

Wetenschappers beschouwen peer review momenteel dan ook als iets dat noodzakelijk is maar niet voldoende. Het biedt ook geen garantie op het voorkomen van plagiaat. Daarvoor is het aantal artikelen dat teruggetrokken wordt omwille van plagiaat te hoog. Maar wat is nu precies plagiaat? De Faculteit Letteren en Wijsbegeerte van de Universiteit Gent hanteert de volgende definitie: ‘Het overnemen, al dan niet in vertaling, van andermans woorden of het parafraseren van iemands gedachtegang zonder de vindplaats te vermelden of zonder aan te geven wiens ideeën worden overgenomen, wordt gezien als plagiaat. Alle stukken tekst (zinnen of zinsneden) die men overneemt uit om het even welke andere publicatie en om het even welke taal, zelfs uit webpagina’s op het internet of uit een manuscript, moeten dus een bronvermelding krijgen en – wanneer letterlijk overgenomen – als citaat gekenmerkt zijn. Een globale bronvermelding, bijvoorbeeld bij het begin van een hoofdstuk, verschoont het plagiaat van afzonderlijke passages niet. Het vermelden van een bron in de bibliografie of bronnenoverzicht verschoont het plagiaat niet.’ In de huidige digitale wereld waarin we allemaal heel snel informatie uitwisselen en waarin een stuk tekst eenvoudig gekopieerd kan worden komt plagiaat ongetwijfeld steeds vaker voor.

Wanneer je als student of jonge onderzoeker een nieuw vakgebied betreedt, bestaat je eerste taak erin om je de vakspecifieke terminologie eigen te maken. Zodra je start met publiceren, wordt bovendien verwacht dat je een wetenschappelijk discours hanteert. Cruciaal is ook om de basisprincipes rond een correcte bronvermelding te hanteren. In elke academische opleiding worden die basisprincipes aangeleerd en vele universiteiten maken zelfs gebruik van software om teksten van studenten te controleren. De marktleider op dit vlak is TurnItIn. Hun plagiaatdetectiesystemen worden gebruikt aan de Universiteit Gent (Euphorus) en aan de KU Leuven (TurnItIn). Deze software is in staat om letterlijke tekstovernames te herkennen door de ingevoerde tekst te vergelijken met andere academische teksten en te zoeken naar matches. Plagiaatdetectiesoftware is bijgevolg maar zo sterk als de academische databank waarop ze vertrouwt, want als de bron niet beschikbaar is in het systeem zal er ook nooit een overlap worden gevonden. Daarnaast kun je deze systemen eenvoudig omzeilen door de zinsvolgorde aan te passen, tekst uit verschillende bronnen samen te voegen of door hier en daar kleine wijzigingen aan te brengen. De systemen zijn in feite alleen in staat om letterlijke overnames te ontdekken. Bovendien zijn er in de academische taal ook typische wendingen of formuleringen die door iedereen gebruikt worden, en het is daarom niet altijd duidelijk te bepalen wanneer de grens tussen tekstuele overlap en plagiaat precies overschreden wordt. Een ander moeilijk geval is zelfplagiaat. Als een auteur meerdere malen dezelfde bevindingen publiceert, vormt hij oneerlijke concurrentie in een wereld waarin academische output heel belangrijk is. Maar wanneer precies kan men spreken van bedrog?

In de praktijk zien we dat verschillende wetenschappelijke disciplines andere regels hanteren. Zo wordt bij de bespreking van wetteksten het letterlijk overnemen van die wettekst niet als plagiaat beschouwd. Ook in de exacte wetenschappen kan de beschrijving van een gestandaardiseerde procedure om met een bepaald toestel te werken gerust worden herhaald zonder bronvermelding. Dan is er nog het verschil tussen werk publiceren in een erkend tijdschrift of op een conferentie: in de meeste disciplines is het aanvaard om verschillende kortere versies van een bepaald onderzoek op conferenties te verspreiden en een uitgewerkte versie van datzelfde onderzoek te verwerken in een bijdrage voor een tijdschrift. Ook de waarde van conferentiepublicaties verschilt sterk van vakgebied tot vakgebied: in de fysica zijn ze bijvoorbeeld waardeloos terwijl ze in computerwetenschappen juist heel hoog aangeschreven staan. Dit uit zich ook in de standaarden die worden gehanteerd, vooral als het gaat om zelfplagiaat. Wanneer kritiek wordt geuit op dit soort plagiaat is een veelvoorkomende repliek dat ‘iedereen het doet’. Maar is dat ook zo?

Hiervoor is het interessant om de computer in te schakelen om in een bepaald wetenschappelijk domein (i) grote volumes tekst te controleren op tekstduplicaten, (ii) aan de hand van statistiek een indicatie te krijgen van hoe wijdverspreid dit fenomeen is en (iii) na te gaan wat of wie de extremen (de ‘outliers’) zijn. De twee grote basisvereisten hierbij zijn dat het tekstmateriaal elektronisch beschikbaar is en dat er voldoende rekenkracht is. In een tijdperk waarin de meeste communicatie elektronisch verloopt en waarin heel krachtige computers voorhanden zijn, kunnen gigantische zoekopdrachten in een mum van tijd worden uitgevoerd.

Een voorbeeld is het systeem dat werd ontwikkeld voor arXiv en dat wordt beschreven in het artikel dat de aanleiding vormde voor deze tekst. ArXiv is een online databank met daarin voorpublicaties uit een groot aantal exacte wetenschapsdomeinen met een sterk kwantitatieve of modelmatige inslag. In de zomer van 2015 bereikte deze databank de grens van één miljoen publicaties. In elk domein staat een team van experten klaar om te beoordelen of het artikel past binnen het domein en of het op zijn minst voldoet aan een aantal vereisten om een basiskwaliteit te garanderen. De inhoud zelf wordt dus niet onderworpen aan een peerreviewproces. De meerderheid van deze artikelen wordt later wel effectief gepubliceerd in toonaangevende tijdschriften of goedgekeurd op conferenties. In deze databank worden dagelijks vijfhonderd tot duizend publicaties toegevoegd of vervangen. Wanneer een tekst wordt vervangen, blijft de vorige versie ook beschikbaar.

Elke nieuwe publicatie wordt in minder dan een minuut gecontroleerd op tekstuele overlap met de volledige arXiv-databank. Uit een grootschalig onderzoek is gebleken dat tekstduplicaten heel frequent voorkomen, maar dat slechts een minderheid van de auteurs zich hieraan schuldig maakt. De praktijk concentreert zich dus bij een aantal ‘seriekopieerders’. Wanneer er bij een nieuwe publicatie na de automatische check sprake is van een ‘atypische tekstoverlap’ – dit wil zeggen dat er meer overlap is dan statistisch wordt aanvaard – dan wordt dit toegevoegd aan de eigenschappen van het artikel, de metadata. Deze toevoeging bestaat uit een feitelijke opsomming, met telkens ook een link naar het bronartikel in de databank. In de praktijk gaat het om drie procent van de publicaties die dagelijks worden toegevoegd. Alle metadata zijn publiek zichtbaar maar dienen niet om onderzoekers aan de schandpaal te nagelen. De bedoeling is veeleer om de lezers te helpen, want het kan interessant zijn om te weten hoeveel een bepaald artikel steunt op voorafgaande bevindingen, of om de auteurs op deze overlap te wijzen en ze de kans te geven hun werk aan te passen. De reacties van de auteurs kunnen worden onderverdeeld in drie groepen: een groep die niets verandert, een groep die de tekst net zolang reviseert tot er geen opmerking meer verschijnt en een groep die het rapport betwist. Bij dit soort analyses moet uiteraard de kanttekening worden gemaakt dat louter de techniek van tekstduplicaten wordt gebruikt, waarbij alleen letterlijke herhalingen van bepaalde stukken tekst worden gemarkeerd. Bij dit onderzoek lag de grens op opeenvolgingen van zeven woorden, en daar zitten ongetwijfeld ook typische, onschuldige stoplappen tussen.

Hetzelfde onderzoek bracht nog een aantal andere aspecten aan het licht. Zo bleek dat de teksten waarin quasi geen tekstoverlap werd gevonden met de databank het vaakst worden geciteerd en dat de auteurs met de meeste citaties zich niet schuldig maken aan duplicatie. Of dit ook wijst op betere kwaliteit en meer creativiteit laten we hier in het midden. Uit een demografische analyse bleek ook dat vele publicaties afkomstig uit landen waar Engels niet de onderwijstaal is, meer tekstuele overlap bevatten.

Door het zoeken naar patronen kunnen bepaalde praktijken worden blootgelegd die in een volgend stadium zouden kunnen leiden tot een mentaliteitswijziging

Interessant aan deze analyse is dat er door brute rekenkracht en het zoeken naar patronen in grote verzamelingen tekst bepaalde praktijken kunnen worden blootgelegd, wat in een volgend stadium zou kunnen leiden tot een gedrags- of mentaliteitswijziging. Mochten gelijkaardige analyses worden uitgevoerd in alle wetenschappelijke domeinen dan zouden we conclusies kunnen trekken over aanvaarde praktijken van zelfplagiaat en het letterlijk overnemen van tekst. In essentie is dit een datagedreven aanpak, wat vandaag een heel succesvolle aanpak blijkt. Datagiganten zoals Google en Facebook verdienen met het verwerken en analyseren van allerlei soorten data goed hun brood. Maar dat neemt niet weg dat hiervoor vaak vrij oppervlakkige technieken worden gebruikt.

In het hierboven beschreven onderzoek naar tekstduplicaten werden heel eenvoudige n-grammen bestudeerd. Onder n-grammen worden veelal woorden verstaan, maar ze kunnen ook verwijzen naar klanken of letters. De n staat voor het aantal items dat als eenheid in een analyse wordt meegenomen. Bij een unigram (1-gram) gebruik je één woord, bij een bigram (2-gram) twee woorden, enzovoort. Bij het opsporen van tekstoverlap is het belangrijk om de juiste grootte van de n-grammen te bepalen, want die grootte bepaalt de nauwkeurigheid van het detectiesysteem. Hoe groter n, hoe kleiner de kans op overeenkomst tussen documenten die eigenlijk niet veel tekstoverlap hebben, maar ook hoe groter de kans om bepaalde elementen van tekstuele overlap te missen. Dit is dus een heel eenvoudig systeem dat alleen in staat is om letterlijke herhalingen op te sporen en woordcombinaties te tellen.

Een detectiesysteem zou in staat moeten zijn om te begrijpen hoe bepaalde informatie anders kan worden uitgedrukt en hoe bepaalde ideeën kunnen worden samengevat

Zoals eerder werd beschreven gaat plagiaat echter om veel meer dan letterlijke herhalingen en het automatisch herkennen ervan vereist veel meer kennis. Zo’n systeem zou ook in staat moeten zijn om te begrijpen hoe bepaalde informatie op een andere manier kan worden uitgedrukt (parafrase) of hoe bepaalde ideeën kunnen worden samengevat (synthese). Dit vraagt om meer dan het louter tellen van woorden zonder context, het vraagt om tekstbegrip. In het domein van de natuurlijke taalverwerking werd hier al veel onderzoek naar verricht. Een succesvol systeem doorloopt idealiter de volgende stappen. Eerst wordt de tekst opgedeeld in zinnen en woorden (‘tokenisatie’), daarna volgen een morfologische en een syntactische analyse om de basisvorm van de woorden (lemmata), hun grammaticale categorie (zelfstandig naamwoord, werkwoord, …) en syntactische functie in de zin (onderwerp, lijdend voorwerp, …) te achterhalen. Zo leert de computer meer over structuur en context. Ten slotte volgt een semantische analyse om bijvoorbeeld de betekenis van woorden te achterhalen of om te ontdekken of er naar andere woorden in de tekst verwezen wordt (‘coreferentie’). Een ander essentieel onderdeel voor een goed tekstbegrip is wereldkennis. Dit soort informatie zit vaak impliciet in de tekst vervat. Denk bijvoorbeeld aan de zin: ‘Mijn mondeling examen was net een bezoek aan de tandarts.’ Een mens weet meteen dat hier een subjectief, negatief gevoel wordt uitgedrukt terwijl de computer dit eerder zal lezen als een objectieve, feitelijke uitdrukking. Systemen om deze verschillende verwerkingsstappen uit te voeren zijn al voor vele talen beschikbaar, ook voor het Nederlands. De accuraatheid van die systemen varieert van quasiperfect voor de minder complexe taken zoals tokeniseren en woordsoortherkenning, naar aanvaardbaar voor een meer structurele taak zoals syntactische analyse of de herkenning van woordbetekenis, tot problematisch bij een complexe taak zoals coreferentie. Tot op heden is er ook nog geen sluitende oplossing gevonden hoe computers, net zoals mensen, gebruik kunnen maken van wereldkennis om teksten te interpreteren.

Voor de eindtaken, zoals automatisch samenvatten of herkenning van parafrases, moeten we echter nog een stap verder gaan. In de praktijk wordt hier vaak gebruikgemaakt van een lerend systeem. Op basis van de analyses op woord-, zin- en tekstniveau worden verschillende lexicale, syntactische en semantische kenmerken geëxtraheerd uit een verzameling teksten die door mensen al op een correcte manier werden samengevat of geparafraseerd, beter gekend als een gouden standaard. Aan de hand van deze gouden standaard leert een algoritme welke kenmerken belangrijk zijn en giet die in een model. Een nieuwe tekst wordt op dezelfde manier geanalyseerd en de geëxtraheerde kenmerken worden vergeleken met het model om zo tot een voorspelling of eindresultaat te komen. Deze aanpak is succesvol en mogelijke fouten die in de onderliggende verwerkingsstappen worden gemaakt wegen niet altijd even zwaar door. De uitdaging bij die modellen is vooral om ze te leren abstraheren van de gouden standaard waarop ze getraind zijn zodat ze ook toepasbaar zijn op andere data en nieuwe domeinen.

Het aan elkaar koppelen van al die individuele stappen in een computersysteem blijft dan ook een gigantische uitdaging en dat verklaart waarom bestaande commerciële software nog steeds vertrouwt op meer oppervlakkige technieken zoals het tellen van letterlijke herhalingen. Dit is namelijk makkelijk te controleren en laat minder ruimte voor fouten. Maar de technologie staat dus al veel verder, en in de toekomst wordt het interessant om te zien hoe de huidige state-of-the-art in natuurlijke taalverwerking verder zal worden geïntegreerd in commerciële toepassingen.

Om af te sluiten nog een volledig andere methode om plagiaat te gaan detecteren. Naast een focus op het detecteren van (letterlijke) tekstuele overlap en het overnemen van ideeën kan linguistic profiling worden gebruikt. Dit is een techniek uit het domein van de computationele stylometrie. Onderzoek heeft uitgewezen dat iedereen een uniek schrijfpatroon en een unieke schrijfstijl heeft. Aan de hand van linguistic profiling kun je een profiel van de stijlkenmerken van een auteur (student) aanmaken op basis van de teksten die hij/zij in het verleden heeft geschreven. Als een nieuwe tekst niet beantwoordt aan het (schrijf)profiel van de auteur, dan is er mogelijk sprake van plagiaat.

Daniel Tamor, Liu Citron en Paul Ginsparg, ‘Patterns of text reuse in a scientific corpus’ in: Proceedings of the National Academy of Sciences, 2015, 112(1), 25-30.

Orphée de Clercq is als computerlinguïst verbonden aan de Universiteit Gent.

Deel dit artikel