Deel dit artikel

het internet geeft ons het gevoel dat we onbeperkt toegang hebben tot alle kennis van de wereld. als we willen weten waar timboektoe ligt, leveren enkele clicks op de computer ons meer informatie over de hoofdstad van mali dan we ooit konden bedenken. de totale hoeveelheid van gegevens die op het internet is opgeslagen – via de nu al meer dan 135 miljoen geregistreerde domeinnamen – is reusachtig. maar is dit diffuse opslagpatroon wel het meest geschikte formaat voor onze kennis?

Het digitale beheer van wetenschappelijke data

Raf Dekeyser

Het internet heeft ervoor gezorgd dat encyclopedische wetenswaardigheden redelijk vlot en volledig voor iedereen beschikbaar zijn geworden. Maar hetzelfde geldt niet voor wetenschappelijke gegevens. Bij wetenschappers is er geen traditie gegroeid om data duurzaam te bewaren, laat staan om ze voor derden toegankelijk te maken. Na de publicatie van de conclusies van een onderzoek worden de intermediaire data wellicht nog een paar jaar bewaard in de lade van een onderzoekslaboratorium, om vervolgens definitief te verdwijnen. In allerlei grote en kleine projecten worden tegenwoordig op massale schaal gegevens gegenereerd en digitaal geregistreerd, maar vaak wordt maar een klein deel ervan gebruikt voor het geplande onderzoek. Dergelijke data bevatten echter vaak een waardevolle bron van kennis voor verdere analyse of voor gebruik vanuit een andere invalshoek. Dit vereist een totaal nieuwe aanpak van het beheer van onderzoeksdata: ze moeten veilig worden opgeslagen, ze moeten toegankelijk worden gemaakt in een voor anderen begrijpbaar formaat, problemen met eigendomsrecht moeten worden aangepakt, en zo meer. Enkele initiatieven van de Europese Commissie hebben in de voorbije jaren speciale aandacht besteed aan dit probleem.

In allerlei domeinen van onderzoek spuwen geautomatiseerde meetapparaten massaal numerieke gegevens uit, die digitaal worden opgeslagen

Op wetenschappelijk gebied zijn we er de laatste decennia sterk op vooruitgegaan. Waar het opzoeken van informatie in bibliotheken vroeger soms een pijnlijk monnikenwerk was, is dit nu met behulp van elektronische toegang tot tijdschriften en gesofisticeerde zoekrobots bijna kinderspel geworden. Daarbij komt ook dat de productie van wetenschappelijke gegevens exponentieel is toegenomen. In allerlei domeinen van onderzoek spuwen geautomatiseerde meetapparaten massaal numerieke gegevens uit, die digitaal worden opgeslagen. Een mooi overzicht van deze dataproductie was onlangs te vinden in een speciaal nummer van Science. Eén van de meest extreme voorbeelden is wellicht te vinden in de fysica van elementaire deeltjes. Op het CERN in Genève werd de Large Hadron Collider (LHC) gebouwd om te zoeken naar het theoretisch voorspelde Higgsdeeltje. Digitalisering van de sporen van de botsingen die in dit toestel worden geregistreerd, leveren (na een sterke filtering van alleen de meest relevante gegevens) een hoeveelheid data op van 15 petabyte per jaar. (Ter vergelijking: een dvd bevat ongeveer 4 GB, een petabyte bestaat uit ongeveer 1 miljoen GB.) Klimaatgegevens, die wereldwijd worden verzameld over temperatuur, wind of vochtigheid, met daarbij nog allerlei gegevens die vanaf weersatellieten worden waargenomen, vormen een groeiend bestand van onschatbare waarde voor het testen van theoretische modellen. De omvang hiervan wordt tegen 2030 geschat op 150 petabyte. Ook de geneeskunde kent een revolutionaire groei van gegevens, waarbij vragen over privacy en patiëntbescherming een bijkomend probleem vormen. Het sequensen van DNA – niet alleen van de mens, maar ook van andere wezens – neemt toe in omvang en snelheid. Daarnaast bestuderen neurologen de werking van onze hersenen met gesofisticeerde scanningapparatuur, die ook een continue stroom van complexe numerieke data oplevert. Dit zijn maar enkele voorbeelden uit de vele domeinen waar wetenschappelijke gegevens in steeds sneller tempo worden geregistreerd.

Vele van deze gegevens zijn het resultaat van jarenlang en zeer kostbaar onderzoek dat uiteindelijk gefinancierd werd door de gemeenschap. Het is daarom onverantwoord om die data te vernietigen (of om ze te laten verkommeren en vergaan in de kasten van een laboratorium). De mogelijkheid bestaat immers dat aanvullend onderzoek nog meer resultaten kan afleiden, of de data kan verrijken door combinatie met andere gegevens of met aanvullend onderzoek. Vanuit de bezorgdheid voor een mogelijk hergebruik – nu of in de toekomst – is in de voorbije jaren via diverse kanalen heel wat aandacht besteed aan de problematiek van duurzame bewaring en onderhoud. Onderhoud is bijvoorbeeld nodig wanneer de gangbare digitale dragers of formaten veranderen, zoals gebeurde bij de overgang van tape naar diskette, naar cd, dvd en naar harde schijf.

Duurzame bewaring en onderhoud zijn belangrijk voor mogelijk hergebruik van intermediaire data

Een belangrijke vraag nu is wie de verantwoordelijkheid draagt voor de opslag van de gegevens. Voor beperkte bestanden wordt soms gebruikgemaakt van de mogelijkheid om aan een elektronische publicatie een numeriek bestand toe te voegen, zodat de archivering gekoppeld wordt aan de archivering van de publicatie. Voor zeer grote bestanden, waarop vaak meerdere publicaties gebaseerd zijn, is dit echter geen goede oplossing. Vele van die bestanden worden dan ook centraal bewaard op de servers van een instelling (universiteit, onderzoeksinstelling of organisatie), waarvan de langdurige archiveringspolitiek soms twijfelachtig is. Omdat de bewaring van wetenschappelijke onderzoeksresultaten een traditionele opdracht is van de wetenschappelijke bibliotheken, wordt ervoor gepleit dat de bibliotheken de taak van de archivering van databanken zouden overnemen. De bewaarmethode van de bibliotheken bestond vroeger in het opslaan van duizenden exemplaren van eenzelfde boek, telkens in een andere bibliotheek. De internationale samenwerking om te komen tot een centrale elektronische opslagmethode (met beveiliging via mirror sites) komt slechts langzaam en via verspreide projecten op gang. Wellicht is het een nieuwe taak van de wetenschappelijke bibliotheken om samen een gedecentraliseerd netwerk van wetenschappelijke data uit te bouwen. Deze bibliotheken en hun internationale samenwerkingsverbanden (zoals het Europese LIBER, het Amerikaanse ALA en het wereldwijde IFLA) hebben reeds voldoende ervaring verworven in het bewaren en onderhouden van de digitale versies van wetenschappelijke tijdschriften. Zo heeft de Koninklijke Bibliotheek van Den Haag een contract voor het onderhoud van een digitale reservekopie van de vele tijdschriften van Elsevier, en meer dan 9 000 tijdschriften worden gearchiveerd in het gedistribueerde netwerk LOCKSS. Vanuit die achtergrond begint de interesse te groeien om die ervaring ook te gebruiken voor een analoge archivering van de wetenschappelijke data. Door de aard van het materiaal (veelal numerieke gegevens) ligt het voor de hand dat de digitale bewaring – en niet de bewaring in een analoog formaat – hier nog veel zinvoller is dan voor het tekstmateriaal van boeken en tijdschriften.

Het zou natuurlijk zinloos zijn een databank te bewaren zonder de toegankelijkheid van de data te verzekeren. Men moet de gegevens kunnen lezen, interpreteren en downloaden. Maar wie moet toegang krijgen tot een bepaalde databank, en onder welke omstandigheden? Voor data uit commercieel onderzoek gelden uiteraard speciale regels, maar die zullen wel niet terechtkomen in onze digitale bibliotheken. Voor alles wat gefinancierd is via openbare instellingen geldt in principe dezelfde regel als voor wetenschappelijke publicaties. De argumenten van de beweging voor Open Access (OA) van artikelen via OA-tijdschriften of via universitaire opslagcentra zijn intussen welbekend. Vrije toegang tot kennis stimuleert de creatie van nieuwe kennis en bevordert daarom de wetenschappelijke vooruitgang. Op dezelfde manier wordt dan ook gepleit voor ‘Open Access Data’. Dit betekent idealiter dat de toegang vrij is (en niet tegen betaling), en dat er een expliciete verklaring aan verbonden is die toelaat om deze gegevens verder te gebruiken. Zelfs bij vrije toegang tot teksten verbiedt het auteursrecht immers elk gebruik als er geen toestemming voor wordt verleend. ‘Creative Commons’ heeft voor dergelijke uitzonderingen op het auteursrecht typische voorbeelden uitgewerkt, die men al kan vinden in veel OA-tijdschriften. De enige voorwaarde hierbij is dat bij hergebruik steeds expliciet wordt verwezen naar de oorspronkelijke auteur, hier dus naar de oorspronkelijke eigenaar van de data.

Vervolgens is het belangrijk om aan die enorme hoeveelheid data een mooie structuur te geven, zodat ze op eenvoudige manier kunnen worden doorzocht en gebruikt voor verdere toepassingen. Bij kwantitatieve (numerieke) gegevens is dit gemakkelijk. Het licht van een bepaalde ster kan worden beschreven in de vorm van een tabel of een figuur die bijvoorbeeld de intensiteit aangeeft die door deze ster wordt uitgezonden bij elke frequentie. Het wordt echter een stuk moeilijker wanneer men een even duidelijke structuur wil brengen in kwalitatieve gegevens. Een mogelijke stap in de goede richting werd gezet door het Resource Description Framework (RDF), dat deze gegevens beschrijft als logische tripletten van onderwerp-predicaat-voorwerp. In zo’n triplet wordt aan het onderwerp (bijvoorbeeld ‘de stad Leuven’) een eigenschap toegewezen, die omschreven wordt met een predicaat (‘heeft in 2012 als burgemeester’) en waarvan de waarde wordt gegeven door het voorwerp (hier: ‘Louis Tobback’). Het voorwerp van één triplet kan ook het onderwerp vormen van een ander triplet (zoals in ‘Louis Tobback’ heeft als leeftijd ‘74 jaar’). Een triplet kan als geheel ook weer onderwerp worden van een ander triplet, bijvoorbeeld om de geloofwaardigheid te omschrijven. Dit is bijzonder belangrijk omdat vulgarisatie via het internet en de media maar al te vaak leidt tot een scheiding tussen gegevens en hun herkomst, wat het natuurlijk onmogelijk maakt om de betrouwbaarheid van de gegevens te bepalen. De referentie (bij een triplet) naar een publicatie in een wetenschappelijk tijdschrift (onder de vorm van een nieuw triplet: ‘deze bewering’ wordt beargumenteerd in ‘dit artikel’) kan dan een houvast bieden ter ondersteuning van de correctheid van de bewering.

Voor al die tripletten werd een zeer uitvoerige syntaxis uitgewerkt, geïnspireerd door XML, de machineleesbare taal voor de structuur van digitale documenten. In deze syntaxis wordt aangeraden om voor de onderwerpen en voorwerpen zoveel mogelijk internetadressen (URL’s) te gebruiken om tot een eenduidige definitie te komen. Het ‘Linked Data’-project heeft op deze manier al meer dan 300 vrij toegankelijke databanken, waaronder bijvoorbeeld Wikipedia en het World Factbook van de CIA, gecodeerd tot meer dan 30 miljard tripletten. Men hoopt onder meer dat intelligente machines hiervan kunnen gebruikmaken om door combinatie van verschillende gegevens nieuwe kennis af te leiden (zoals in het bekende voorbeeld van ‘Socrates is een mens, een mens is sterfelijk, dus Socrates is sterfelijk’). Het ideale instrument ter vervanging van de traditionele encyclopedie zou dan een zoekinterface kunnen worden tussen deze Linked Data en onze webbrowser.

Het hierboven beschreven RDF-formaat voor het structureren van gegevens is eigenlijk in de eerste plaats geschikt voor de zogenaamde ‘metadata’, die bepaalde eigenschappen beschrijven van voorwerpen die als de echte ‘data’ worden beschouwd. De metadata van een boek zijn bijvoorbeeld de naam van de auteur, het formaat, het aantal pagina’s, de uitgever en het jaar van uitgave, en zo meer. Heel wat wetenswaardigheden moeten dan ook eerder metadata worden genoemd dan data, hoewel de scheidingslijn soms moeilijk te trekken valt. Wanneer een kunsthistoricus vaststelt dat een vroeger onbekend schilderij moet worden toegewezen aan Leonardo da Vinci, dan wordt dit een wetenschappelijk gegeven, maar het is tevens een metagegeven van het schilderij.

Maar zelfs wanneer de metadata nog niet de waarde hebben van echte data, is publieke toegankelijkheid nog geen vanzelfsprekende zaak. Omdat een correcte beschrijving van de collecties van bibliotheken en musea een tijdrovend werk is, werd het resultaat van die beschrijving traditioneel beschouwd als een kostbaar product en zo mogelijk ook als een commercieel product. Stilaan is hierin verandering gekomen. Grote bibliotheken, zoals de Library of Congress in Washington, bieden nu de mogelijkheid om de metadata van hun boeken volledig gratis te downloaden, wat de catalografie wereldwijd vergemakkelijkt heeft. Een belangrijke stap voor de vrije toegang tot het Europese culturele erfgoed werd gezet door het Europeanaproject, dat de collecties van bibliotheken, archieven en musea binnen Europa digitaal aan elkaar wil verbinden. Zoveel als wettelijk mogelijk is, wordt alle materiaal vrij toegankelijk gemaakt (bijvoorbeeld vrije toegang tot de digitale versies van boeken waarvan het auteursrecht is vervallen). Maar zelfs voor het vrijgeven van alle metadata en van de miniatuurversies van kunstwerken is er heel wat overtuigingskracht nodig geweest. Er zijn nu al 20 miljoen digitale voorwerpen aanwezig in deze verzameling, en voor 2,4 miljoen zijn de gegevens via een ‘Linked Open Data’-project beschreven in het RDF-formaat. Op die manier kan men naadloos verbanden leggen tussen boeken over een kunstenaar, afbeeldingen van zijn werken, brieven en fotomateriaal over zijn leven, en dergelijke meer.

Een belangrijke stap voor de vrije toegang tot het Europese culturele erfgoed werd gezet door het Europeanaproject

Ook de Europese Commissie is geïnteresseerd in wat er in de wereld van de data aan het gebeuren is. Ze richtte in 2009 een High Level Expert Group op, met de opdracht om een ‘visie 2030’ te ontwikkelen voor de evolutie van een e-infrastructuur voor wetenschappelijke gegevens. Eind 2010 publiceerde deze commissie haar rapport. Dit rapport onderlijnt zeer sterk het belang van de toegankelijkheid van de data, met waarborgen voor de integriteit en de erkenning van hun herkomst. De data moeten kunnen worden gedeeld, hergebruikt en gecombineerd om er nieuwe analyses mee uit te voeren, nieuwe correlaties in te ontdekken en nieuwe kennis uit af te leiden. Dit vereist zware inspanningen in infrastructuur, maar ook in de opleiding van de nodige experts. De verwachting dat dit tot belangrijke resultaten en ontwikkelingen zal leiden is echter groot.

Binnen het zevende kaderprogramma werd een groots project gestart voor de uitbouw van een globale infrastructuur voor onderzoeksdata: GRDI2020 (Global Research Data Infrastructures). Dit project heeft intussen al geleid tot een document dat in detail een visie op het probleem uiteenzet, zowel op het vlak van materiële infrastructuur, van software als van wetenschappelijke politiek. Wat men uiteindelijk wil bereiken, is de totstandkoming van verbonden open dataruimtes, die de datasets van verschillende wetenschappelijke disciplines met elkaar verbinden. Wetenschappelijke publicaties en data dienen aan elkaar te worden gekoppeld via netwerken die de databanken en de digitale bibliotheken naadloos laten samenwerken. Onderzoeksmatig wordt hier sterk gepleit voor de vorming van netwerken van open internationale onderzoeksgemeenschappen (Virtual Research Environments of VRE). Op het vlak van software moeten diensten worden ontwikkeld voor een betere behandeling van data: registratie met geëigende identificatiemiddelen (DOI), zoekmachines, combinatiesystemen, nieuwe algoritmen voor de analyse en visualisatie van grote datasets en zo meer. Centraal daarbij staat ook de vraag naar nieuwe formaatbeschrijvingen, omdat de bestaande systemen (zoals RDF) niet voldoende verfijnd zijn voor wetenschappelijke data. Nieuwe modellen moeten ruimte bieden voor disciplineafhankelijke voorstellingen, beschrijving van herkomst, context, onzekerheid op de data en kwaliteit van de data. Dit ambitieuze project is nog in volle productie, maar kan wellicht leiden tot een belangrijke vooruitgang in ons kennisbeheer.

Wellicht moeten ook wij ons afvragen of we niet te slordig omspringen met de gegevens die we verzamelen in de loop van ons onderzoek. Bestaan er in ons domein geschikte kanalen om deze data ter beschikking te stellen van anderen? Moeten er geen initiatieven in die richting worden genomen? Elk initiatief kan een belangrijke bijdrage betekenen voor de vooruitgang van de wetenschap.

‘Special Issue: Dealing with data’, in: Science, 2011, 331, 692–729.

Riding the wave. How Europe can gain from the rising tide of scientific data. Final report of the High Level Expert Group on Scientific Data, 2010. (http://cordis.europa.eu/fp7/ict/e-infrastructure/docs/hlg-sdi-report.pdf).

Raf Dekeyser is als theoretisch fysicus verbonden aan de KU Leuven.

Deel dit artikel
Gerelateerde artikelen