als geen andere wetenschap is sterrenkunde aangewezen op het uitwisselen en bijhouden van meetgegevens. telescopen worden steeds krachtiger. steeds complexere instrumenten produceren hoeveelheden gegevens die exponentieel groeien. astronomen werden zodoende de voorbije decennia kampioenen in het bijhouden en ontsluiten van data. om door het bos de bomen nog te zien grijpen de moderne archivarissen van de kosmos naar digitale spitstechnologie en artificiële intelligentie.
Archivaris in de kosmos
Sinds computers op het eind van de jaren zestig hun intrede in de telescoopkoepels deden, zijn de omvangrijke archieven van papier en fotografische platen verdrongen door hun digitale evenknie. Oude archieven werden gedigitaliseerd, nieuwe metingen worden onmiddellijk digitaal uitgelezen en weggeschreven op diverse media. Met het verdwijnen van de traditionele archieven en de explosie aan gegevens ging ook een groot stuk van het overzicht over de beschikbare gegevens teloor. Aanvankelijk hield elk instituut er zo’n beetje een eigen huisstijl op na bij het wegschrijven van data. Analysesoftware aanpassen om gegevens van een ander instituut in een vreemd formaat in te lezen, was in zo’n geval geen sinecure. Gegevens van verschillende instituten in evenveel verschillende formaten inlezen leidde al vlug tot babelse spraakverwarringen op zijn hexadecimaals.
Aanvankelijk hield elk instituut er zo’n beetje een eigen huisstijl op na bij het wegschrijven van data
Maar wat nemen astronomen eigenlijk waar? Zoals vele takken in de wetenschap is sterrenkunde vaak gebaseerd op de studie van afwijkingen. Bij een patiënt met een slechte leverfunctie leert een medicus wat de rol van het gezonde orgaan hoort te zijn. Extreme fysische toestanden — soms beperkt tot specifieke levensfasen van een ster — vertellen op analoge wijze wat de factoren en processen zijn die de evolutie van sterren domineren. Een exotische toestand detecteren is soms puur toeval, maar vaak het resultaat van een systematische observatiecampagne waarbij alle ‘verdachten’ de revue passeren.
Systematische campagnes zijn ook nodig om bronnen te volgen die op kortetijdschalen variëren. Zo kunnen astro-seismologen uit de helderheidsveranderingen van pulserende sterren details afleiden over de interne structuur van de ster, vergelijkbaar met seismologen die de structuur van de aarde blootleggen aan de hand van aardbevingen. Verdachte objecten constant in het oog houden is een tactiek die sterrenkundigen wereldwijd tot samenwerking heeft gebracht. Wanneer astronomen in Azië een ster uit het vizier verliezen, komt ze in het bereik van de instrumenten bij collega’s in Europa of Afrika. Noord- of Zuid-Amerika nemen over wanneer de Aziatische sterrenkundigen reeds lang van een welverdiende dagrust genieten. Na de aflossing van de wacht in Hawaï is het immers weer hun beurt om te zorgen dat de koepels opendraaien.
Sterrenkunde is in de loop der eeuwen geëvolueerd naar een panchromatische aanpak, met waarnemingen in alle ‘kleuren’ van het elektromagnetisch spectrum. Toen Galileo Galilei in 1609 zijn zelfgemaakte telescoop naar de maan en de satellieten van Jupiter richtte, deed hij deze waarnemingen vanzelfsprekend in zichtbaar licht, het deel van het elektromagnetische spectrum dat beperkt geabsorbeerd wordt door de aardse atmosfeer. Dat precies dat deel van het elektromagnetisch spectrum zichtbaar licht is, is wellicht een puur evolutionair effect. Op een planeet waar de atmosfeer alle straling van de lokale zon tegenhoudt behalve ultraviolette straling, zou een scherpe waarnemingszin in dat golflengtegebied wellicht een bonus zijn in de evolutionaire afvalrace van de levensvormen aldaar.
Inmiddels beperken astronomen hun blik niet meer tot de golflengten waarvoor het menselijk oog gevoelig is. Een heel scala aan detectoren analyseert de elektromagnetische straling van objecten aan de hemel van korte- tot langegolflengten. Koude omgevingen zoals interstellaire wolken, stervormingsgebieden en stofschijven rond sterren onthullen hun aard in radiogolven en infraroodstraling. De meest dramatische processen in het Heelal zien we in energierijke straling met kortegolflengten, zoals röntgenstraling. Om te ontsnappen aan de absorptie van grote delen van het niet-zichtbare licht in de aardse atmosfeer, vluchten astronomen met hun telescopen naar hoge bergtoppen of naar de ruimte. Telescopen aan boord van satellieten, zoals de Hubble Space Telescope, zijn niet beperkt tot de enge golflengtevensters in het absorptiespectrum van de aardse atmosfeer. Observationele publicaties in astronomische tijdschriften zijn nog zelden gebaseerd op een beperkt golflengtebereik.
Gedwongen door de rotatie van de aarde en gedreven door de nood aan panchromatische meetgegevens maakten astronomen van alle telescopen op en rond de aarde één gigantisch oog. Een oog dat constant het universum bespiedt in alle kleuren van de elektromagnetische regenboog. Stukken informatie van verschillende facetten van dat oog efficiënt bijeenbrengen is daarbij cruciaal. De tendens om gegevens in een instituut-specifiek formaat te archiveren werd dan ook al vlug onhoudbaar. In 1979 maakten enkele grote observatoria afspraken over een robuust uitwisselingsformaat voor astronomische beelden, het Flexible Image Transport System FITS. Deze standaard is in de loop der jaren meermaals uitgebreid, bijvoorbeeld om ook grote tabellen te kunnen uitwisselen. Tot op heden is dit FITS-bestandsformaat nog steeds de lingua franca van de astronomische archieven en softwarepakketten voor data-analyse. Dankzij de FITS-standaard evenaren weinig wetenschapstakken de sterrenkunde op het vlak van de uitwisselbaarheid van meetgegevens en de verifieerbaarheid van analyses en publicaties door concurrerende onderzoeksgroepen.
Het FITS-formaat maakte het bovendien relatief eenvoudig de gegevens coherent samen te brengen en grote onlinearchieven te bouwen. In de pioniersjaren van het world wide web behoorden onder de eerste geregistreerde world wide web servers verschillende sterrenkundige observatoria en instituten. Het Centre de Données Astronomiques de Strasbourg (CDS) speelt een belangrijke rol in het fysisch samenbrengen van belangwekkende astronomische gegevensbanken. De SIMBAD-gegevensbank van het CDS is zo’n beetje de kruispuntdatabank als het gaat over identificatie van bronnen aan de hemel. Een bron heeft dikwijls verschillende namen, eentje voor elke cataloog waarin ze voorkomt. SIMBAD houdt voor elke bron ook verwijzingen bij naar publicaties waarin over de bron gerapporteerd wordt en naar onlinecatalogen waarin de bron verschijnt. De meeste observationele papers in gerefereerde tijdschriften bevatten tegenwoordig een onlinegedeelte in CDS waar relevante tabellen, catalogen en meetgegevens digitaal beschikbaar zijn. Het VIZIER-systeem laat toe die verschillende tabellen met elkaar te combineren.
Ook inzake literatuuronderzoek zit de astronomische gemeenschap op rozen. De Amerikaanse ruimtevaartorganisatie NASA subsidieert het Astrophysics Data System (ADS) project. ADS is een literatuurarchief dat ongeveer drie miljoen referenties met samenvattingen bevat van artikels in verband met sterrenkunde, instrumentatie, fysica en geofysica. Het systeem bevat ook toegang tot informatie over referenties en citaties, verwijzingen naar onlinegegevens, gescande artikelen en links naar de elektronische versie van papers op de website van de uitgevers. Naar de leeszaal van de bibliotheek trekken is er niet meer bij voor een hedendaagse astronoom op zoek naar een artikel. Het ADS-systeem is vrij toegankelijk en onafhankelijk van het commerciële Web of Science systeem. Hoewel dit laatste systeem publicaties in een bredere waaier aan disciplines bevat, is het praktisch onbekend in astronomische middens: wat de astronomische publicaties betreft is het veel minder volledig en het bevat geen verwijzingen naar externe gegevens. De zoekmogelijkheden zijn ook veel beperkter. Op het eerste gezicht lijkt dit astronomie als wetenschap te isoleren, terwijl grote doorbraken er juist vaak komen door over het muurtje van de eigen discipline te kijken. Toch valt dit mee: astronomen zijn zich ervan bewust dat het ADS-systeem beperkt is tot wetenschapstakken zeer dicht gerelateerd aan hun onderzoeksdomein. Dit bewust zijn van de grenzen van het krachtige ADS als informatiebron leidt minder vlug tot een beperkte horizon dan een vals gevoel van breed overzicht in een weinig transparant systeem als Web of Science.
Het logische vervolg van de vlotte introductie van geavanceerde computersystemen, het bestaan van grote archieven en de traditie van internationale samenwerkingen in de sterrenkunde was de stap naar gridtechnologie. Deze technologie — genoemd naar het Engelse woord voor ‘rooster’ — probeert via een rooster van verbindingen tussen verschillende computers hun rekenkracht en opslagcapaciteit te delen. Wereldwijd kijken werkgroepen in diverse vakgebieden naar mogelijkheden om extreem gedistribueerde opslag- en processorcapaciteit te genereren via peer to peer communicatie tussen verscheidene computercentra. In astronomische kringen is in dit verband een aantal initiatieven gestart om een wereldwijd virtueel observatorium te bouwen. Zo’n virtueel observatorium is een verzameling van archieven en softwarehulpmiddelen die het internet gebruiken om een onderzoeksomgeving te vormen om onderzoeksprogramma’s in uit te voeren. Observatoria op de Chileense bergtoppen bestaan uit telescopen die elk van een batterij unieke astronomische instrumenten voorzien zijn. Het virtueel observatorium bestaat uit datacentra met unieke verzamelingen aan gegevens, softwaresystemen en rekencapaciteit die samen bruikbaar zijn, en een uniforme manier van communiceren hanteren.
De veelheid aan astronomische gegevens én de flexibele beschikbaarheid van die gegevens vormt een geweldige mogelijkheid voor de wetenschap
De veelheid aan astronomische gegevens én de flexibele beschikbaarheid van die gegevens vormt een geweldige mogelijkheid voor de wetenschap. Maar tegelijkertijd confronteert de omvang en de complexiteit van de parameterruimte ons met het beperkte bevattingsvermogen van het menselijk brein. Astronomen zijn dan ook vroege en dankbare gebruikers van technologie voor het automatisch ontdekken van kennis in grote gegevensbanken.
De ontwikkeling van technieken in het domein van de artificiële intelligentie (AI) heeft tijdens de laatste decennia een ware revolutie gekend. De term data mining heeft zijn intrede gedaan in talrijke wetenschappen en bedrijfstakken. Als ware mijnwerkers ontginnen dataminers gigantische gegevensbanken op zoek naar het informatie-equivalent van waardevolle ertsen. Het resultaat hiervan is een lawine aan algoritmen om computers autonoom kennis te laten ontdekken in grote hoeveelheden gegevens. AI-programma’s zijn vooral superieur in grote, meerdimensionale gegevens die moeilijk te vatten zijn voor het menselijk brein. In die omstandigheden slagen computerprogramma’s er soms in patronen en correlaties bloot te leggen die ontoegankelijk zijn voor de menselijke perceptie. Veel AI-technieken zijn toegespitst op het classificeren van een groot aantal ‘gevallen’ in verschillende klassen. De meerderheid van AI-technieken biedt het programma eerst een beschrijving van de klassen aan. Deze beschrijving wordt gegeven in de vorm van formele classificatiecriteria of in de vorm van een grote ‘oefenreeks’, waarin voor elk geval in de oefenreeks ook de klasse aan het programma aangeboden wordt. Uit deze voorbeelden kan het programma ‘leren’ wat de regels zijn om te beslissen of een geval tot een bepaalde klasse behoort. Dit noemt men een gestuurde automatische classificatie.
De bedoeling van niet-gestuurde classificatie is om automatisch een classificatie te ontdekken in een reeks gegevens. Dit betekent zowel beslissen welke klassen er zijn als welke gevallen tot deze klassen behoren. Een goede classificatie is een classificatie waarbij het programma zo weinig mogelijk wordt verrast door nieuwe gevallen. Dit kan natuurlijk niet de enige regel zijn om te besluiten dat een classificatie een goede classificatie is. Anders zou de ideale classificatie deze zijn met evenveel klassen als gevallen. Een classificatie zonder toezicht zal daarom goede punten geven aan de voorspellende waarde van een classificatie (weinig verrassingen bij het classificeren van nieuwe gevallen) en complexiteit afstraffen. Het aantal klassen wordt dan gezien als een maat voor de complexiteit.
Naast de meer bekende techniek van neurale netwerken zijn bayesiaanse afleidingstechnieken populair in de sterrenkunde. Bayes publiceerde in 1763 een stelling die aangeeft hoe de waarschijnlijkheid van een hypothese wijzigt onder invloed van bijkomend bewijsmateriaal. In de twintigste eeuw werd de bayesiaanse statistiek bijzonder populair, onder meer voor toepassingen bij het herstellen van onscherpe of onvolledige beelden. Bayesiaanse afleidingsalgoritmen zoeken naar de hypothese die de hoogste waarschijnlijkheid geniet als we alle bewijsmateriaal in acht nemen. Het Autoclass-systeem is zo’n niet-gestuurd classificatieprogramma, ontwikkeld door een AI-groep bij de NASA, dat een bayesiaanse besluitvormingsstrategie volgt om de meest waarschijnlijke classificatie te vinden op basis van een beschrijving van de verschillende gevallen in de beschikbare gegevens. De beschrijving van een geval is een geordende reeks discrete of reële waarden per kenmerk.
Een van de eerste toepassingen van Autoclass werd in de jaren tachtig uitgewerkt om sterspectra van de spectrograaf van de infraroodsatelliet IRAS automatisch te classificeren. Infraroodspectra van sterren tonen verschillende spectrale kenmerken waarvan de sterkte en vorm afhangen van de samenstelling van het stof rond de ster. De IRAS-satelliet verzamelde spectra van meer dan elfduizend bronnen. De automatische Autoclass-classificatie is nooit gezien als de gezaghebbende classificatie van IRAS-spectra, maar de verdienste van deze classificatie is dat zij naast ‘ambachtelijk’ geïdentificeerde klassen enkele nieuwe klassen vond op basis van de vorm van spectrale kenmerken, eerder dan de grootte van het kenmerk.
Autoclass bleek ook geschikt om subtiele spectrale vormen te onderscheiden. Deze vormen zijn met een grotere nauwkeurigheid te zien in het gemiddelde spectrum van een klasse dan in de individuele spectra in die klasse. Automatische agenten hebben een belangrijk voordeel ten opzichte van een onderzoeker van vlees en bloed. Dat voordeel is ook een nadeel: automatische agenten zijn niet gehinderd door enige kennis ter zake. Dit leidt meestal tot een organisatie van de gegevens die over paradigma’s heen kijkt en tot nieuwe inzichten kan leiden, maar een deel van de ‘ontdekte structuur’ in een gegevensset zal ook irrelevant zijn. Zo hebben automatische agenten vaak de neiging gegevens met elkaar in verband te brengen omdat de ruis op de meting vergelijkbaar is. Het selecteren van de bruikbare nieuwe inzichten van een automatische agent en in het totaalbeeld brengen vereisen dus een intelligente menselijke interventie.
Astrofysici hebben bayesiaanse afleidingsalgoritmen inmiddels ingezet om te grasduinen in tal van soorten sterrenkundige gegevens. De Hipparcos-satelliet bezorgde miljoenen metingen van de helderheid van veranderlijke sterren. Verschillende groepen gebruikten Autoclass om overeenkomsten tussen het helderheidsverloop van verschillende veranderlijke sterren te vinden in de Hipparcos-database. Honderden beelden van melkwegstelsels werden morfologisch geclassificeerd met soortgelijke technieken. Dankzij de beschikbaarheid van processoren met grote volumes van direct aanspreekbaar geheugen groeien de mogelijkheden voor ongesuperviseerde data-exploratie met de dag.
De gridtechnologie transformeert alle telescopen en computerinfrastructuur op onze planeet in één groot virtueel observatorium
De tendens lijkt onafwendbaar: de gridtechnologie maakt zijn opmars in de sterrenkunde en transformeert alle telescopen en computerinfrastructuur op onze planeet in één groot virtueel observatorium. Autonome ongesuperviseerde afleidingsalgoritmen worden performanter met elke vooruitgang in computertechnologie. Voorlopig kiezen astronomen nog bewust welke gegevens ze verzamelen en in het juiste formaat gieten om de ongesuperviseerde agenten te voeden. Het ogenblik dat we die stap overslaan is niet veraf. Het hek is van de dam op de dag dat autonome agenten rechtstreeks toegang krijgen tot de astronomiegrid. Astronomen zullen een hele kluif hebben aan de ‘ontdekkingen’ die de autonome agenten uitspuwen tijdens het rusteloos turen in hun virtuele venster op het heelal.
De archivarissen van de kosmos hebben er massa’s ijverige, digitale klerken bij gekregen. De klerken zijn geen ervaren archivarissen. Niet alleen relevante vondsten stoppen ze in de steekkaartenbak. De archivaris moet zelf nog het kaf van het koren scheiden. Op conferenties over astronomische data-analysesystemen zien we heel wat archivarissen van de kosmos die vinden dat het tijd wordt om daar ook eens wat aan te doen.
André Heck ed., Information Handling in Astronomy – Historical Vistas (Dordrecht: Kluwer 2003).
Bart Vandenbussche is als sterrenkundige verbonden aan de KU Leuven.
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License