steeds meer beïnvloeden ‘big data’ – google, facebook, de large hadron collider, nsa – onze manier van leven, werken en denken. aan de basis van het huidige enthousiasme over big data ligt echter de wat naïeve aanname dat ze neutraal en objectief zijn. maar eigenlijk zouden we ons kritische vragen moeten stellen over waar al die gegevens vandaan komen, met welke bedoelingen ze verzameld en verwerkt worden, en met welke methoden dit gebeurt.
Big data, de revolutie voorbij de hype
‘Big data’ – dat amalgaam van Google, Facebook, de Large Hadron Collider en de National Security Agency (NSA) – zal onze manier van leven, werken en denken veranderen, zo wordt ons voorgespiegeld. Maar wat zijn ‘big data’ eigenlijk? Is het iets wat alle wetenschappers, zowel exacte als humane, moeten nastreven en integreren in hun onderzoek? Of is het slechts een hype? In dit artikel gaan we na waar het allemaal om draait, wat het probleem is met de argumenten die over dit onderwerp circuleren, en hoe we hier – als wetenschappers – mee om moeten gaan. We zullen twee recente boeken met uiteenlopende visies op dit onderwerp met elkaar vergelijken: Big Data van Viktor Mayer-Schönberger en Kenneth Cukier en The Data Revolution van Rob Kitchin. Na een korte beschrijving en vergelijking zullen we de verkregen inzichten toepassen door een aantal voorbeelden en tekstpassages uit deze boeken in vraag te stellen.
Big data hebben als doel om hele populaties of systemen vast te leggen, of in ieder geval toch om veel grotere steekproeven uit te voeren dan in traditionele ‘small data’-studies
‘Big data’ hebben alvast deze algemene eigenschappen van data gemeen. Daarenboven worden vaak de vijf V’s aangehaald om de specificiteit van ‘big data’ te definiëren: volume (vandaag zijn dat terabytes of petabytes), velociteit (de grote snelheid waarmee de data worden gecreeërd), variëteit (gestructureerde of ongestructureerde data, vaak met een aanduiding van het tijdstip en de locatie van creatie), juistheid (de kwaliteit van de data, die ook de kwaliteit van de analyse ervan beïnvloedt) en waarde (de toegevoegde waarde die voortkomt uit de data of een analyse ervan). Kitchin voegt hier nog enkele eigenschappen aan toe, namelijk exhaustiviteit, hoge gedetailleerdheid en de tandem flexibiliteit en schaalbaarheid. Met exhaustiviteit geeft hij aan dat big data als doel hebben om hele populaties of systemen vast te leggen, of in ieder geval toch om veel grotere steekproeven uit te voeren dan in traditionele ‘small data’-studies gebruikelijk is. Verder is het volgens Kitchin de bedoeling dat big data zo gedetailleerd mogelijk zijn, zodat de beschreven entiteiten uniek geïdentificeerd kunnen worden. Ten slotte moeten ze flexibel en schaalbaar zijn, zodat op een eenvoudige manier meer details (attributen) en/of meer beschreven objecten (records) toegevoegd kunnen worden. Deze opsomming van eigenschappen komt grotendeels overeen met andere definities in de literatuur, wat niet wegneemt dat ook andere definiëringen mogelijk zijn. ‘Big data’ is en blijft nu eenmaal een buzzword. Naast het beschrijven van de data an sich wordt de term ‘big data’ ook gebruikt om te verwijzen naar de analyses die erop uitgevoerd worden en de toepassingen die voortkomen uit de analyseresultaten. Die analyses bepalen op hun beurt de eigenschappen van de data en de mogelijke toepassingen.
Het boek Big Data van Mayer-Schönberger en Cukier is in de eerste plaats een populariserende tekst. Toch wordt het ook vaak gebruikt door wetenschappers, als algemene inleiding tot het thema. Zoals vele andere populariserende teksten werken de auteurs met de ruimere betekenis van big data: veel gegevens, de analyses erop en de toepassingen van de resultaten. De ‘capta’-eigenschappen van data worden grotendeels genegeerd, waardoor de (impliciete) aanname dat data neutraal en objectief zijn voortdurend doorheen de tekst loopt. De populariteit van het werk van Mayer-Schönberger en Cukier blijkt onder meer uit het feit dat het in enkele toonaangevende kranten besproken werd en dat het op de bestsellerlijst van de New York Times en de Wall Street Journal staat. Ook werden op amazon.com alleen al meer dan driehonderd recensies gepost. Een aantal punten die hierin geregeld terugkeren onderschrijven we helemaal. Zo zijn er heel wat recensenten die aangeven dat het boek op een toegankelijke en onderhoudende manier een breed gamma aan voorbeelden presenteert van ‘positieve’ (commercieel succesvolle en sociaal gewenste) toepassingen van big data. Verder wordt er ook op gewezen dat het boek aandacht besteedt aan een aantal belangrijke ‘risico’s ervan, zoals de implicaties voor de privacy. Zowel de ‘positieve’ als de ‘negatieve’ voorbeelden kunnen goede startpunten bieden voor discussies over big data, onder meer in het onderwijs.
Analytisch is het boek echter niet echt sterk. Dat heeft te maken met drie opvattingen van de auteurs, die niet geheel onproblematisch zijn. Zo hoeven big data volgens hen niet per se ‘groot’ te zijn, zolang het geen steekproef is van de data, maar ‘alle’ data bevat (bijvoorbeeld alle werknemers van een bepaald bedrijf in plaats van een steekproef ervan). Verder omschrijven ze big data als rommelig (messy, onvolledig, slecht gerepresenteerd, …), en betekent ermee werken op zoek gaan naar correlaties, eerder dan naar verklaringen (causaliteit). Het probleem is echter dat die eigenschappen niet bijzonder karakteristiek zijn voor big data: zo bestaan er al dataverzamelingen die op bepaalde wijze ‘volledig’ zijn, en in alle empirische wetenschappen wordt vaak ook met ‘rommelige gegevens’ en correlatieve analyses gewerkt. Bovendien zijn deze aannames te sterk om algemeen te kunnen gelden.
Zoals Kitchin in zijn (hierna besproken) boek aantoont, is de veronderstelling van volledigheid een te grote vereenvoudiging. Zelfs een dataset van alle zoekopdrachten in bijvoorbeeld Google, of van alle posts van Facebookgebruikers is slechts een representatie én een steekproef: een representatie omdat de dataset een specifieke manifestatie is van wat mensen willen weten of wat ze denken, en een steekproef omdat het alleen de mensen bevat die dit platform gebruiken, en omdat de dienst slechts een deel van de data publiek maakt. Zo geeft Twitter maar ‘ongeveer één procent’ van de tweets vrij, zonder dat we weten hoe die één procent gekozen wordt.
In verband met het tweede punt (‘big data zijn rommelig’) wordt vaak, en ook door Mayer-Schönberger en Cukier, beweerd dat de eventuele slechte kwaliteit van data tenietgedaan wordt als er maar voldoende data voorhanden zijn: ‘more trumps better’. In deze visie worden statistische modellen en vragen van datakwaliteit echter door elkaar gegooid. Een grotere hoeveelheid data kan de statistische modellen inderdaad wel beter maken, maar toch blijft de kwaliteit van de data een vereiste om tot kwalitatieve modellen te komen. Een van de oudste adagia in computerwetenschappen stelt namelijk ‘garbage in, garbage out’ – onafhankelijk van de hoeveelheid rommelige data.
Een grotere hoeveelheid data kan dan de statistische modellen inderdaad wel beter maken, maar toch blijft de kwaliteit van de data een vereiste om tot kwalitatieve modellen te komen
Verradelijker nog is de bewering dat ‘correlatie causaliteit kan vervangen’. Het staat vast dat correlatie vaak nuttig is en dat causaliteit niet altijd nodig is – dit is op zich niet nieuw. Alleen volgen Mayer-Schönberger en Cukier op een relatief onkritische manier de hype dat correlatie alleen voldoende is, dat correlatie het causale denken overbodig maakt. Ze benadrukken dit met polemische formuleringen zoals ‘de maatschappij zal iets van zijn bezetenheid voor causaliteit laten vallen’. De aanname dat correlatie causaliteit kan vervangen is vanuit een wetenschappelijk perspectief evenwel gewoon onzinnig. Te veel vertrouwen in correlatie is op twee manieren problematisch. Ten eerste zijn, zoals elke statisticus weet, veel correlaties gewoon ruis. Een correlatie tussen twee verschijnselen (bijvoorbeeld mensen in korte broek eten meer ijsjes dan gewoonlijk) kan het gevolg zijn van een derde verschijnsel (het weer). In het algemeen ondersteunt een fixatie op correlatie de menselijke neiging naar apofenie of het zien van patronen in willekeurige of betekenisloze data. Bovendien steunt elk statistisch model of algoritme dat gebruikt wordt om correlatieve relaties af te leiden op zijn eigen specifieke aannames (zoals hoe fouten verdeeld zijn). Hoewel er statistische technieken zijn om die vertekeningen tegen te gaan, kunnen ze het probleem op zich niet oplossen. In plaats daarvan wordt een correlatie het best gebruikt om een hypothese te formuleren die vervolgens getest wordt op basis van onafhankelijke data. Dit brengt ons tot het tweede probleem, namelijk de bijbehorende claim dat data en correlaties de klassieke wetenschappelijke methode kunnen vervangen. Men gaat ervan uit dat data objectief en exhaustief zijn, dat ze voor zich kunnen spreken, en dat de context (inclusief de positie van de onderzoeker) geen rol speelt.. Zoals we hierboven al beargumenteerden, is dit onmogelijk. Correlatie kan nuttig zijn om voorspellingen te maken: zo kan het voor een winkelier voldoende zijn om ijsjes aan te bieden van zodra hij mensen in korte broek ziet, om op deze manier de verkoop te doen stijgen. Maar die observatie zal niet verklaren waarom mensen zin hebben in iets verfrissends. Zelfs in dit voorbeeld kan een causale theorie rond het menselijke metabolisme (proberen om de temperatuur te regelen) zonder enige andere observationele data leiden tot een betere kwaliteit van de voorspelling, omdat iedereen van ijsjes houdt in de zomer, ongeacht hoe men gekleed is.
Het boek is ook vaag als het gaat om de vraag hoe analysten inzicht kunnen verwerven uit big data, en nieuwe analytische technieken zoals methodes voor data mining worden niet beschreven. Hetzelfde is helaas het geval in de omgang van Mayer-Schönberger en Cukier met ethische vragen: die worden vermeld, maar allesbehalve kritisch geanalyseerd. In plaats daarvan wordt een marktgeoriënteerde aanpak op basis van zelfregulatie naar voren geschoven, zonder een uiteenzetting van de voor- en nadelen ervan.
Hoewel academischer dan het boek van Mayer-Schönberger en Cukier is The Data Revolution van Kitchin nog steeds zeer toegankelijk. Het is bovendien een goed geïnformeerde en weldoordachte publicatie met een veelomvattende inhoud. Het boek is gestructureerd in elf hoofdstukken waarvan de titels op zich al de encyclopedische breedte aantonen, gaande van een beschrijving van de verschillende soorten data, over de analyse ervan tot ethische, politieke, sociale en wettelijke aangelegenheden. Kitchin illustreert de concepten van de hoofdstukken met de hulp van voorbeelden, weliswaar in mindere mate dan Mayer-Schönberger en Cukier. De gestructureerde aanpak die hierbij gebruikt wordt, is echter beter geschikt voor een diep begrip van big data dan de trefwoordenmethode van Mayer-Schönberger en Cukier (zoals ‘Now’, ‘More’, ‘Messy’, ‘Correlation’ voor de eerste vier hoofdstukken in hun boek). Kitchins boek is ook recenter dan dat van Mayer-Schönberger en Cukier en heeft tot op heden ook minder recensies gekregen. Deze zijn echter wel heel positief en meestal loven ze de gebalanceerde presentatie en het vermijden van – de voor dit thema nogal typische – overdrijvingen in taal en inhoud. Verder benadrukt een van de recensies dat Kitchin naast de motivering (rationale) ook de gevolgen voor governance, management, en zelfs ons begrip van wetenschap en kennis onderzoekt. Deze implicaties motiveren de ‘nood aan een kritischer en filosofischer engagement’. Kitchin geeft inderdaad een gedetailleerd en genuanceerd overzicht van de literatuur om zo’n engagement af te bakenen. De cruciale argumenten vatten we hier graag even samen.
Gegevensbanken en infrastructuur zijn geen neutrale technische methodes voor het verzamelen en delen van data
De eerste twee argumenten werden hierboven reeds beschreven: ‘data’ zijn in feite niet gegeven maar genomen en dus niet neutraal. Bovendien is de volledigheid die ze nastreven over het algemeen onmogelijk, aangezien ook big data slechts een representatie en een steekproef zijn. Ten derde is ook de technologie die big data onderbouwt niet neutraal: gegevensbanken en infrastructuur zijn geen objectieve technische methodes voor het verzamelen en delen van data, maar veeleer een verzameling van processen die ‘contingent’ (mogelijk maar niet noodzakelijk, en van de omstandigheden afhankelijk) en relationeel (verbonden met andere processen) zijn. Gegevensbanken en infrastructuur zijn complexe sociotechnische systemen, dit wil zeggen systemen van mensen en machines die veelvoudig met elkaar interageren, en deel uitmaken van een groter institutioneel landschap van onderzoekers, instellingen en kapitaal. Ten slotte wijst Kitchin erop dat de technologie die big data onderbouwt decontextualisatie aanmoedigt, wat misleidend en gevaarlijk kan zijn: gegevensbanken ontkoppelen data-analyse van de data doordat ze complexe aanvragen en berekeningen mogelijk maken. Hierdoor kunnen analyses gebeuren zonder dat degenen die deze uitvoeren de data moeten bewerken of zelfs begrijpen hoe de data samengesteld en georganiseerd werden.
Naast een grondig overzicht van de definities, die we hierboven al kort bespraken, en van het gamma aan apparatuur en gedragswijzen die samen de niet-aflatende stroom aan data creëren, gaat Kitchin ook in op de belangrijke misvattingen van het empiricisme. Dit is aanbevolen leesstof voor iedereen die gelooft dat ‘correlatie causaliteit kan vervangen’. Zoals we hierboven al aangaven, toont Kitchin ons hier hoe data-analyse altijd doordrongen is met voorkennis, aannamen van causaliteit, en de erop gebaseerde interpretaties. Dit is niet alleen een theoretisch en wetenschappelijk probleem, maar ook een heel concrete bedreiging van fundamentele rechten, zoals Daniel Solove dit uiteengezet heeft in Nothing to Hide. The False Trade-off Between Privacy and Security uit 2011 (Yale University Press).
Aan het einde van zijn boek schetst Kitchin een alternatieve visie van ‘een datagedreven wetenschap die aspecten van abductie, inductie en deductie verenigt’. Zelf zouden we hierbij nog willen opmerken dat zo’n datagedreven wetenschap ook concreet moet zijn. Dit is volgens ons het enige zwakke punt van dit verder excellente werk: soms is de presentatie concept per concept te abstract, waardoor de kans gemist werd om de voorgestelde technieken in dienst te stellen van de deconstructie van de bigdatahype. Dit wordt bijvoorbeeld duidelijk geïllustreerd door de louter theoretische bespreking van de problemen die ontstaan bij het ontkoppelen van gegevens en analyse. Nochtans is het niet moeilijk om dit te concretiseren, zoals aangetoond wordt door een voorbeeld in ‘Critical Questions for Big Data’ van danah boyd en Kate Crawford in een speciale editie van Information, Communication & Society (2012): er is op dit moment een grote interesse in de sociale netwerken van mensen. De netwerken van ‘friends’ of ‘followers’ die gebruikers op sociale netwerksites vormen, worden vaak beschouwd en geanalyseerd als dé sociale netwerken (in een sociologische zin). Maar zowel intuïtie als onderzoek tonen duidelijk dat deze niet hetzelfde zijn.
In een tweede voorbeeld beschrijft Kitchin hoe big data kunnen worden ingezet om de controle van ‘vroeger informeel opgevolgde’ processen, zoals het ophalen van huisvuil, te automatiseren. Hoewel deze observatie correct is, illustreert en introduceert het voorbeeld meteen ook één van de gevaren van big data, namelijk de mogelijke inbreuk op de privacy. Met de hulp van RFID-chips die aan de vuilnisbakken vastgemaakt zijn, wordt het mogelijk om het volume van het vuilnis te meten en huishoudens naargelang van hun effectieve volume te laten betalen. Dit doel (betalen op basis van volume) is misschien wel sociaal gewenst, maar het kan ook anders. Kitchin heeft wel oog voor dit alternatief, maar benadert het alleen theoretisch, namelijk door de vage ‘privacy by design’-principes van Ann Cavoukian te citeren. Het voorbeeld kan echter ook worden gebruikt om deze beginselen in de praktijk te illustreren. In sommige gemeenten in België is de ophaling van huisvuil hiervan een goed voorbeeld: een huishouden mag zoveel volume laten afhalen als het officiële vuilniszakken (van 30l, 60l, …) gekocht heeft. De zakken worden in de winkel gekocht en zijn daardoor (aangenomen dat contant betaald werd) ook niet aan een huishouden te linken. Kortom, dit is een oplossing zonder het gebruik van big data, maar met hetzelfde sociaal wenselijke resultaat, namelijk een privacy-respecterende manier om te betalen voor het ophalen van huisvuil naargelang van het volume.
Een derde voorbeeld is dat Kitchin het verstrekken van data via sociale media of quantified-self toestellen (bijvoorbeeld armbanden die je snelheid tijdens het joggen of de duur van je slaap meten) als puur vrijwillig classificeert. Kitchin geeft aan dat ‘door hun boodschap te presenteren als gezond verstand willen ze mensen en instellingen overtuigen van hun logica, zodat ze zich ook volgens die logica gaan gedragen’. Als men op die manier mensen probeert te overtuigen, rijzen er toch twijfels of deze data donations wel echt zo vrijwillig zijn. Bovendien staat Kitchin ook niet stil bij de gevolgen van deze zogenaamd vrijwillige dataverzameling. Zo belonen ziekteverzekeringen nu al het gebruik van quantified-self toestellen, en wordt er geëxperimenteerd met het gebruik van deze data om variabele tarieven te hanteren. Dit is een techniek die ook al wordt toegepast voor autoverzekeringen, waarbij het rijgedrag opgevolgd wordt door middel van sensoren en veilige chauffeurs beloond worden met een korting.
We denken dat het noodzakelijk is om concrete voorbeelden van big data te confronteren met concrete voorbeelden van kritiek op big data, niet alleen om meer kritische perspectieven erop aan te moedigen maar ook om uit deze kritische visie actiegerichte aanbevelingen te kunnen distilleren. Een uitgebreid voorbeeld van zo’n koppeling vind je in de webpagina die onderaan deze tekst is vermeld. Het beschreven voorbeeld analyseert een passage in het boek van Mayer-Schönberger en Cukier over predictive policing, dit is het gebruik van big data om te voorspellen waar en/of door wie misdaden waarschijnlijk zijn, of welke de concentratie van politieagenten in een bepaalde streek op een bepaalde tijd is.
Het is duidelijk dat zowel het begrijpen van ‘big data’ als het beoefenen van ‘data analytics’ een diepe, interdisciplinaire en kritische benadering vraagt. Wetenschappers hebben de verantwoordelijkheid om zich hiervan bewust te zijn en ernaar te handelen.
Viktor Mayer-Schönberger en Kenneth Cukie, Big Data. A Revolution That Will Transform How We Live, Work and Think. (Londen: John Murray (Publishers), 2013).
Rob Kitchin, The Data Revolution. Big Data, Open Data, Data Infrastructures & Their Consequences. (Londen: Sage, 2014).
De originele citaten, een gedetailleerde deconstructie van Mayer-Schönberger & Cukiers tekstpassage over predictive policing, en een verzameling van relevante referenties vindt u in de uitgebreide, Engelstalige versie van dit artikel op
http://people.cs.kuleuven.be/~bettina.berendt/Reviews/BigData.pdf .
Bettina Berendt is als computerwetenschapper verbonden aan de KU Leuven.
Mathias Verbeke is als computerwetenschapper verbonden aan Sirris.
This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License