binnen de neurowetenschappen is er een groeiende interesse voor het fenomeen muziek. één van de attributen van geluid, dat een cruciale rol speelt in muziek en ook in onze geluidsperceptie in het algemeen, is toonhoogte. al meer dan anderhalve eeuw woeden hevige discussies over de mechanismen die leiden tot de gewaarwording van toonhoogte. dit debat biedt een interessante illustratie van de moeilijkheid om perceptie te begrijpen vanuit de fysica en de fysiologie.

De perceptie van toonhoogte

Tom P. Franken en Philip X. Joris

Er bestaat een lange traditie om het fenomeen muziek te begrijpen vanuit wetenschappen als wiskunde en natuurkunde, en recenter ook vanuit fysiologie en psychologie. Binnen de psychologie speelde de fascinatie voor muziek een belangrijke rol in het ontstaan van de psychofysica, een deeldiscipline die de relatie bestudeert tussen fysische stimuli, zoals geluiden, en de menselijke perceptie van deze stimuli. Volgens Alexandra Hui, auteur van The Psychophysical Ear: Musical Experiments, Experimental Sounds, 1840-1910, lag de bezorgdheid van de grondleggers van die discipline zelfs eerder in het begrijpen van de (muziek)esthetiek, dan in het verwerven van inzicht in het verband tussen stimuli en gewaarwording per se.

Eén van de attributen van geluid, dat een cruciale rol speelt in muziek en in onze geluidsperceptie in het algemeen, is toonhoogte. Het debat over de mechanismen van de perceptie van toonhoogte woedt al anderhalve eeuw en illustreert de moeilijkheid om perceptie te begrijpen vanuit fysica en fysiologie. In de negentiende eeuw waren er vooral fysici (zoals Georg Ohm, Thomas Seebeck en Hermann von Helmholtz) bij dit debat betrokken. Nadien werd de discussie vooral gevoerd door psychofysici. De bijdrage van neurofysiologen in het begrijpen van de mechanismen van toonhoogte is tot nu toe eerder bescheiden, hoewel het debat wellicht enkel vanuit de neurofysiologie beslecht kan worden.

Toonhoogte is niet zomaar ‘aanwezig’ in het geluid, maar is een constructie van de hersenen

De kern van het debat gaat over de manier waarop toonhoogte wordt gegenereerd in de hersenen vanuit de geluidssignalen die onze oren bereiken. Toonhoogte is niet zomaar ‘aanwezig’ in het geluid, maar is een constructie van de hersenen. De centrale vraag is nu of de hersenen hiervoor de tijdscode van het geluid gebruiken, of de aanwezige frequentiecomponenten (het spectrum). De voorbije honderdvijftig jaar ging de slinger heen en weer tussen het eerste (temporele theorieën) of het tweede (spectrale theorieën).
Klassiek wordt toonhoogte gedefinieerd als het attribuut van het gehoor dat het vormen van melodieën mogelijk maakt. Die definitie verwijst expliciet naar muziek, maar toonhoogte is fundamenteel voor geluidsperceptie op vele andere domeinen. In spraak is toonhoogte belangrijk voor prosodie (om bijvoorbeeld een vraag van een bevel te onderscheiden) en geeft ze aan of de spreker een man, een vrouw of een kind is. In toontalen, zoals het Mandarijn Chinees, draagt toonhoogte bij tot de woordbetekenis. Voorts is toonhoogte erg belangrijk in situaties waarbij verschillende geluidsbronnen tegelijkertijd aanwezig zijn: toonhoogte helpt ons om verschillende frequentiecomponenten correct te groeperen en geluidsbronnen van elkaar te onderscheiden. Als er bijvoorbeeld twee stemmen tegelijk aanwezig zijn, is het makkelijker om één ervan te volgen als ze een verschillende toonhoogte hebben (zoals een hoge en een lage stem). Dove patiënten met een implantaat in het slakkenhuis, dat het gehoor verbetert door rechtstreekse elektrische stimulatie van de gehoorzenuw, hebben gebrekkige waarneming van toonhoogte, en dit draagt bij tot problemen in de spraakperceptie en de appreciatie van muziek.

We horen geluid wanneer objecten trillen binnen een bepaald bereik van frequenties, voor de mens ongeveer tussen 20 en 20 000 Hz. Een trilling kan worden beschreven door een voorstelling in het zogenaamde tijdsdomein: dit is de golfvorm, zichtbaar gemaakt door bijvoorbeeld het elektrische signaal van een microfoon te volgen in de tijd op een oscilloscoop. Anderzijds kan, via het wiskundige proces van de Fourieranalyse, van deze golfvorm een equivalente beschrijving worden gemaakt in het frequentiedomein: het spectrum. Dit verband is uniek: iedere unieke golfvorm is geassocieerd met een uniek spectrum. De Duitse fysicus Georg Ohm ontdekte dat elke geluidsgolf kan worden beschreven als een unieke samenstelling van frequentiecomponenten. (Een mooie Android app om het frequentiedomein te visualiseren is overigens SpectralView). In het spectrum wordt elke frequentiecomponent gekarakteriseerd door een grootte en een fase. De grootte weerspiegelt de energie die op die frequentie aanwezig is. De fase beschrijft het tijdsverband tussen de frequentiecomponent en het begin van de geluidsvorm. Het meest elementaire geluid is een ‘zuivere toon’: dit is een perfecte sinusgolf in het tijdsdomein, die in het frequentiedomein met één frequentie overeenkomt. Zuivere tonen komen in de natuur echter zelden voor: de meeste geluiden hebben een complexe golfvorm, met een spectrum dat vele frequentiecomponenten bevat.

Toonhoogte is geassocieerd met een periodiciteit in de trilling, een regelmatige herhaling van een stukje golfvorm in de tijd

Niet alle geluiden hebben een duidelijke toonhoogte: denk aan een kabbelend beekje, het ruisen van de wind of sommige van onze spraakklanken. Toonhoogte is specifiek geassocieerd met een periodiciteit in de trilling, dit wil zeggen een regelmatige herhaling van een stukje golfvorm in de tijd. Bij zuivere tonen is dit zeer eenvoudig: een zuivere, sinusvormige toon van 100 Hz vertoont een perfecte periodiciteit van 10 milliseconde. Het frequentiedomein toont slechts één frequentie, 100 Hz. Halveren we de periodiciteit van de toon tot 5 milliseconde, dan toont het frequentiedomein een verdubbeling in frequentie (200 Hz, verhoging met een octaaf), en heeft het geluid een hogere toonhoogte. In onze perceptie is de stap in toonhoogte van 100 naar 200 Hz even groot als de stap van 200 naar 400 Hz of van 300 naar 600 Hz.

Bij natuurlijke geluiden is de golfvorm niet sinusoïdaal maar eerder grillig. Maar wanneer die grillige golfvorm een periodiciteit vertoont van bijvoorbeeld 10 milliseconde, dan zal het geluid eenzelfde toonhoogte hebben als een zuivere toon van 100 Hz. Opnieuw leidt halvering van de periodiciteit tot een verhoging van de toonhoogte met een octaaf, die dan overeenkomt met die van een zuivere toon van 200 Hz. Voor complexe geluiden uit periodiciteit zich in de aanwezigheid van verschillende frequentiecomponenten die een harmonische reeks vormen. Deze componenten (of harmonische frequenties) zijn gehele veelvouden van een fundamentele frequentie (ook gekend als grondtoon). Het spectrum toont dan naast de fundamentele frequentie (bijvoorbeeld 100 Hz) ook een reeks harmonische frequenties (200 Hz, 300 Hz, …) De fundamentele frequentie is de grootste gemene deler van alle harmonische frequenties. De relatieve sterkte van die frequentiecomponenten bepaalt wat we klankkleur of timbre noemen. Twee geluidsbronnen met eenzelfde toonhoogte, zoals twee muziekinstrumenten of twee sprekers, kunnen we toch van elkaar onderscheiden wanneer ze verschillen in de relatieve sterkte van de verschillende frequentiecomponenten. Dit illustreert meteen ook een boeiende eigenschap van toonhoogte: geluiden kunnen sterk verschillen in spectrum, amplitude, duur, ruimtelijke plaats, en toch dezelfde toonhoogte hebben.

In navolging van Ohm benadrukte de Duitse fysicus en arts Hermann von Helmholtz dat het slakkenhuis in het menselijk oor elk geluid opdeelt in zijn samenstellende frequentiecomponenten. Hij werd gesterkt in die overtuiging toen hij ontdekte dat hij door oefening frequentiecomponenten kon onderscheiden in zijn perceptie van een complex geluid. Later beschreef een andere fysicus, Georg von Békésy, de mechanische basis van dit onderscheidend vermogen. Zuivere tonen geven een maximale activering van het slakkenhuis op een bepaalde plaats: lage tonen geven activering van de smalle tip van het slakkenhuis, hoge tonen van de brede basis. We kunnen dus een ‘kaart’ van frequenties tekenen op het slakkenhuis. Deze kaart is bij benadering logaritmisch, zodat de afstand van een octaaf overeenkomt met een vaste afstand tussen twee activeringspieken in het slakkenhuis. Voor zuivere tonen lijkt toonhoogte dan ook eenvoudig en komt ze gewoon overeen met frequentie, via de ‘code’ van de plaats van activering in het slakkenhuis. Volgens deze ‘plaatstheorie’ berust de basis van toonhoogte op de aanwezigheid van akoestische energie op de fundamentele frequentie, en de aanwezigheid van die energie kan door de hersenen uitgelezen worden uit de plaats van activering in het slakkenhuis. Volgens Ohm en Helmholtz was alleen deze plaatscode belangrijk, en had de onderlinge verhouding in de tijd van de verschillende frequentiecomponenten (de fase) geen belang voor de toonhoogte. Deze plaatstheorie vormt de eenvoudigste spectrale theorie van toonhoogte.

Al snel dook er echter een probleem op met deze hypothese. Als we een complexe toon beluisteren met componenten 100 Hz, 200 Hz, 300 Hz, 400 Hz en 500 Hz, horen we een toonhoogte van 100 Hz. Als we nu de component van 100 Hz weglaten uit dit geluid, blijkt dat we nog steeds dezelfde toonhoogte van 100 Hz ervaren. Er hoeft dus geen akoestische energie op een bepaalde frequentie aanwezig te zijn om toch een toonhoogte te horen die overeenkomt met een zuivere toon van die frequentie. In het dagelijkse leven komt die paradox tot uiting bij het gebruik van mobiele telefoons. De kleine luidspreker kan nauwelijks frequenties reproduceren lager dan ongeveer 300 Hz, wat boven het typische bereik is van de fundamentele frequentie in de menselijke stem. Toch verschilt een stem tijdens een telefoongesprek niet in toonhoogte van diezelfde stem als je ze rechtstreeks hoort.

Deze paradox (de ‘afwezige fundamentele frequentie’) werd voor het eerst in 1841 geobserveerd door de fysicus Thomas Seebeck, met behulp van sirenes die hij zelf ontwikkelde. In het begin van de negentiende eeuw had men niet de huidige mogelijkheden om geluiden met bepaalde frequentiecomponenten te maken, zoals met elektrische en digitale apparatuur. Een eenvoudige sirene bestaat uit een buis met samengedrukte lucht, die afgesloten wordt door een draaiende schijf. Hierin zijn gaten geboord, zodat er telkens een beetje lucht kan ontsnappen als een gat voor de opening van de buis draait. De afstand tussen de gaten, samen met de draaisnelheid van de schijf, bepaalt de aanwezige frequentiecomponenten in het gegenereerde geluid. Seebeck ontwikkelde een sirene met verschillende rijen van gaatjes en verschillende buizen die ten opzichte van elkaar verplaatst konden worden. Met dit toestel stelde hij vast dat een complex geluid een toonhoogte kan hebben die overeenkomt met een zuivere toon van een frequentie die niet als component in het geluid aanwezig is.

In 1863 probeerde Helmholtz deze paradox te verklaren door te stellen dat deze ontbrekende fundamentele component aangemaakt wordt in het oor zelf. Dit kan gebeuren door interactie tussen de andere aanwezige frequentiecomponenten in het geluid. Een gezond slakkenhuis maakt inderdaad dergelijke distortietonen aan, zij het met een erg lage intensiteit. Latere experimenten, onder meer door de Amerikaanse psycholoog en computerwetenschapper J.C.R. Licklider, toonden echter overtuigend aan dat Helmholtz’ verklaring niet opgaat. In dit werk voegde men aan het geluid frequentiecomponenten toe met amplitude en fase die zo gekozen waren dat de energie op de fundamentele frequentie in het slakkenhuis weggenomen werd, of ook met ruis die deze energie maskeerde. Nog steeds werd dezelfde toonhoogte gehoord, dus ook zonder het effect van distortietonen.

Een modernere versie van de plaatstheorie is de hypothese van patroonherkenning. Deze hypothese veronderstelt dat de hersenen modellen hebben van harmonische reeksen, waarmee de frequentiecomponenten van geluid worden vergeleken. Het model dat het beste past zou dan de toonhoogte bepalen. De paradox van de afwezige fundamentele frequentie wordt hier opgelost doordat de andere frequentiecomponenten nog wel aanwezig zijn, en dus de betreffende harmonische reeks nog steeds het best zal passen.

De grote tegenhanger van de spectrale theorieën zijn de temporele theorieën, die vertrekken van de golfvorm van geluid in de tijd. Geluiden met een toonhoogte bestaan immers uit bijna exacte herhalingen van eenzelfde patroon (de periode). Volgens de theorie van de periodiciteit is toonhoogte eenvoudig gekoppeld aan de duur van de periode: een kortere periode resulteert in een hogere toonhoogte en omgekeerd. Om de toonhoogte te bepalen moeten de hersenen dus de lengte van de periode achterhalen. Omdat de zenuwcellen in de gehoorzenuw elektrische impulsen afvuren op tijdstippen die gekoppeld zijn aan de fase van de geluidsstimulus, is deze tijdsformatie aanwezig in de hersenen (tijdscode).

De Nederlandse arts en biofysicus Jan Frederik Schouten suggereerde dat een temporele theorie het fenomeen van de afwezige fundamentele frequentie op een eenvoudige manier oplost. De amplitude van een complexe toon bestaande uit 200, 300, 400 en 500 Hz wordt gekenmerkt door een algemene modulatie (de omhullende, in Schoutens bewoording het ‘residu’) met een periode van 10 milliseconde (dus overeenkomend met 100 Hz). De periode van de fundamentele frequentie is dus zichtbaar in de omhullende. Gehoorzenuwvezels vuren impulsen met intervallen die overeenkomen met deze modulatiefrequentie, dus er is een tijdspatroon van zenuwactiviteit die een frequentie van 100 Hz volgt. Ook deze residutheorie is echter niet zonder problemen: als de harmonische frequenties van de complexe toon allemaal worden opgeschoven met een bepaald frequentieverschil, wordt een andere toonhoogte ervaren, hoewel de modulatiefrequentie nog steeds dezelfde is. Neem bijvoorbeeld een geluid bestaande uit de frequenties 120 Hz, 220 Hz, 320 Hz, 420 Hz, 520 Hz en 620 Hz. Dit geluid heeft een toonhoogte van 104.6 Hz, wat niet overeenkomt met de periode die zichtbaar is in de omhullende. De moeilijkheid van temporele theorieën is dat toonhoogte voor zowel eenvoudige tonen als complexe tonen bestaat, hoewel de tijdsstructuur van de periode er erg anders kan uitzien. Het mechanisme dat toonhoogte genereert moet dus ongevoelig zijn voor de precieze golfvorm binnen de periode. Deze vorm is ook afhankelijk van de onderlinge faseverhoudingen tussen de harmonische frequenties: het tijdsmechanisme moet ook hiervoor ongevoelig zijn, aangezien faseverschuivingen geen invloed hebben op de ervaren toonhoogte.

Een temporele theorie die toonhoogte goed voorspelt is die van autocorrelatie, voor het eerst beschreven in 1951 door Licklider. Autocorrelatie is een wiskundige bewerking die een signaal met zichzelf vergelijkt op verschillende tijdstippen. Concreet wordt het signaal vermenigvuldigd met een kopie van zichzelf die opgeschoven is in de tijd. Repetitieve signalen zullen regelmatige pieken vertonen in de autocorrelatie, omdat de golfvorm elke periode herhaald wordt. De tijdsverschuiving die overeenstemt met de eerste grote piek in de autocorrelatie zou dan de toonhoogte bepalen. De paradox van de afwezige fundamentele frequentie, de toonhoogte van vele complexe geluiden, en de ongevoeligheid voor faseverschillen, worden goed voorspeld door autocorrelatie. Het idee van autocorrelatie als fundamentele operatie in het tot stand brengen van toonhoogte is op een zeer intuïtieve wijze geïllustreerd in Why You Hear What You Hear van E.J. Heller, een nieuw inleidend handboek dat de fysica van geluid samenbrengt met elementen van psychofysica en muziekleer.

Of de hersenen inderdaad een soort autocorrelatie uitvoeren om toonhoogte te bepalen is momenteel controversieel. Modellen die een implementatie van autocorrelatie voorstellen door circuits van neuronen, zijn vaak geïnspireerd door bevindingen in de neurofysiologie van ruimtelijk horen. Er is een redelijk goed gekarakteriseerd neuraal circuit dat een vorm van correlatie uitvoert om de golfvorm van het geluid ter hoogte van de twee oren te vergelijken, wat toelaat om geluiden in de ruimte te lokaliseren. Dit circuit vergelijkt het precieze tijdstip van afvuren van elektrische impulsen tussen de twee oren door ze na verschillende tijdsvertragingen met elkaar te vergelijken. Dit heet kruiscorrelatie, omdat de signalen die vergeleken worden niet gelijk zijn, maar elk van een ander oor afkomstig zijn. Hoewel een vorm van kruiscorrelatie dus aanwezig is in de hersenen, zijn er tot nog toe geen overtuigende voorbeelden van neurale autocorrelatie. Omdat toonhoogte aanwezig is voor periodes die tientallen milliseconden lang kunnen zijn, zouden dergelijke tijdsvertragingen gerealiseerd moeten worden, en hoe dat zou moeten is op dit moment erg onduidelijk.

Een ander argument tegen de fysiologische relevantie van autocorrelatie betreft patiënten met een implantaat in het slakkenhuis. Hierbij wordt het binnenoor rechtstreeks elektrisch gestimuleerd met een patroon dat erg precies bepaald is in tijd (‘temporeel’) maar erg pover qua plaats van stimulatie in het slakkenhuis (‘spectraal’). Als er hersencellen zijn die autocorrelatie uitvoeren op de binnenkomende signalen, dan verwachten we dat dit zowel voor een akoestisch als een elektrisch gestimuleerd slakkenhuis zou werken. Toch blijken patiënten met een implantaat duidelijk minder goed toonhoogte waar te nemen dan normaal horende personen. Hier kan wel tegenin worden gebracht dat dit een erg artificiële stimulatie van het binnenoor is, en dat dergelijke patiënten vaak lang slechthorend geweest zijn en dus minder ervaren zijn in het onderscheiden van toonhoogte. Betere kennis van de neurale mechanismen van toonhoogte is nodig om de auditieve perceptie bij deze patiëntengroep te verbeteren.

Over de jaren heen is er een slingerbeweging geweest tussen spectrale en temporele theorieën

Over de jaren heen is er een slingerbeweging geweest tussen spectrale en temporele theorieën. Sinds de jaren 1980 zijn vooral de laatste populair, maar recent is er opnieuw een beweging naar spectrale theorieën. Het is moeilijk op louter psychofysische basis één van de twee uit te sluiten, omdat elke golfvorm in het tijdsdomein een unieke partner heeft in het frequentiedomein. Vanuit neurofysiologisch perspectief echter zijn de voorspelde neurale berekeningen die tot toonhoogte leiden erg anders voor mechanismen gebaseerd op plaatsinformatie dan voor deze gebaseerd op tijdsinformatie. Dit betekent dat neurofysiologisch onderzoek (waarbij de activiteit van hersencellen gemeten wordt voor verschillende geluiden) moet toelaten om te achterhalen welke berekening nu werkelijk door de hersenen gemaakt wordt.

Het debat tussen spectrale en temporele theorieën kadert eigenlijk in een ruimer en fundamenteel debat in de neurowetenschappen. Neurale activiteit wordt zeer vaak gekenmerkt door de aanwezigheid van een tijdsstructuur. In de zintuigen weerspiegelt die tijdstructuur de stimulus, maar ook in andere regio’s van de hersenen is een tijdstructuur (‘ritme’) vaak prominent aanwezig (of gestoord in pathologische omstandigheden). Het is echter erg moeilijk uit te maken of deze ritmes een epifenomeen zijn van neurale eigenschappen zoals intrinsieke membraaneigenschappen en verbindingen tussen hersencellen, dan wel of ze een causale rol spelen in de hersenfunctie.

Alexandra Hui, The Psychophysical Ear: Musical Experiments, Experimental Sounds, 1840-1910. (Boston: MIT Press, 2013).
Eric J. Heller, Why You Hear What You Hear: An Experiential Approach to Sounds, Music and Psychoacoustics. (Princeton: Princeton University Press, 2013).

Deel dit artikel