Het vooraf registreren van studies, zoals veel psychologen tegenwoordig bepleiten, kan een oplossing zijn voor de huidige replicatiecrisis, zo blijkt uit parapsychologisch onderzoek.
Hadden de psychologen in de jaren zeventig maar beter geluisterd naar de parapsychologen. Dan zouden ze nu vast niet zo worstelen met dubieuze onderzoekspraktijken, significantieproblemen en publicatiebias. Alsof hij de crisis in de psychologie voorvoelde, hamerde de Utrechtse hoogleraar parapsychologie Martin Johnson al in zijn oratie in 1974 op het belang van methodologische strengheid als enige manier om zijn vak uit het slop te halen. Hij had het vandaag kunnen zeggen:
De onderzoeker moet zijn probleem definiëren, zijn hypothesen formuleren en zijn experiment schetsen voordat hij aan zijn studie begint. Hij moet zijn manuscript schrijven, met op zijn minst vermelding van essentiële feiten, voordat hij zijn onderzoek uitvoert. Dit manuscript, waarin in principe alleen gegevens in de tabellen, resultaten en conclusies ontbreken, moet naar een of meer redacteuren worden gestuurd, en de onderzoeker mag zijn studie niet aanvangen voordat ten minste een van de redacteuren heeft beloofd het onderzoek te publiceren, ongeacht de uitkomst van het experiment. Op deze manier kunnen we selectieve rapportage vermijden. Bovendien krijgt de onderzoeker niet de kans om zijn hypothesen zodanig te veranderen dat ze ‘passen’ bij de uitkomst van het experiment.
Martin Johnson (1930-2011) was een Zweedse psycholoog die na jarenlang touwtrekken was benoemd tot hoogleraar parapsychologie naast bijzonder hoogleraar Wilhelm Tenhaeff (1894-1981). De twee hadden geen grotere tegenpolen kunnen zijn — en ze maakten van hun wederzijdse aversie geen geheim. Tenhaeff geloofde diep in het bestaan van paranormale verschijnselen. Zijn paradepaardje was de paragnost Gerard Croiset, aan wie hij allerlei bovennatuurlijke gaven toeschreef. Tenhaeff vond dieptepsychologische studies van mensen met bovennatuurlijke gaven interessanter dan de kwantitatieve psychologie die toen in opkomst was — en waarvan Johnson een belangrijke voorvechter was.
Johnson was ook wel overtuigd van het bestaan van het paranormale, maar wilde dat vooral wetenschappelijk verantwoord aantonen. Dat kon alleen als de psychologie, en dus ook de parapsychologie, zich op natuurwetenschappelijke leest zou schoeien — op elke gammafaculteit werd in die dagen diep gediscussieerd over Karl Popper, Thomas Kuhn en Imre Lakatos: wat betekende het om iets wetenschappelijk te bewijzen? Maar juist omdat Johnsons vakgebied, nog meer dan andere takken van de psychologie, werd geplaagd door onherhaalbare, slecht gecontroleerde en veelal verdonkeremaande experimenten, besefte hij als geen ander wat de uiterste consequentie van een streng wetenschappelijke methodologie was. Sterker, hij voegde de daad bij het woord. In de geloofsbelijdenis van de European Journal of Parapsychology, die hij in 1975 samen met de Utrechtse psycholoog Sybo Schouten oprichtte, schreef hij — alweer alsof hij een echo uit het heden hoorde:
Kenmerkend voor de European Journal of Parapsychology is het streven selectieve rapportage te vermijden, dat wil zeggen de neiging om ‘negatieve’ resultaten te begraven en alleen studies te publiceren die zijn ‘geslaagd’. Om te voorkomen dat het tijdschrift een kerkhof wordt voor alle ‘niet-geslaagde’ studies, eisen we dat de aanvaarding of afwijzing van een manuscript geschiedt voorafgaand aan de fase waarin de experimentele gegevens worden verzameld. De kwaliteit van het ontwerp en de methodologie en de motivering van de studie moeten als intrinsiek belangrijker worden beoordeeld dan het significantieniveau van de uitkomst.
Het zal trouwe Skepter-lezers niet verrassen dat de Stichting Skepsis positiever tegenover het onderzoeksprogramma van Johnson stond dan tegenover dat van Tenhaeff. In zijn boek Parariteiten uit 1988 wijdde Rob Nanninga een lovende alinea aan Johnsons leerboek Parapsychologie, terwijl Piet Hein Hoebens het in de Skeptical Inquirer (8.2, 1983-4, p.121-132) een ‘verfrissend contrast’ vond met de inleidingen vol ‘pompeuze beweringen dat het bestaan van psi boven elke twijfel was verheven’. In haar proefschrift Wetenschap van gene zijde (besproken door Jan Willem Nienhuys in Skepter 30.2, 2017) schetst Ingrid Kloosterman een uitvoeriger beeld van Tenhaeff en Johnson en hun methodologische en politieke disputen.
In 1992 sloot het Utrechtse laboratorium voor parapsychologie, en ging Johnsons tijdschrift over naar de universiteit van Edinburgh, en later naar de universiteit van Stockholm. In 2010 werd het blad opgeheven — in het laatste nummer van de laatste jaargang stond nog een fraai stuk van de Britse skepticus en psycholoog Richard Wiseman en zijn collega Caroline Watt over het gebruiken van Twitter voor experimenten naar buitenzintuiglijke waarneming [pdf].
Bovenmenselijk toeval wil dat dezelfde auteurs ook een onderzoek hebben uitgevoerd naar de artikelen in Johnsons European Journal of Parapsychology. Het werd in januari van dit jaar gepubliceerd in het tijdschrift PeerJ. Ze doen een beetje alsof ze de eersten zijn die de methodologische rigueur van Johnson boven water gehaald hebben, maar voor lezers van dat blad is het misschien inderdaad een verrassing. Aardiger is hun idee om de artikelen in de Journal te vergelijken: laten de onderzoeken die volgens de spelregels van Johnson zijn uitgevoerd inderdaad minder vaak significante resultaten zien dan de onderzoeken die niet vooraf waren geregistreerd? (Het tijdschrift nam uiteindelijk zowel vooraf-geregistreerde als niet-geregistreerde onderzoeken op.) Als dat zo is, is het mooie empirische aanwijzing dat de eis van preregistratie effectief is en niet alleen maar een politieke leuze van psychologen en methodologen die vinden dat het zo niet langer kan.
Tussen 1976 en 1993 publiceerde het parapsychologietijdschrift 25 wel- en 35 niet-voorafgemelde rapportages — in jargon 25 RR’s en 35 non-RR’s: registered reports. De RR’s beschreven 31 experimenten waarin 131 hypotheses werden getoetst, de non-RR’s 60 experimenten met 232 hypotheses. En inderdaad: in de RR’s waren slechts 11 van de 131 statistische toetsen, dus 8,4 procent statistisch significant, in de non-RR’s 66 van de 232 ofwel 28 procent. Het verschil is groot en zeer significant (Fishers exacttoets p < 0,0005, Cohens d = 0,48), en nadere analyses laten zien dat het inderdaad aan de factor registratie lag, en niet aan bijvoorbeeld onderwerp of jaar van publicatie.
Omdat er geen sprake was van randomisatie-vooraf, kunnen Wiseman en Watt niet uitsluiten dat misschien toch andere factoren, zoals studiekwaliteit of -grootte, een rol kunnen hebben gespeeld, dus ‘de bevindingen moeten veeleer bezien worden als indirect dan als definitief bewijs voor de notie dar RR’s helpen dubieuze onderzoekspraktijken te voorkomen.’
Met instemming citeren Wiseman en Watt dan ook aan het slot van hun artikel de woorden van Sybo Schouten bij het sluiten van zijn Utrechtse laboratorium:
Zeker op een discutabel terrein als de parapsychologie is het belangrijk alle soorten uitdagingen met een open blik te bezien en nieuwe en betere manieren te vinden om dingen te doen. We kunnen ons, in veler ogen, verdachte onderzoeksgebied goedmaken door nieuwe en betere normen te stellen op gebieden van het wetenschappelijke proces, zoals bijvoorbeeld de methodologie of het redactionele beleid.
Elf significante resultaten op 131 getoetste hypotheses? Is dat eigenlijk wat? Bij het toetsen van een hypothese is er sowieso 5% kans, ook als het om onzin gaat, dat je uitkomt op ‘significant’. Dus op 131 keer kun je ongeveer 6,5 maal, zeg 6 of 7 maal verwachten dat er zogenaamd iets significants uitkomt, en van minder of meer moet je niet opkijken. Volgens Bartjens is de kans op 11 of meer maal ‘significant’ ongeveer 0,065. Dat is net genoeg om je schouders over op te halen. 0,065 en dan nog eenzijdig!
Op dezelfde manier kun je uitrekenen dat 66 keer ‘significant’ uit 232 onzinhypotheses een kans heeft van iets minder dan 3 maal 10 tot de macht -31. Daar is zeker iets aan de hand. Zelfs de meest geharde fysicus zal zo’n kleine achteraf berekende kans toch wel serieus nemen. Conclusie: het nalaten van preregistratie werkt het fabrieken van zogenaamd significante resultaten in de hand. Het zou natuurlijk kunnen dat preregistratie een geweldige domper zet op het vernuft van de onderzoeker om een zinnige hypothese te bedenken.
‘Hadden de psychologen in de jaren zeventig maar beter geluisterd naar de parapsychologen. Dan zouden ze nu vast niet zo worstelen met dubieuze onderzoekspraktijken, significantieproblemen en publicatiebias.’
De verschillende richtingen in psychologie gaan hier nogal anders meer om….vergelijk bv ‘sociale psychologie’ eens met ‘klinische psychologie’ of ‘cognitieve psychologie’.
Dus dit lijkt me wat generaliserend.
Het protocol van Martin Johnson, i.e. de gegarandeerde publicatie in de European Journal of Parapsychology, is natuurlijk maar een gedeeltelijke remedie tegen publicatiebias. De significantiebias bestaat verder nog altijd. Een significant resultaat in de parapsychologie betekent artikelen in de Telegraaf, interviews op TV en uitnodigingen om op congressen te komen spreken. Een paar jaar geleden was dat nog het geval met professor Daryl Bem van Cornell University. Die ontdekte in 2011 dat studenten paranormale begaafdheid vertonen in hun wellustig op zoek zijn naar pornografische afbeeldingen. De significantiebias van de kant van de onderzoeker is doorgaans niet eens bewust. Met laboratoriumpersoneel gaat het ook maar om mensen en ze combineren bepaalde uitkomsten op creatieve wijze of ze overtuigen zichzelf ervan dat bepaalde resultaten “outliers” zijn en daarom buiten de data processing moeten worden gelaten. Ik heb het gevoel dat dat percentage significante resultaten nog dichter bij de verwachte vijf zou uitkomen wanneer er bij elk parapsychologisch project een soort onafhankelijke wetenschapsnotaris zou toezien op de integriteit.
Het artikel “De bom van Bem” in de laatste Skepter gaat in op de uitwerking van Bems artikel. De auteur betoogt dat juist door dat artikel de psychologen zich eens achter de oren zijn gaan krabben. Ook zegt de auteur dat A.D. de Groot al heel lang geleden pleitte voor zoiets als een preregistratie.
Mag ik hier een abonnement op Skepter aanbevelen?