Statistisch vuurwerk?
Antwoord van de “dwaze professor” op Nanninga’s aanval van zijn onderzoek
door Suitbert Ertel
Rob Nanninga besprak mijn onderzoek (Skepter, zomer 2004) of het duiden van horoscopen te maken kan hebben met ESP. Hij geeft de details min of meer juist weer. Maar met mijn onderzoek als geheel veegt hij de vloer aan: de dwaze professor ontstak een statistisch vuurwerk.
Het artikel wordt van begin af aan doorspekt met ad hominems. Immers, als men zijn lezers niet voortdurend de eigen mening opdringt, zouden dezen het onderzoek mogelijkerwijze zelfstandig beoordelen, met wie weet welk resultaat…
Waar het in het onderzoek op aan kwam, is makkelijk te begrijpen. Michael G. legde twee series tests af, een astrologische (drie ‘bij wie hoort welke horoscoop’-tests) en een parapsychologische, (twee ballentests met 16 of 8 ‘runs’). In beide series stemde het gemiddelde aantal treffers overeen met de kansverwachting.
Natuurlijk was dat niet opmerkelijk. Wel verraste M.G. door extreme uitschieters in zijn uitkomsten. De ‘heterogeniteit’, (het verschil in het aantal treffers), is niet alleen in de astrologische testseries opvallend. Ook in de baltestseries verschilden treffers van de ene run duidelijk met die van de andere (p = 0,0005). [1]
Hoe kwam deze overeenstemming in uitkomsten van twee zeer verschillende tests tot stand? Aanvankelijk, toen M.G. zijn astrologische proefnemingen uitvoerde, was het extreme verschil in treffers mij een raadsel. Maar ik herinnerde mij ESP-onderzoeken, zoals het raden van bedekte symboolkaarten, waarbij opmerkelijke afwijkingen van het aantal treffers ook in negatieve richting voorkwamen.
Mogelijkerwijze vond, als bij M.G. weinig treffers voorkwamen, ‘psi-missing’ plaats (vaktaal voor een onverwacht groot aantal missers). Daarom werd de baltest uitgevoerd, een ESP-test, om na te gaan of daar bij M.G. ook zulke psi-symptomen optraden. Inderdaad kwamen deze ook in de baltesten voor, het waren dezelfde, die al bij de astrologische testen opvielen, dat wil zeggen de uitschieters herhaalden zich zowel in de eerste als in de tweede baltest.
Jammer genoeg verneemt de lezer niet, dat de ‘dwaze professor’ in zijn onderzoek een duidelijk doel voor ogen had. In plaats daarvan wordt hij uitgemaakt voor een scherpschutter, die al naar het resultaat de positie van het doelwit verandert. Verder probeert Nanninga mij methodologische dwalingen aan te wrijven: hij meent twee domme fouten in mijn berekeningen te vinden.
Nanninga beweert, dat de p-waarde tweezijdig vastgesteld moet worden. Toen M.G. in de eerste astrologische test slechts 6 van de 24 trof, berekende ik de p-waarde (kansverwachting) zoals van tevoren vastgelegd, namelijk eenzijdig. De uitkomst was p = 0,011.
Nanninga vindt dat ik ‘blijkbaar weinig heb begrepen’, ik had tweezijdig moeten toetsen. Dan zou er p = 0,022 uitgekomen zijn. Nou en? Valt er iemand bij dit verschil van zijn stoel? Beide getallen liggen binnen de marge.
Heeft Nanninga tenminste de p-waarde juist gecorrigeerd? Ook niet. Hij heeft klaarblijkelijk de geciteerde Kimmel verkeerd begrepen. Kimmel laat wel degelijk eenzijdige p-testen toe, wanneer resultaten significant tegen de verwachting ingaan, maar onder één voorwaarde: ze mogen niet benut worden om alsnog de uitgangshypothese te redden.
In dit geval was de nauwkeurig geformuleerde uitgangshypothese: Door zijn astrologische kennis heeft M.G. meer treffers dan gemiddeld te verwachten is. Dat werd door de testresultaten totaal onderuit gehaald. [2]
Nanninga, die de p-waarde tweezijdig definieert, ruilt indirect de oorspronkelijke hypothese met een andere, die onzinnig is. Volgens hem moet men verwachten dat, als astrologische kennis van belang zou zijn, het aantal treffers óf verhoogd óf verlaagd zou zijn.
Nanninga vindt, dat men treffers van M.G. bij die van elf eerder geteste astrologen moet optellen. Hun resultaten, die in het toevalsbereik lagen, zouden de uitschieters van M.G. vereffenen. Maar het is ongeoorloofd, bekende uitkomsten van eerdere testen naar willekeur met latere steekproeven te mengen.
Waar Nanninga’s mengelmoes helemaal een klucht wordt: als men van individu M.G. een bepaalde kwaliteit wil testen, zij het ESP of iets anders, dan mag alleen M.G. getest worden. De hoge prestatie van één individu kan niet met gemiddelde prestaties van veel anderen vereffend worden.
Kan men ‘met statistiek alles bewijzen’ zoals Nanninga beweert? Met zorgvuldig toegepaste statistiek kan men mogelijke samenhangen nauwkeuriger onderzoeken. Dat wat eerst alleen maar denkbaar is, kan met toenemende statistische waarschijnlijkheid ten slotte zekerheid worden en een proefondervindelijk feit worden, dat ons dwingt, onware zekerheden, waar tot nu toe onze wereldbeschouwing op berustte, overboord te gooien. [3] Nanninga demonstreert waarin organisaties zoals Skepsis uitblinken: aversie tegen het tastende verdergaan in het onzekere en alarm slaan als minder bange auteurs over nieuwe inzichten berichten. Die moeten monddood gemaakt worden.
Wat de sceptici ontbreekt, is moed. Gebrek aan moed waar die nodig is, in eigen denken, wordt gecamoufleerd met verbale krachtpatserij. Wetenschappelijk onderzoekende spelbrekers worden als belachelijke domoren geschilderd. Wanneer komt er eindelijk protest uit eigen gelederen tegen zulke miserabele fouls tegenover pogingen, met volgens de regels doorgevoerde onderzoeken ongewone fenomenen rationeel te benaderen? [4]
[1] Meer daarover in mijn antwoord in het Zeitschrift für Anomalistik, waar Nanninga samen met Nienhuys zijn kritiek van mijn onderzoek ook in het Duits presenteert.
[2] Het is zinvol, eenzijdige p-waarden te handhaven, als het resultaat niet aan de verwachting voldoet. Belangrijke afwijkingen moeten alarmeren, dat wil zeggen de gedachtegang, die tot de oorspronkelijke hypothese voerde, moet men als fout beschouwen en verwerpen. Voor het zo belangrijke onverwachte moet een verklaring, een nieuwe hypothese, gezocht worden!
[3] Om misverstanden te voorkomen: met mijn onderzoek heb ik alleen de waarschijnlijkheid groter gemaakt, ik heb geen zekerheid bereikt.
[4] Met dank aan Mayo Arnoldus, die zo vriendelijk was om dit commentaar te vertalen.
Uit: Skepter 17.3 (2004)
Naschrift van Rob Nanninga
Het lijkt me vooralsnog niet nodig om opnieuw uit te leggen wat er volgens mij mis is met de bovenstaande redeneringen, want ik denk dat mijn artikel dat al voldoende duidelijk heeft gemaakt. Lezers die een bijdrage aan de discussie willen leveren, kunnen deze sturen naar info@skepsis.nl. Uw commentaar zal dan aan deze pagina worden toegevoegd. Wanneer u professor Ertel in staat wilt stellen om desgewenst op uw bijdrage te reageren, schrijf uw tekst dan in het Engels of Duits.
Naschrift bij de website
De relevante publicaties in het Duitse blad zijn alle in Zeitschrift für Anomalistik, Band 4 (2004), Nr. 1-3; gepubliceerd door de Gesellschaft für Anomalistik e.V., Postfach 1202, D-69200, Sandhausen, Duitsland.
De titels van de publicaties zijn:
Suitbert Ertel, Astrologie und Psi. Ein Fallstudie verstärkt die Zusammenhangshypothese. (p.52-68)
Emil Boller, Einwände gegen die Psi-Interpretation der Einzeltests in Ertels Fallstudie. (p.68-71)
Volker Guiard, Statistik mangelhaft. (p.71-80)
Rob Nanninga & Jan Willem Nienhuys, Statistischer Irrsinn. (p.80-83)
Ulrike Voltmer, “Dem Einfallsreichtum forschungbereiter Leser sind keine Grenzen gesetzt”. (p.83-84)
Suitbert Ertel, Kritik sollte korrigieren, nicht demolieren. (p.85-101)
Enige citaten uit het laatste artikel:
Een ‘schrille tegenspraak met de formulering van Kimmel’, zoals Guiard denkt (zo ook Nanninga & Nienhuys verderop) is geenszins aanwezig, integendeel. Kimmels formulering zegt dat wanneer zich een grote afwijking in de tegenovergestelde richting voordoet, men eenzijdig mag toetsen als men ‘onder geen enkele omstandigheid’ de uitgangshypothese (in dit geval dus de veronderstelling dat MG astrologisch bekwaam is) probeert te redden door bijvoorbeeld herinterpretatie. MG had aanvankelijk iets dergelijks geprobeerd met de extra hypothese van een ‘overcompensatie’ in de trant van Adler, die veroorzaakt is door een ‘minderwaardigheid’, die door MG’s (on)bekwaamheid in de kunst van de astrologische duiding aan het licht gekomen zou kunnen zijn. Natuurlijk heb ik zulke reddingspogingen niet ondernomen, precies volgens de eis van Kimmel. (p.91)
Eenzijdig mag men slechts testen, zeggen Nanninga en Nienhuys ‘als men een duidelijke hypothese toetst’. Men zou de hypothese na inspectie van de data dus niet mogen veranderen. Antwoord: Daarmee beschrijven zij mijn handelwijze heel goed. De hypothese was duidelijk en werd na inspectie van de gegevens niet veranderd. Nanninga en Nienhuys schieten in eigen doel: na inspectie van de data willen zij de oorspronkelijke alternatieve hypothese (MG’s astrologie helpt hem bij het onderscheid maken) intrekken en ter rechtvaardiging van een tweezijdige toets een nu werkelijk ‘onzinnige’ verwachting binnensmokkelen. Zij doen nu alsof de alternatieve hypothese zegt dat MG op grond van zijn astrologische kennis nu eens een opvallend veel, dan weer opvallend weinig correcte toewijzingen zal presteren. (p.96)
De strategie van een alomvattende inspectie van de gegevens, die uitgaat boven wat door de geplande nulhypothese begrensd wordt, is Nanninga en Nienhuys kennelijk vreemd. Van de ‘filosofie’ van de exploratieve gegevensanalyse van Tukey, die onbekommerde open en leergierige omgang met de data voorstaat, schijnen zij niets te moeten hebben. […] Bij de planning van een onderzoek is het echter nauwelijks mogelijk alle belangrijke informatie te voorspellen die in de data aanwezig zullen zijn. […] Wie zich aan het oordeel van Nanninga en Nienhuys over significantietestst houdt, gaat met oogkleppen op voorbij aan mogelijke niet van tevoren te verwachten kennis. (p.96-97)
Deze citaten leggen beter dan wij (Nanninga en Nienhuys) het zouden kunnen de vinger op de zere plek. De ‘filosofie’ van het toetsen is dat men een nulhypothese heeft in combinatie met een alternatieve hypothese. Die alternatieve hypothese kan luiden: ‘MG zal bovengemiddeld scoren’ of ‘MG zal niet volgens kansverwachting scoren’ of ‘MG zal een grote variantie in zijn score te zien geven’ of wat dan ook. In samenhang met de alternatieve hypothese stelt men voorafgaand aan de toets de conclusies op die men zal trekken bij diverse uitslagen. Dit is wat tezamen confirmatorisch onderzoek wordt genoemd, gericht op het bevestigen van een reeds bestaand vermoeden zoals vastgelegd door de alternatieve hypothese. Daar sloeg de raadgeving van Kimmel op. Voordat de data verkregen zijn, spreekt men als ware af of men elke afwijking van de verwachtingswaarde van de nulhypothese als bijzonder gaat beschouwen of alleen afwijkingen in één richting.
Ertel is verkennend bezig, dus met wat exploratief onderzoek genoemd wordt. Hij gebruikt daarvoor de statistische machinerie die bedoeld is voor confirmatorisch onderzoek. Nu wordt bij confirmatorisch onderzoek als het goed is de proef zo uitgevoerd dat er zo weinig mogelijk storende factoren zijn. Onder aanname van de nulhypothese mogen er geen onvoorziene invloeden zijn die onbedoeld de alternatieve hypothese bevoordelen. Alleen dan (nulhypothese en alternatieve hypothese vooraf opgesteld, proef daarop ingericht, en diverse conclusies op grond van een vóór de proef geplande berekening ook van tevoren afgesproken) verhoogt een kleine p-waarde het vertrouwen in de alternatieve hypothese.
Als men verkenningen in reeds verkregen gegevens gaat uitvoeren, is er echter een grote en onberekenbare stoorfactor aanwezig, namelijk de vindingrijkheid of de fantasie van de verkenner. Daarom moet men uiterst voorzichtig zijn om de machinerie van de confirmatorische fase (berekening van p-waarden) te gebruiken in de exploratieve fase.
Helemaal verbieden zou niemand willen. Immers na afloop van een proef kan alsnog blijken dat dingen zijn misgelopen: bij medische proeven kan de controlegroep door toeval er gemiddeld slechter of beter aan toe zijn, er is ergens gefraudeerd of een bron van systematische fouten is over het hoofd gezien. In zulke gevallen kunnen statistische instrumenten nuttig zijn, maar men moet veel voorzichtiger zijn met de conclusie ‘hier is iets belangrijks aan de hand’.
Ertel omschrijft deze voorzichtigheid als gebrek aan moed, aversie tegen het onzekere, bangheid. Hij meent dat zijn moedige exploratie een bestaande wereldbeschouwing ondermijnt.