Niet alleen tegenover journalisten stellen onderzoekers hun resultaten wel eens wat mooier voor dan ze zijn, ook in hun wetenschappelijke artikelen geven ze er maar al te graag een positieve draai aan. Sterker nog, ‘spin’ is alomtegenwoordig in de wetenschap.
door Hans van Maanen – Skepter 33.3 (2020)
WIE niet beter weet, zou denken dat onderzoekers de resultaten van hun werk zo eerlijk en onpartijdig mogelijk voorleggen aan hun vakgenoten. Hun artikelen zijn, in dat beeld, droge, afstandelijke opsommingen van cijfers, statistieken en terughoudend opgeschreven conclusies vol mitsen en maren. Zo zien ze zichzelf trouwens ook graag – gewone mensen schrijven al veel meer objectiviteit, rationaliteit en integriteit toe aan wetenschappers dan aan gewone mensen, maar wetenschappers doen dat zelf nog veel meer.[1] Vooral gevestigde wetenschappers hebben een hoge pet op van vooral gevestigde wetenschappers.
Wie wat beter kijkt naar de manier waarop onderzoekers hun werk aan de man brengen, ziet een heel ander beeld. Tien jaar geleden werd het eerste systematische onderzoek opgezet naar ‘spin’ in de literatuur – al was voordien ook wel eens gemopperd dat opscheppen en overdrijven bepaald niet ongewoon was in de wetenschap.[2]
Direct bleek, zoals Isabelle Boutron het zelf samenvatte, dat meer dan de helft van alle gerapporteerde conclusies was verfraaid.[3] Later onderzoek heeft het er niet beter op gemaakt, in ieder geval niet in de sociale psychologie en de biomedische wetenschappen. Of spin in andere wetenschappen voorkomt, is minder onderzocht (wat dan weer pleit voor de sociale psychologie en de biomedische wetenschappen), maar de kroon spant voorlopig fysiotherapie, waar 98 procent van de onderzoeken naar behandeling van lagerugpijn op spin werd betrapt.[4] Hoe zou het in de archeologie tot en met de zoölogie zijn?
Keuzes
Het verfraaien van resultaten hoeft natuurlijk niet opzettelijk te zijn – ook wetenschappers moeten keuzes maken bij wat ze melden en wat niet. Iedereen heeft de neiging enthousiast te zijn over het laatst afgeronde werkstuk, en dan wil je jezelf nog wel eens voorbij lopen. Het kan ook zijn dat het eenvoudig de manier is waarop iedereen in de vakgroep rapporteert, of dat het jonge onderzoekers zo is aangeleerd door gevestigde wetenschappers, of dat ze door hun promotor gedwongen worden het zo op te schrijven – er zijn veel mechanismes denkbaar. Maar als het onopzettelijk gebeurt, is het wel vreemd dat de spin vrijwel altijd resulteert in een mooiere voorstelling van zaken, zelden in een slechtere. Spin – volgens Boutron kortweg ‘het verdraaien van wetenschappelijke bevindingen zonder echt te liegen’ – dient de financiele, intellectuele of academische belangen van de spin doctor. [3]
Bij elke bocht
De weg van een onderzoeksidee naar een publicatie is lang en kronkelig, en bij elke bocht is het mogelijk te verdraaien zonder echt te liegen. Het gaat dus zeker niet alleen om het opleuken van bevindingen: ook over het onderzoeksidee zelf, over de gevolgde methode, over de uitkomsten en zelfs over de betekenis van die uitkomsten kan worden opgeschept.[5]
Niet alle soorten spin komen even vaak voor, maar ze zijn ook niet wederzijds uitsluitend – als er op de ene manier misleid wordt, is in het artikel vaak ook nog wel een andere manier te vinden. En er zijn, uiteraard, gradaties: spin is niet zwart-wit en niet altijd even schadelijk en schandelijk.
Bovendien is het meten van spin tot op zekere hoogte ook subjectief: wat de ene spin-onderzoeker spin noemt, zal de ander milder beoordelen. Gestandaardiseerde lijsten waarop alleen maar afgevinkt hoeft te worden, zijn er niet. En obligaat: misschien maken onderzoekers op dit terrein hun resultaten wel eens wat belangwekkender dan ze zijn – daar is al helemaal weinig onderzoek naar gedaan.
En daarbij is, ook voor spin-onderzoekers zelf, de grens tussen spin en vals spel (questionable research practices, QRP’s) niet altijd scherp. Er zijn inmiddels hele waslijsten van die QRP’s opgesteld – de Tilburgse psycholoog Jelte Wicherts verdeelde ze in zijn geestige oratie een paar jaar geleden in een vijftal handzame groepen.[6] Over de frequentie waarmee ze worden gehanteerd, hoeven we ons evenmin illusies te maken. In een inmiddels fameus onderzoek schatten Leslie John en collega’s dat een meerderheid van de ondervraagde psychologen wel eens vals speelt of denkt dat collega’s dat doen: ‘Sommige QRP’s lijken de heersende onderzoeksnorm te zijn.'[7] Na uitgebreid literatuuronderzoek berekende Daniele Fanelli dat 34 procent van de wetenschappers toegeeft zelf ooit te hebben valsgespeeld en dat 72 procent hun collega’s ervan verdenkt – hij vond de meeste valsspelers onder medische onderzoekers.[8]
Blind onderzoek
Terug naar de spin. Om te beginnen kunnen de onderzoeksmethoden mooier worden voorgesteld dan ze zijn. Een van de grootste problemen bij gerandomiseerd dubbelblind placebo-gecontroleerd onderzoek is precies dat blinde randomiseren – zorgen dat niemand weet wie de onderzochte behandeling krijgt en wie de controlebehandeling. In het onderzoeksverslag heet het dan dat er blind gerandomiseerd is, maar iedereen weet, om maar wat te noemen, dat het onmogelijk is de smaak en de nasmaak van zink te verhullen in een ‘blind’ onderzoek naar verkoudheid – patiënten weten in welke groep ze zitten, en handelen daarnaar.[9] Een controle van 3137 in China als zodanig gepubliceerde trials (de helft over traditionele Chinese geneeskunst, maar dat terzijde) leerde dat 93 procent daarvan niet echt een gerandomiseerd en gecontroleerd onderzoek was.[10]
Subtieler: de onderzoekers zeggen wel terecht dat er is gerandomiseerd, maar vertellen er bijvoorbeeld niet bij dat ze complete gezinnen hebben laten meedoen. Het grote Predimed-onderzoek, naar de werkzaamheid van het mediterrane dieet, leidde mede daardoor tot grote commotie.[11] Als de deelnemers op elkaar lijken, is het veel makkelijker significante resultaten te bereiken.
Soms staat er dat alle patiënten netjes van begin tot eind gevolgd en meegeteld zijn, maar blijkt bij nadere beschouwing dat de uitvallers – in het ergste geval de overledenen, maar bijvoorbeeld ook de mensen die de behandeling direct al niet verdroegen of niet kwamen opdagen – toch zijn weggelaten.[12]
Ondoorgrondelijke cijfers
Goochelen met getallen is stellig de meest gebruikelijke vorm van spin. Cijfers ogen objectief, lijken makkelijk te controleren maar zijn vaak moeilijk goed te doorgronden. Gerd Gigerenzer en kornuiten hebben daar eens een even gloedvol als leerzaam betoog over geschreven.[13]
Zo wordt al heel lang gemopperd over het presenteren van risico’s als relatief in plaats van als absoluut. Dan staat er bijvoorbeeld dat de kans op depressie door de pil met 23 procent verhoogd is, zonder dat er direct bij wordt gezegd dat maar heel weinig vrouwen depressief worden – de kans op een depressiediagnose ging van 1,5 procent in vijf jaar naar 1,7 procent onder pilgebruiksters.[14]
Voedingsonderzoek maakt zich hier ook nogal eens schuldig aan: dan wordt gewaarschuwd dat vlees de kans op darmkanker erg verhoogt, terwijl het voor de consument amper iets uitmaakt (Skepter 2015, nr. 2). Op dezelfde manier worden nut en precisie van diagnostische tests overdreven voorgesteld – denk aan het relletje in 2014 rond een bloedtest voor depressie.[15]
Als 90 procent van de jongens en 95 procent van de meisjes oordopjes gebruiken, dan is de oddsratio (90 : 10) / (95 : 5) = 0,47. Wie alleen te horen krijgt dat ‘minder jongens oordopjes indoen dan meisjes (OR = 0,47)’, denkt zonder die percentages allicht dat het de helft scheelt. De oddsratio is een veelgebruikte manier om verschillen indrukwekkender te laten lijken dan ze zijn.
Niet te geloven
De samenvatting van een artikel (de abstract) geeft in een oogopslag de belangrijkste bevindingen van het onderzoek, en het is dan ook vaak het enige dat onderzoekers lezen als ze snel willen weten of er iets van hun gading bij zit. Roy Pitkin en collega’s vergeleken de abstracts van 44 willekeurig gekozen artikelen uit de vijf grote medische bladen met hetgeen in het artikel zelf stond.[16] In het beste tijdschrift klopte er in 18 procent van de gevallen iets niet, in het minste 68 procent. Luis in de wetenschappelijke pels Peter Gøtzsche was, na het bestuderen van de abstracts van 260 gerandomiseerde trials nog wat misprijzender: ‘Significante resultaten in abstracts zijn gebruikelijk maar moeten over het algemeen niet worden geloofd.'[17] Voorzover hij ze kon narekenen, waren van de 23 nog net significant genoemde resultaten 4 niet significant, 5 twijfelachtig en 4 voor discussie vatbaar. Van de 4 als net niet significant geafficheerde resultaten bleek er 1 wel degelijk significant.
Iets dergelijks vond de al genoemde Jelte Wicherts bij het doorploegen van de statistiek in de psychologische literatuur: ‘Ruwweg de helft van alle artikelen waarin hypotheses werden getest, bevatte ten minste 1 inconsistentie, en 13 procent bevatte een grove inconsistentie die de statistische conclusie beïnvloed zou kunnen hebben.'[18]
Eigenlijk geldt dit in elk onderzocht vakgebied – men kan er in gemoede van uitgaan dat ongeveer de helft van alle artikelen wel een of meer evidente onnauwkeurigheden bevat, en dat een artikel met drie of meer van dergelijke inconsistenties beter meteen terzijde geschoven kan worden.[19] ‘t Is vast niet allemaal per ongeluk.
Over het misleiden met grafieken en figuren valt een compleet artikel te schrijven, en dat heeft Hilje de Boer dan ook al eens voor Skepter gedaan (2018, nr. 4). Het bewust manipuleren van grafieken en figuren ligt dichter tegen fraude dan tegen spin aan – laten we volstaan met te zeggen dat ook dit niet zeldzaam is: zeker twintig procent van de gepubliceerde artikelen in de biomedische literatuur bevat een of meer afbeeldingen waaraan aantoonbaar Photoshop® te pas is gekomen.[20]
Juichende onderzoekers
Echt creatief kunnen auteurs worden bij het uitleggen van wat ze nu eigenlijk gevonden hebben. Dat het allemaal nieuw en onverwacht is, is tegenwoordig haast vanzelfsprekend: in 1970 had hooguit 1 op 2000 wetenschappelijke artikelen het woord ‘novel‘ in de titel, in 1992 bijna 1 op 100.[21] Tussen 1974 en 2014 nam het aantal positieve woorden (vooral ‘robust‘, ‘novel‘, ‘innovative‘, ‘unprecedented‘) in abstracts toe van 2 procent naar 18 procent.[22] ‘Tegen het jaar 2123 zal elk artikel het woord ‘novel‘ bevatten,’ extrapoleren de auteurs met gevoel voor ironie. Overigens, ook het aantal negatief gekleurde woorden nam in die veertig jaar toe, van 1,3 naar 3,2 procent.
De resultaten kunnen ook positiever worden voorgesteld door niet alle voorbehouden en nadelen direct duidelijk te vermelden. Maar het populairst is natuurlijk het verwarren van correlatie en causaliteit. Vrijwel al het voedingsonderzoek dat in de pers komt, is correlationeel: mensen die dagelijks een glas melk drinken, krijgen minder vaak darmkanker, maar of melk (of vet, of calcium) zelf beschermt tegen darmkanker, is twijfelachtig. Het is nu eenmaal onmogelijk een trial op te zetten waarin de ene groep wel een glas melk krijgt en de andere groep nooit, en ze dan na twintig jaar te vergelijken onder de aanname dat alle overige verschillen statistisch kunnen worden weggepoetst. (Het scheelt hoe dan ook erg weinig: van 1000 veertigjarigen krijgen er 9 binnen twintig jaar darmkanker, van melkdrinkers 8.[23]) In een venijnig betoog heeft John Ioannidis eens laten zien dat inmiddels voor vrijwel elk voedingsmiddel is aangetoond dat het zowel kankerverwekkend als kankerwerend is (zie ook Skepter 2018, nr. 4).[24]
Alweer, of het altijd bewust gebeurt of dat onderzoekers gewoon niet beter weten, is uiteraard niet altijd vast te stellen. De overdrijving gaat in ieder geval meestal naar de gewenste oever.
Hogere rapportcijfers
Auteurs spinnen niet voor niets – het werkt. Isabelle Boutron nam dertig abstracts met spin, herschreef ze zonder spin, en stuurde ze naar driehonderd onderzoekers – de abstract met spin kreeg een punt hoger rapportcijfer dan die zonder spin.[25]
Ze pakte het onlangs, met een grote onderzoeksgroep, nog wat breder aan en bekeek of spin ook bij 1200 patiënten en zorgverleners invloed had op de beoordeling van een behandeling – ja dus: daar scheelde het twee rapportpunten.[26]
Spin werkt, ten slotte, ook bij journalisten. Artikelen met spin in de abstract worden beter opgepikt door de pers, en het krantenstuk volgt meestal die spin.[27] Het is inmiddels genoegzaam aangetoond dat krantenartikelen over behandelingen ook gevolgen hebben voor het gedrag van patiënten – denk aan de pill scare van 1995, waar in Engeland na een ongelukkige overheidswaarschuwing het pilgebruik drastisch daalde en het aantal ongewenste zwangerschappen navenant toenam.[28] Na elke discussie over cholesterolverlagers stopt tien procent van de patiënten met slikken.[29]
Dubbele bluf is het, als onderzoekers zich in hun wetenschappelijk artikel nog inhouden, maar zich daarna in meer informele uitingen geheel laten gaan. In het al genoemde onderzoek naar het verband tussen pil en depressie spraken de onderzoekers in het artikel keurig van een correlatie, maar in de discussie daarna gewoon van ‘ernstige bijwerkingen’.[30]
Welopgevoede onderzoekers
Het onderzoek naar spinnen staat nog in de kinderschoenen, maar het staat inmiddels wel buiten kijf dat spinnen gebeurt, dat het op vrij grote schaal gebeurt, en dat het zowel de wetenschappelijke literatuur als de krantenberichten als de publieksopvattingen vervuilt. Betere opvoeding van peerreviewers, tijdschrift redacties, onderzoekers en persvoorlichters kan helpen, maar aangezien die al evenzeer in de kinderschoenen staat, is het voorlopig aan de rest van de wereld – de lezers en makers van tijdschriften en van kranten, de televisiekijkers en de twitteraars – op hun hoede te zijn. En kunnen gevestigde wetenschappers hun zelfbeeld alvast bijstellen.
Noten
- Veldkamp CL, Hartgerink CH, van Assen MA, Wicherts JM. Who believes in the storybook image of the scientist? Accountability in Research 2017;24:127–151, PMID 28001440.
- Schwartz LM, Woloshin S. On the prevention and treatment of exaggeration. Journal of General Internal Medicine 2003;18:153–154, PMID 12542591.
- Boutron I, Dutton S, Ravaud P, Altman DG. Reporting and interpretation of randomized controlled trials with statistically nonsignificant results for primary outcomes. JAMA 2010;303:2058–2064, PMID 20501928.
- Nascimento DP, Costa LOP, …, Moseley AM. Abstracts of low back pain trials are poorly reported and inconsistent with the full text: an overview study. Archives of Physical Medicine and Rehabilitation 2019:1976-1985.e18, PMID 31207219.
- Boutron I, Ravaud P. Misrepresentation and distortion of research in biomedical literature. PNAS 2018;115:2613–2619, PMID 29531025.
- J. Wicherts: Matige, milde, en meedogenloze methoden. Tilburg: 2017.
- John LK, Loewenstein G, Prelec D. Measuring the prevalence of questionable research practices with incentives for truth telling. Psychological Science 2012;23:524–532, PMID 22508865.
- Fanelli D. How many scientists fabricate and falsify research? A systematic review and meta-analysis of survey data. PLoS One 2009 ;4:e5738, PMID 19478950.
- Desbiens NA. Lessons learned from attempts to establish the blind in placebo-controlled trials of zinc for the common cold. Annals of Internal Medicine 2000;133:302–303, PMID 10929173.
- Wu T, Li Y, …, Moher D. Randomized trials published in some Chinese journals: how many are randomized? Trials 2009;10:46, PMID 19573242.
- Estruch R1, Ros E, Salas-Salvadó J, e.a. Primary prevention of cardiovascular disease with a Mediterranean diet. NEJM 2013;368:1279-1290, PMID 23432189. [Retracted en republished na correcties]
- Gautret P, Lagier JC, …, Raoult D. Hydroxychloroquine and azithromycin as a treatment of COVID-19: results of an open-label non-randomized clinical trial. International Journal of Antimicrobial Agents, 20 maart 2020, PMID 32205204.
- Gigerenzer G, Gaissmaier W, …, Wolo shin S. Helping doctors and patients make sense of health statistics. Psychological Science in the Public Interest 2007;8:53–96, PMID 26161749.
- Skovlund CW, Mørch LS, Kessing LV, Lidegaard Ø. Association of hormonal contraception with depression. JAMA Psychiatry 2016;73:1154–1162, PMID 27680324.
- Redei EE, Andrus BM, …, Mohr DC. Blood transcriptomic biomarkers in adult primary care patients with major depressive disorder undergoing cognitive behavioral therapy. Translational Psychiatry 2014;4:e442, PMID 25226551.
- Pitkin RM, Branagan MA, Burmeister LF. Accuracy of data in abstracts of published research articles. JAMA 1999;281:1110–1111, PMID 10188662.
- Gøtzsche PC. Believability of relative risks and odds ratios in abstracts: cross sectional study. BMJ 2006;333:231–234, PMID 16854948.
- Bakker M, Wicherts JM. The (mis)reporting of statistical results in psychology journals. Behavior Research Methods 2011;43:666–678, PMID 21494917.
- Cole GD, Shun-Shin MJ, …, Francis DP. Frequency of discrepancies in retracted clinical trial reports versus unretracted reports: blinded case-control study. International Journal of Epidemiology 2015;44:862–869, PMID 26387520.
- Pearson H. Image manipulation: CSI: cell biology. Nature 2005;434:952–953, PMID 15846316.
- Goodman NW: Paradigm, parameter, paralysis of mind. BMJ 1993;307:1627–1629, PMID 8292964.
- Vinkers CH, Tijdink JK, Otte WM. Use of positive and negative words in scientific PubMed abstracts between 1974 and 2014: retrospective analysis. BMJ 2015;351:h6467, PMID 26668206.
- Aune D, Lau R, …, Norat T. Dairy products and colorectal cancer risk: a systematic review and meta-analysis of cohort studies. Annals of Oncology 2012;23:37–45, PMID 21617020.
- Ioannidis JPA. The challenge of reforming nutritional epidemiologic research. JAMA 2018;320:969–970, PMID 30422271.
- Boutron I, Altman DG, …, Ravaud P. Impact of spin in the abstracts of articles reporting results of randomized controlled trials in the field of cancer: the SPIIN randomized controlled trial. Journal of Clinical Oncology 2014;32:4120–4126, PMID 25403215.
- Boutron I, Haneef R, …, Ravaud P. Three randomized controlled trials evaluating the impact of ‘spin’ in health news stories reporting studies of pharmacologic treatments on patients’/caregivers’ interpretation of treatment benefit. BMC Medicine 2019;17:105, PMID 31159786.
- Yavchitz A, Boutron I, …, Mantz J. Misrepresentation of randomized controlled trials in press releases and news coverage: a cohort study. PLoS Medicine 2012;9:e1001308, PMID 22984354.
- Furedi A. The public health implications of the 1995 ‘pill scare’. Human Reproduction Update 1999;5:621–626, PMID 10652971.
- Matthews A, Herrett E, …, Bhaskaran K. Impact of statin related media coverage on use of statins: interrupted time series analysis with UK primary care data. BMJ 2016;353:i3283, PMID 27353418.
- www.bmj.com/content/354/bmj.i5289/rapid-responses.