Voor verbetering vatbaar
Boekbespreking: Rigor Mortis
door Arno van ’t Hoog – Skepter 30.3 (2017)
OP geen enkel punt in zijn analyse van biomedisch onderzoek wordt de Amerikaanse wetenschapsjournalist Richard Harris zwartgallig. Rigor mortis vertelt een boeiend verhaal over de methodologische en menselijke tekortkomingen die modern medisch onderzoek maken tot wat het is.
Richard Harris geeft tientallen concrete voorbeelden en interviewde talloze wetenschappers die vaak heel open vertellen over hun praktijkervaring. Zo was Glenn Begley hoofd van het kankeronderzoek bij biotechbedrijf Amgen, waar zijn teamleden doorlopend probeerden interessante inzichten van academische labs te reproduceren, op zoek naar nieuwe kankertherapieën. Meestal lukte dat van geen kant. Toen hij van baan veranderde, publiceerde Begley over het lot van 53 academische artikelen die in de ogen van velen een doorbraak brachten. Bij slechts 6 lukte het om het resultaat te reproduceren. En zelfs als de hulp van de oorspronkelijke wetenschappers werd ingeroepen en ze te gast bij Amgen cruciale experimenten zelf deden, bleef herhaling vrijwel altijd uit. Amgens concurrent Bayer komt tot een iets optimistischer schatting, met een reproductiesucces van 25 procent.
Betrouwbare systematische analyses van dit fenomeen zijn er niet. Sommige wetenschappers wagen zich wel aan een kwantificering van oorzaken, laat Harris zien. Zo zou 20 procent van de studies een verkeerde methodologische opzet hebben, 25 procent gebruikt dubieuze ingrediënten, zoals cellijnen die in de loop der jaren zijn verwisseld. Tot slot is bij 18 procent van de papers sprake van data-mishandeling of statistisch ongeoorloofde conclusies.
Opgeteld is minstens de helft van het preklinisch onderzoek onbetrouwbaar. Anderen zijn nog pessimistischer: er zijn zoveel bronnen van bias bij onderzoeken en zoveel onzekerheden in de metingen, dat mogelijkerwijs maar 15 procent van alle gepubliceerde inzichten correct is, en vaak zal het effect kleiner zijn dan het oorspronkelijke artikel rapporteert.
Harris is niet de eerste die wijst op een ‘reproductiecrisis’ in de medische wetenschap. Velen kennen inmiddels John Ioannidis, die met een provocerend essay uit 2005, ‘Why most research findings are false’, de discussie opende. Harris’ aanpak is veel interessanter, omdat hij meer hoofdpijndossiers uitgraaft, zoals cellijnen, diermodellen, wetenschapsfinanciering, redactioneel beleid van tijdschriften, competities en carrières.
Een eenvoudig voorbeeld zijn muizenstudies: die omvatten vaak te weinig dieren, en onderzoekers weten, tegen de regels in, soms welke muis de werkzame stof krijgt en welke een placebo. Maar er zijn ook minder makkelijk te corrigeren zaken die de boel in de war schoppen, zoals subtiele verschillen in apparatuur die labs gebruiken om bijvoorbeeld bloedeiwitten te meten. Er zijn onderzoekers geweest die lang dachten een interessant verschil te zien tussen patiënten en controles, tot het bleek te liggen aan het type reageerbuis dat bij bloedafname werd gebruikt.
Je kunt verzuchten: wat een verspilling van tijd, geld en talent. Er is zelfs een onderzoeker die er een prijskaartje — 28 miljard dollar perjaar — aan hangt. Maar, laat Harris zien, belangrijker is dat het talloze mensen letterlijk schaadt. Bijvoorbeeld patiënten met kanker of ALS die hoop op genezing krijgen voorgespiegeld op basis van gemankeerd labwerk en muizenproeven. Patiënten krijgen soms een onwerkzaam experimenteel middel toegediend, al dan niet met ernstige bijwerkingen.
Opgesomd klinkt dit misschien als de grafrede voor de biomedische wetenschap, maar Harris toont diverse oplossingen, die al deels in praktijk worden gebracht. Laten we niet vergeten dat klinisch onderzoek met mensen al een enorme kwaliteitsverbetering heeft doorgemaakt, schrijft hij. En steeds meer labexperimenten worden statistisch beter doordacht. Tijdschriften eisen nauwkeuriger beschrijving van reagentia en experimentele protocollen, preregistratie van hypotheses en goede randomisatie van dierproeven.
Maar verandering gaat traag, laat Rigor mortis ook zien. Het zelfcorrigerend vermogen van de wetenschap is niet perfect: er wordt nog altijd enthousiast gepubliceerd over cellijnen die al jaren geleden zijn ontmaskerd. En een methodologisch solide dierproef vreet onderzoeksbudget, omdat er veel meer dieren nodig zijn — hetgeen ook weer zijn eigen ethische problemen met zich meebrengt. En vergeet het persoonlijke niet: veel wetenschappers voelen een herhalingsexperiment als een directe aanval, en als een collega aantoont dat je op een doodlopend spoor zit is, dan is dat een hard gelag.
Rigor mortis betrekt ook die persoonlijke belangen erbij, belangen die naast methodologie en statistiek een grote rol spelen in de voortgang van de wetenschap. Dat maakt Harris’ boek tot prettig leesvoer, met meer compassie dan de sensationele titel misschien doet vermoeden. Zijn boek geeft breed inzicht in de aard van het biomedisch wetenschapsbedrijf. Met als belangrijkste boodschap dat het uitvoeren van goed onderzoek verdomd lastig is.
Uit uw boek blijkt dat de biomedische wetenschap haar reproduceerbaarheid dramatisch kan verbeteren, maar dat het publiek tegelijkertijd ook weer niet te veel van wetenschap moet verwachten.
Ik beschouw dat niet als een paradox. Wetenschap zal altijd voorlopige antwoorden blijven geven. Het publiek moet gewoon niet te hoge verwachtingen koesteren van een bepaald resultaat, en inzien dat de waarheid pas na verloop van tijd aan de oppervlakte komt. Als je accepteert dat ongeveer de helft van de gepubliceerde biomedische studies het bij het verkeerde eind heeft of misleidend is, dan is het duidelijk dat er veel ruimte is voor verbetering. Eenvoudige methodologische richtlijnen kunnen de foutenmarge beperken, maar dan nog zullen er heel wat misleidende ontdekkingen worden gerapporteerd. We moeten dus geen volmaaktheid verwachten; het blijft verstandig om nieuwe resultaten voorzichtig te benaderen.
Media benadrukken vaak onverwachte en verrassende ontdekkingen, terwijl replicatie en reviews minder aandacht krijgen. Kiezen journalisten de juiste verhalen en onderwerpen?
Het publiek is ermee gediend als journalisten minder ‘doorbraken’ zouden uitlichten, en meer tijd besteedden aan de bredere context van wetenschappelijk bewijs. Journalistiek wordt natuurlijk gedreven door nieuws, dus wij hebben de neiging te zoeken naar het nieuwe en verrassende, in plaats van de ontwikkeling van de grotere body of evidence. Het is ook veel makkelijker om snelle artikelen te maken, vooral door de grenzeloze honger naar verhalen.
Het hoofddoel van de journalistiek is het brengen van bruikbare informatie. Dat is een van de redenen waarom we de neiging hebben resultaten en impact van een studie te overdrijven. Het publiek heeft meer aan een beter begrip van hoe wetenschap als proces werkt. Verhalen daarover zijn dus gewenst, maar we moeten ook onder ogen zien dat het publiek meer wil dan alleen dat.
Muizenonderzoek heeft een beroerde reputatie. Zouden media helemaal moeten stoppen met het brengen van baanbrekende muistherapieën?
Ik breng zelden een verhaal gebaseerd op muizenonderzoek, en ik zou dat als algemeen advies willen geven. Zulke studies spelen een belangrijke rol in de wetenschap, omdat ze kunnen leiden tot bruikbare nieuwe ideeën. Maar omdat de overgrote meerderheid van die ideeën niet blijkt te werken, denk ik dat verhalen daarover meestal valse hoop wekken. Natuurlijk is het mogelijk om een verhaal te maken met knaagdieren erin, waarin de schrijver meer vertelt over onderzoek en over de manier waarop wetenschappers ideeën testen. Helaas doen te weinig journalisten dat.
Bij big data en vakgebieden als genomica en proteomica is het voor journalisten onmogelijk om de inhoud en statistiek van publicaties te verifiëren. Een second opinion van andere deskundigen is daarvoor in de plaats gekomen. Denk jij dat journalisten in staat zijn om als onafhankelijke partij de biomedische wetenschap te verslaan? Veel papers doorlopen peerreview en blijken uiteindelijk toch een compleet verkeerde conclusie te trekken. Als wetenschappers in het vakgebied die fatale fouten er niet uithalen, waarom zouden we dan verwachten dat journalisten dat wel kunnen? Zelfs een ervaren journalist zal waarschijnlijk niet zien dat een studie de verkeerde statistische test gebruikt of een gemankeerde opzet heeft. Journalisten moeten vooral bescheiden blijven, wetende dat veel onderzoek de tand des tijds niet doorstaat. Don’t oversell a new result. Wetenschapsjournalisten zijn bedreven in het zoeken van een second opinion over een nieuwe publicatie, en eerlijk gezegd kun je niet meer verwachten.
Heeft u nog advies voor mediaconsumenten, over hoe ze wetenschap en wetenschapsnieuws kunnen waarderen? Moeten ze cynischer, sceptischer of geleerder worden?
Sceptisch en geleerd zeker, maar niet cynisch. Ik zou het goed vinden als het publiek na een bericht denkt: ‘Dat klinkt interessant. Ik ga over een tijd nog eens kijken om te zien of dat idee correct blijkt te zijn.’ Journalisten zouden meer tijd moeten steken in follow-ups van eerdere verhalen. Dat is een eenvoudige manier om het publiek te leren hoe wetenschap echt werkt.
Richard Harris: Rigor mortis. How sloppy science creates worthless cures, crushes hope, and wastes. New York: Basic Books, 2017.