AI verzint én bestrijdt beeldfraude in de wetenschap

AI-tools kunnen razendsnel wetenschappelijke artikelen scannen op dubbel gebruikte foto’s, waardoor aanrommelende onderzoekers sneller door de mand vallen. Tegelijkertijd is het kinderspel geworden om unieke realistische nepafbeeldingen te maken. Gaat AI de wetenschappelijke publicatiewereld een dienst bewijzen of vooral last bezorgen?

door Anouk Broersma – Skepter 37.3 (2024)

ZEVEN teruggetrokken publicaties en nog eens dertig artikelen waar de correctiestift doorheen gaat. Dat is het tussentijdse resultaat van een intern onderzoek van het Amerikaanse Dana Farber Kankerinstitut (DFCI), verbonden aan Harvard Universiteit.

Het balletje kwam aan het rollen nadat de Britse onafhankelijke fraudedetective Sholto David in januari blogde over geknoei met afbeeldingen in talloze artikelen van DFCI-onderzoekers. De auteurs hadden bijvoorbeeld stukjes uit plaatjes van eiwitanalyses of celweefsel gekopieerd en geplakt alsof het uit een ander experiment of meetmoment kwam. Dat ontdekte David niet in z’n eentje: hij kreeg hulp van andere speurders én van een Al-tool die artikelen in luttele seconden kan scannen op duplicaatbeelden.

Ondertussen kunnen moedwillig frauderende onderzoekers met generatieve Al als Midjourney prachtige nepplaatjes maken. Geef zo’n Al-programma de juiste prompt, oftewel een opdracht, en hij werpt een plaatje uit waarvan nergens een exacte kopie te vinden is.

Toch zijn die unieke plaaties soms wel héél uniek. In februari dook in open access tijdschrift Frontiers in Cell and Developmental Biology een opvallend groot geschapen rat op, met flink grotere ballen en penis dan het beestje zelf. Rondom de afbeelding stond abracadabra als senctolic stem cells, retat en iollotte sserotgomar cell. De rat was een vermakelijk en opzichtig voorbeeld van ‘hallucineren’, het fenomeen  waarbij Al van alles bij elkaar verzint. Het is een raadsel dat het door de redactie kwam, maar er vielen zoveel lezers van hun stoel van verbazing dat Frontiers het artikel na drie dagen terugtrok. Maar wat als een wetenschapper besluit beter zijn best te doen en prompts schrijft die realistische afbeeldingen van fictieve onderzoeksdata oplevert? Zie dan fraude maar eens te bewijzen, of zelfs maar te vermoeden. De nieuwste Al-ontwikkelingen kunnen dus zowel een vloek als een zegen worden voor de wetenschappelijke publicatiewereld.

De Dana Farbercasus is niet de eerste waarin David Al gebruikte om nepbeelden op te sporen. Hij kreeg vorig jaar al veel media-aandacht met een preprint waarin hij beschreef hoe hij met behulp van een Al-tool 715 artikelen uit Toxicology Reports doorploegde. In totaal zaten in 115 van die artikelen dubieuze duplicaatafbeeldingen, waarvan de software er 41 uit had gepikt die David had gemist.

De specifieke tool die David gebruikt heet ImageTwin. Het kan flinke tijdwinst opleveren, vertelt de Brit aan de telefoon. Daarna is een grote plus dat ImageTwin ook tussen artikelen vergelijkt, waarvoor het programma put uit een grote database aan open access artikelen.

Ook de Nederlandse beelddetective Elisabeth Bik maakt om die redenen dankbaar gebruik van Imagelwin. Vanuit Amerika, waar ze woont, geeft ze via Zoom een korte demonstratie: ze sleept binnen het programma een artikel naar een map en klikt op een knop om te starten met scannen. ‘Als het goed is, geeft deze dadelijk een hit.’ Binnen tien seconden zijn de resultaten binnen, en inderdaad: op pagina zes van de twaalf staan twee afbeeldingen met een rood vierkantje eromheen. Ze blijken ook voor te komen in een artikel van een andere auteur en dat mag dus niet.

‘Ik ben bezig met een set waarvan elk artikel met één of twee foto’s een hit heeft met een ander artikel. Het is als een haarbal: je trekt aan één haar en je krijgt weer een andere. Ik heb nu dertig artikelen die met elkaar overlappen. Het is volgens Bik een teken dat ze uit dezeifde paper mill komen, een massaproductiebedrijf dat artikeien verkoopt aan wetenschappers die zelf geen tijd of zin hebben om in de spreekwoordelijke pen te klimmen.

De Al-speurneus is nog niet in alle situaties het ideale hulpje. Hij werkt goed bij afbeeldingen met rijke details, zoals celweefsel, ervaren zowel Bik als David. Maar bijvoorbeeld met western blots, de techniek voor eiwitanalyses, heeft de tool meer moeite.

In die beelden van donkere streepjes tegen een lichte achtergrond zit niet genoeg variatie, waardoor de software onnodig vaak alarm slaat. Een ouderwetse controle met de ogen blijft dus nodig.  Proofik, de belangrijkste concurrent van ImageTwin, is volgens Bik iets accurater, maar ook langzamer. ‘Ik ben grootverbruiker, ik bekijk soms wel vijftig of honderd op een dag. Dus voor mij is snelheid heel belangrijk.’

Waarschuwingssignalen

VanBik heeft nu nog haar handen vol aan artikelen van voor het generatieve Al-tijdperk, maar vreest dat haar speurwerk in de toekomst een stuk moeilijker wordt. In het begin grinnikten we nog over extra vingers of gekke oren in Al-afbeeldingen, maar programma’s als Midjourney worden steeds beter. In theorie kun je allerlei nepafbeeldingen en tabellen maken van experimenten die nooit plaatsvonden.

Bik denkt dat dat soort dingen al gebeuren. In 2020 vonden zij en collegaspeurders in een reeks van ruim vierhonderd paper mill-artikelen plaatjes waarvan ze vermoedden dat een primitieve vorm van AI was gebruikt. De western blotstroken zagen er te perfect uit, en de textuur van de achtergrond was overal hetzelfde. Ook in andere soorten afbeeldingen vonden ze opvallende overeenkomsten in layout.

Ze konden niet bewijzen dat er generatieve Al was gebruikt, maar de reactie op hun onthullingen spreekt boekdelen, wat Bik betreft. ‘De artikelen worden nu teruggetrokken, en we hebben nooit te horen gekregen dat wij het fout hadden. Intussen blift de lijst gevonden beeldfraude-artikelen uit die paper mill oplopen, de teller staat op meer dan zeshonderd.

David vindt het moeilijk inschatten hoeveel invloed generatieve Al gaat hebben, maar wijst erop dat wetenschappers in zijn ervaring geen briljante beeldmanipulatoren zijn. ‘Mensen hadden met een beetje moeite geavanceerde nepafbeeldingen kunnen genereren met Photoshop, zonder enige vorm van AI. Maar auteurs hebben de neiging geen ingewikkelde dingen te doen als ze fouten maken of, erger nog, dingen verzinnen.’

Het probleem is natuurlijk: als iemand het moedwillig écht goed uitvoert, zul je dat nooit weten. Tools om Al-gegenereerd beeld te herkennen, zijn er nog niet. Dus het is zaak om nog beter op andere waarschuwingssignalen te letten. Een nieuwkomer die ineens dagelijks artikelen publiceert, een auteursgroep waar geen enkele senioronderzoeker bij zit of een medische studie van iemand die in een ziekenhuis zonder onderzoeksfaciliteiten werkt: allemaal omstandigheden waar je je volgens Bik vragen bij moet stellen. Maar, voegt ze toe, uiteindelijk moeten we richting een systeem waarin het draait om reproduceren. Oftewel, een onderzoeksresultaat telt pas echt mee als een andere groep het experiment opnieuw uitvoert en dezelfde resultaten krijgt.

Ondertussen is er volgens David ook een risico op verkeerd gebruik van Al-tools als Imagelwin en Proofik. Verschillende wetenschappelijke tijdschriften gebruiken zulke tools al. Zo maakte Science in januari bekend voortaan alle artikelen voor publicatie te scannen met Proofik.

Dat klinkt als een goed plan, maar niet als tijdschriften problematische afbeeldingen simpelweg laten vervangen en alsnog publiceren. David: ‘De reden dat een afbeelding is gekopieerd of verkeerd gelabeld gaat dieper dan de artikelfase. Als je niet onderzoekt waar het mis ging en de auteurs geen serieuze consequenties ervaren, leert niemand er iets van.’

En de buitenwereld die het opgepoetste artikel krijgt te zien, zal minder snel onraad ruiken. ‘Als deze hulpmiddelen op een niet-transparante manier worden gebruikt om zaken op te ruimen in plaats van daadwerkelijk goede artikelen te schrijven, kan het de zaken erger maken.’

Wat David betreft blijven de tools dus vooral nuttig om problemen na publicatie op te sporen. Dan is voor iedereen duidelijk wie de boel verprutst.

Uit: Skepter 37.3 (2024)

 

 

Vond u dit artikel interessant? Overweeg dan eens om Skepsis te steunen door donateur te worden of een abonnement op Skepter te nemen.

Steun Skepsis