Academici zien AI-programma ChatGPT als ideale schrijfhulp voor wetenschappelijke artikelen. Dat kan best, zij het op een verantwoorde manier. Maar onderzoekers steggelen over waar de grens ligt voor redelijk gebruik. Dilemma’s duiken op, zoals die van gemak en tijdbesparing versus het risico op plagiaat en hoge energiekosten.
door Jean-Paul Keulen – Skepter 37.3 (2024)
‘Certainly, here is a possible introduction for your topic.’
ZO luidt de eerste zin van een wetenschappelijk artikel dat onlangs verscheen in het wetenschappelijke tijdschrift Surfaces and Interfaces. Een duidelijker teken dat iemand een door ChatGPT geschreven tekst klakkeloos heeft overgenomen, is nauwelijks te bedenken.
Maar er zijn ook subtielere aanwijzingen dat iets een AI-schrijfsel is. Chatbots gebruiken bijvoorbeeld vaak het woord ‘delve’, en ook dat zie je terug in de wetenschappelijke literatuur. In artikelen die in 2020 werden geüpload naar de medische database PubMed komt ‘delve’ zo’n 350 keer voor, in artikelen uit 2023 bijna drieduizend keer, zo turfde het tijdschrift Scientific American. Een andere analyse claimt dat tot 17,5 procent van de recente wetenschappelijke artikelen over informatica sporen van AI-inbreng bevat. Ook de wetenschappers die geen typische chatbot-zinnetjes laten staan in hun publicaties, zetten dit soort programma’s dus in als schrijfhulp.
Sommige onderzoekers is dat een doorn in het oog. ‘Ik heb met verbazing en ontsteltenis gezien hoe mijn Nederlandse academische collega’s op de ChatGPT-bandwagon zijn gesprongen’, zegt Iris van Rooij, hoogleraar computationele cognitieve wetenschappen aan de Radboud Universiteit. ‘Ik vind dat wetenschappers tegenwicht moeten bieden aan de AI-hype, in plaats van de grote techbedrijven te laten infiltreren in het publieke domein en wetenschappelijke processen.’
Vriendelijk en plausibel
Ook taalwetenschapper Mark Dingemanse, van dezelfde universiteit, maakt zich zorgen. In verschillende stukken schrijft hij dat het gebruik van tekstgeneratoren als ChatGPT zich moeilijk laat rijmen met de kernwaarden die Nederlandse onderzoekers zouden moeten aanhangen volgens de gedragscode wetenschappelijke integriteit: eerlijkheid, zorgvuldigheid, transparantie, onafhankelijkheid en verantwoordelijkheid. Hebben ze een punt?
Om die vraag te kunnen beantwoorden, eerst een stap terug: wat doen ChatGPT, Gemini en vergelijkbare programma’s nu precies? Aan de buitenkant heb je als gebruiker te maken met een chatbot: je tikt iets in en krijgt een keurig geformuleerd antwoord, waar je dan weer op kunt reageren. Onder de motorkap van die chatfunctie zit een large language model; een groot taalmodel. Dat wil zeggen: een model dat is getraind op een enorme hoeveelheid teksten, zodat het op basis daarvan nieuwe teksten kan genereren. Om ervoor te zorgen dat zo’n chatbot niet al te schokkende of gekke dingen roept, is die vervolgens nog flink door testpersonen gefinetuned. Je krijgt als eindgebruiker dus een opgepoetste versie van waar het taalmodel op uitgekomen is, die vooral vriendelijk en plausibel moet klinken.
Dat ‘klinken’ is een sleutelwoord. Wat ChatGPT zegt, hoeft niet te kloppen, en in sommige gevallen is dat overduidelijk. Frank van Harmelen, hoogleraar kennisrepresentatie en redeneren aan de AI-afdeling van de Vrije Universiteit Amsterdam, geeft als voorbeeld: ‘Stel dat ik intik: ‘Geef mij de tien boeken van Frank van Harmelen.’ Dan krijg ik netjes tien boeken – ook al heb ik er maar zes geschreven. Die andere vier zijn dan bijvoorbeeld bestaande boeken waar ik als auteur bijgefrommeld ben, of boeken die niet bestaan, maar best een geloofwaardige titel hebben.’
Een wetenschapper die ChatGPT inzet, moet zich dus op zijn minst bewust zijn van het risico op zulke ‘hallucinaties’. Dat kan alleen best lastig zijn, zegt Max van Duijn, universitair docent kunstmatige intelligentie aan de Universiteit Leiden, doordat de chatbots van nu hun resultaten geven in vloeiende volzinnen die de indruk wekken dat je te maken hebt met iemand die heel goed weet waar-ie het over heeft. ‘Het zal even duren voordat we allemaal doorhebben dat welbespraaktheid en onzin uitkramen prima samen kunnen gaan.’ De gouden regel is dan, zegt Van Harmelen: ‘Gebruik ChatGPT alleen als je zelf in staat bent om de onzin van de waarheid te onderscheiden.’ En dus bijvoorbeeld niet om de gaten op te vullen in je kennis over een vakgebied waar je minder goed in thuis bent.
Een ander pijnpunt is plagiaat. De taalmodellen achter chatbots als ChatGPT werken dankzij enorme bergen op internet verzamelde data, waarbij geen acht is geslagen op wie wat geschreven heeft. ‘Geautomatiseerde plagiaatmachines’ noemt Van Rooij ze om die reden.
Als dus iemand een deels door ChatGPT geschreven wetenschappelijk artikel door Google haalt en de oorspronkelijke bron van een aantal zinnen terugvindt, kan dat de auteur van dat artikel zomaar op een beschuldiging van plagiaat komen te staan. Een redactioneel stuk in het American Journal of Obstetrics & Gynecology wijst daarom, heel pragmatisch, op programma’s zoals RewriteGuru, die van AI afkomstige teksten herschrijven, ‘om het risico op plagiaat te minimaliseren’. Maar alsnog geef je dan als wetenschapper natuurlijk de geestelijk moeders en vaders van de ideeën in je artikelen niet de credit die ze verdienen.
Van Harmelen geeft aan dit een lastige kwestie te vinden. ‘Plagiaat is geen binaire kwestie’, zegt hij. ‘Mijn hoofd is één grote plagiaatmachine. Ik lees honderden artikelen per jaar en gebruik daar allemaal stukjes kennis uit. En als ik dan zelf een inleiding van een artikel schrijf, kan ik ook niet zeggen: ‘Deze zin heb ik in januari daar-en-daar gelezen.’’ Het belangrijkste is, wat hem betreft, dat je als auteur altijd verantwoordelijk bent voor je tekst, of je die nu helemaal zelf hebt geschreven of samen met ChatGPT. ‘Als daar hele alinea’s in overgenomen zijn uit een andere bron, is het eigen schuld, dikke bult. Dan heb je aan plagiaat gedaan en kun je je niet verschuilen achter zo’n chatbot.’
Raadseltje
Dan is er nog het feit dat grote taalmodellen zich baseren op data waarin allerlei vooroordelen verscholen zitten. ‘Het gebruik van grote taalmodellen bij het schrijven van academische teksten zou die vooroordelen verder bevorderen, in plaats van ze aan te vechten, zoals goede wetenschappers zouden willen’, schrijft Van Rooij op haar website. Van Duijn onderschrijft dat die vooroordelen er zijn. Hij noemt het raadseltje waarin een jongen en zijn vader een auto-ongeluk krijgen. De vader overlijdt ter plekke, de jongen wordt naar het ziekenhuis gebracht – maar in de operatiekamer zegt de chirurg: ‘Ik kan deze patiënt niet opereren; het is mijn zoon!’ Hoe kan dat?
‘Dit raadseltje staat duizenden keren op internet, dus als je het aan een AI voorlegt, zal die het antwoord wel weten: de chirurg is de móéder van de jongen’, zegt Van Duijn. Maar als je de vraag herschrijft zodat het antwoord niet zomaar op het web te vinden is, verwacht hij, zal wel degelijk blijken dat in het betreffende taalmodel het vooroordeel ‘chirurgen zijn mannen’ zit ingebakken. Tegelijk, vervolgt hij, ís de meerderheid van de chirurgen op dit moment man. ‘Je kunt het zo’n model dan niet heel erg kwalijk nemen dat het daarvan uitgaat. Wel zijn wij als maatschappij hier iets van gaan vinden. In het onderwijs vertellen we meisjes bijvoorbeeld dat ze wel degelijk chirurg kunnen worden. Op een vergelijkbare manier kun je van de vooroordelen in zo’n taalmodel afkomen – maar dan moet je daar wel op inzetten.’
Spellingscontrole on steroids
ChatGPT heeft dus inderdaad zo zijn nadelen, waar je als wetenschapper goed mee om moet leren gaan. Maar het model kan wél het schrijven van een artikel een stuk makkelijker maken, zo hebben veel onderzoekers de afgelopen paar jaar ervaren.
Dingemanse ziet dat alleen niet als een voordeel, maar als een extra nadeel. ‘Voor wetenschappers staat schrijven – het worstelen met woorden – gelijk aan nadenken’, schrijft hij. ‘Als je het schrijfproces uitbesteedt, geef je dus ook het denken op.’
En elders: ‘Op termijn zullen velen afhankelijk worden van tekstgeneratoren om proza te stroomlijnen, programma’s te schrijven, en de gaten in hun kennis te dichten. De opwinding over de tijdwinst die dat oplevert, zal verbloemen dat hier in de basis sprake is van een verlies aan vaardigheden.’
Een terecht punt, zegt Van Harmelen. ‘Volgens mij worstelen we hier allemaal mee, en ik heb ook nog geen pasklaar antwoord. Tegen studenten zeggen we: als we je vragen om een stuk te schrijven, gaat het niet om dat stuk zelf. Het gaat om het proces van het leren schrijven. Als een student dat proces uitbesteedt aan ChatGPT, heeft-ie niks geleerd. Maar als je zo’n tool kritisch gebruikt, kan hij je juist helpen die vaardigheden sneller en beter te ontwikkelen.’
Cruciaal, zegt Van Harmelen, is dat je AI-tools in een ondersteunende rol gebruikt, niet in een vervangende. ‘Als je een chatbot de inleiding van je artikel laat schrijven en die copy-paste je simpelweg, ben je heel naïef, dom en onverantwoordelijk bezig. Maar je kunt zo’n chatbot ook een eigen stukje tekst geven en het Engels laten verbeteren, om daar vervolgens zelf mee verder te gaan. Dan is het meer een soort spellingscorrector on steroids.’
Los van dit soort overwegingen zijn er grote ethische vraagtekens te zetten bij het gebruik van de chatbots van techbedrijven als OpenAI (ChatGPT) en Google (Gemini). Om de vaart erin te houden, zijn daarvoor grote hoeveelheden data van internet gebruikt, zonder dat daar vooraf toestemming voor is gevraagd.
Ook heeft zowel het trainen van het taalmodel als het gebruik een flinke ecologische voetafdruk. Een vraag aan ChatGPT levert bijvoorbeeld zo’n zestig keer zoveel CO2-uitstoot op als een Google-zoekopdracht, schatte Wim Vanderbauwhende, informaticus aan de Universiteit van Glasgow, dit najaar. Tot slot gebeurt de fijnafstemming van de chatbot – zodat die mensen niet voor het hoofd stoot met zijn antwoorden – vaak in lagelonenlanden, tegen karige vergoedingen. ‘Ethisch en milieutechnisch is ChatGPT een onverantwoorde keuze’, zegt Van Duijn dan ook. ‘Eigenlijk is het een heel slecht idee dat universiteiten nu met dit soort modellen aan de slag gaan.’ Tegelijk snapt hij het ook wel: ‘Er zijn niet heel veel alternatieven en we zullen er toch mee moeten leren werken, want dit is de toekomst.’ (Hoe wetenschappers als Dingemanse en Van Rooij over dat laatste denken, laat zich raden.)
Eisen stellen
Nu wordt er wel gewerkt aan meer verantwoorde varianten. Het ministerie van Economische Zaken en Klimaat trok bijvoorbeeld afgelopen najaar 13,5 miljoen euro uit voor GPT NL, een ‘veilige, betrouwbare en open omgeving’ met ‘aandacht voor duurzaamheidsaspecten, zoals het energiegebruik van dit type AI’. Maar wordt zo’n taalmodel ooit net zo goed als een ChatGPT, dat zich niet gehinderd door scrupules voedt met veel grotere hoeveelheden data? ‘Nee, als je rechten serieus neemt, gaat dat met de huidige technologie ten koste van de kwaliteit en de flexibiliteit van het model’, zegt Van Duijn.
Wat weer de vraag oproept of wetenschappers wel gebruik gaan maken van zo’n alternatief. Nemen ze dan niet uiteindelijk toch hun toevlucht tot een minder ethische, beter werkende chatbot uit de commerciële hoek? ‘Die vraag probeer ik altijd een beetje te vermijden als het over dit onderwerp gaat’, lacht Van Duijn. ‘Maar ik denk dat dit inderdaad een probleem is dat we alleen met EU-regelgeving kunnen aanpakken. We komen niet van die big-tech-partijen af, maar we kunnen wel eisen stellen waar hun software aan moet voldoen.’
Van Harmelen sluit zich daarbij aan. ‘Het is echt nodig dat deze producten worden gereguleerd. Op het moment is het alsof een farmaceut een pil heeft bedacht waarvan we niet zeker weten wanneer-ie werkt en wanneer niet, maar we verkopen hem wel alvast aan 200 miljoen patiënten. Als we dat bij een medicijn niet accepteren, moeten we dat bij AI-chatbots ook niet doen.’