ChatGPT als bullshitbron

Hoewel ChatGPT en vergelijkbare AI-tools een broertje dood hebben aan de waarheid, gebruiken steeds meer mensen ze als handige vraagbaak. Daardoor dreigt misinformatie binnen te dringen bij bedrijven, overheidsinstanties en scholen. Experts dringen erop aan om burgers meer ‘kritische AI-geletterdheid’ bij te brengen.

door Enith Vlooswijk – Skepter 37.3 (2024)

Vraag ChatGPT waarom wetenschapsjournalist Enith Vlooswijk een been mist, en een mogelijk antwoord luidt dat bovengetekende haar been in 2014 moest laten amputeren door een zeldzame vorm van botkanker. Het antwoord is welbespraakt, maar ook volledig uit de digitale duim gezogen. De auteur van dit stuk, Enith Vlooswijk, heeft immers twee gezonde benen. Onder de motorkap houdt de kunstmatige intelligentie achter het programma geen rekening met wat waar is, en wat niet. Toch winnen uitspraken van de chatbot aan invloed in het publieke discours. De gebruikelijke hoogoplopende discussies op Facebook of X worden bijvoorbeeld steeds vaker vervuild met screenshots van discutabele ChatGPT-antwoorden.

AI Overview, een vergelijkbare tool waarmee Google zoekodrachten sinds kort beantwoordt, bleek ‘een steen per week’ aan te raden op de vraag, hoeveel stenen gezond voor je zijn. En de Amerikaanse advocaat Steven Schwartz haalde wereldwijde krantenkoppen toen hij in 2023 door ChatGPT in de problemen kwam: ter verdediging van een klant kwam hij op de proppen met zes vergelijkbare rechtszaken uit het verleden – stuk voor stuk verzonnen door de chatbot. Hoewel de chatbot inmiddels bekendstaat om zijn leugenachtige reputatie, inventariseren allerlei sectoren momenteel hoe ze met behulp van ChatGPT en vergelijkbare AItools (Gemini, Bard, Bing Chat) sneller, effici.nter en eenvoudiger kunnen werken. Ook onder studenten zijn de tools razend populair. Hoe is te voorkomen dat misinformatie van deze zogenaamde large language models binnen de kortste keren onze samenleving ontregelt?

Razendsnelle bullshitter

Niet alle informatie die ChatGPT tevoorschijn tovert is onzin. De antwoorden die het zelflerende large language model genereert zijn vaak ook behoorlijk accuraat. Vraag bijvoorbeeld naar de maximumsnelheid op Nederlandse wegen, en de respons komt overeen met de stand van zaken anno 2024. Is het niet gewoon een kwestie van tijd, voordat de chatbot en vergelijkbare AI-tools ook het verschil tussen feit en fictie weten te maken? Vooralsnog zit de aard van het model echte waarheidsvinding in de weg, zegt Antal van den Bosch, hoogleraar Taal, Communicatie en Computatie aan de Universiteit Utrecht. ‘ChatGPT is een volgendewoordvoorspeller.

Het systeem genereert tekst die past bij wat het daarvoor heeft gezegd en bij wat de gebruiker aan input heeft gegeven. Maar er is geen enkel moment waarop het die tekst tegen iets anders afzet en hij toetst zeker niet op waarheid.’ Het model ‘weet’ alleen welke woordcombinaties een bepaalde statistische samenhang vertonen. Die samenhang heeft het geleerd op basis van talloze teksten, bijeengeschraapt op het internet. Het werkt ongeveer zoals wanneer je woorden intikt voor een berichtje op je smartphone, waarna AI behulpzaam volgende woorden suggereert. ‘Heb je zin in een lekker kopje…’ levert de suggestie ‘koffie’ op. Het model weet immers dat het woord ‘koffie’ vaak volgt op de woorden ‘lekker kopje’. Dat zorgt er tegelijkertijd voor, dat dezelfde suggestie, ‘koffie’, volgt in de zin ‘Mijn kat geeft een kopje…’

Het model heeft immers geen enkel besef van betekenis. De term ‘hallucinatie’, het woord waarmee misinformatie van ChatGPT wordt aangeduid, slaat de plank dan ook eigenlijk mis: die typering suggereert een tijdelijke afwijking van het gezonde verstand – en laat het model gezond verstand nu juist compleet ontberen. Veel treffender zou het zijn om te spreken van ‘bullshitting’, opperden drie onderzoekers van de University of Glasgow onlangs in het blad Ethics and Information Technology. Het model produceert zinnen, zonder zich om de waarheid te bekommeren. Soms levert dat kloppende informatie op, soms niet.

AI als AI-onzinchecker

Algoritmes zijn ook te trainen om nepnieuws te herkennen. Het bedrijf Meta maakt hiervan gebruik om dubieuze berichten op zijn site Facebook te filteren. Helaas zijn zulke technologie.n niet zo makkelijk in te zetten om uitglijders van ChatGPT te voorkomen, legt Van den Bosch uit. Hij noemt als voorbeeld het zogeheten BERT-systeem, een afkorting voor Bidirectional Encoder Representations for Transformers. Van den Bosch: ‘Dat systeem train je eerst om alle relaties tussen relevante woorden binnen een document te herkennen. Daarna laat je BERT nieuwe documenten zien. Een deel daarvan is gelabeld als ‘misinformatie’ en een deel klopt gewoon. Zo kun je hem zo veel mogelijk voorbeelden geven.’ Bij voldoende training kan BERT redelijk goed de misinformatie uit de teksten pikken, alleen gaat het systeem onderuit als het wordt losgelaten op een ander genre (zeg, een mail in plaats van een facebookbericht), of als het soort nepnieuws na een tijdje verandert. Op dat moment kun je weer helemaal opnieuw beginnen.

Een andere technische oplossing die Van den Bosch oppert, is wat algemener van aard. ‘Het heet Retrieval Augmented Generation, RAG. Dat is een combinatie van ChatGPT met zoekmachines die we kennen. Stel, iemand vraagt naar iets. Dan kan de chatbot een antwoord genereren met verwijzingen naar de pagina’s die hij vond op internet.’ Ook nu al geeft de chatbot vaak links naar relevante webpagina’s. Het probleem is echter dat het antwoord niet automatisch inhoudelijk strookt met die websites. De chatbot weet namelijk wel waar hij zijn woordcombinaties vindt, maar niet wat die woordcombinaties precies betekenen. Het vergt menselijk zoekwerk om dat te toetsen. De antwoorden van de chatbot zijn niet uitsluitend afhankelijk van de teksten die erin gaan. OpenAI traint het model ook door grote aantallen mensen bepaalde soorten antwoorden te laten labelen als al dan niet ‘wenselijk’. Deze vangrails moeten voorkomen dat ChatGPT uit de bocht vliegt met seksistische en racistische antwoorden.

Dat klinkt prettig, maar brengt ook nadelen met zich mee, zegt Eug.ne Loos, onderzoeker mediawijsheid van de Universiteit Utrecht. Niemand weet immers wie de vangrails op welke manier beheert, terwijl die een belangrijke sturende invloed kunnen uitoefenen op de gebruikers. Hij verwijst naar een Zwitsers onderzoek naar de antwoorden van chatbots Bard (Google), ChatGPT en Bing Chat (Microsoft) op voor Rusland politiek gevoelige vragen. Daaruit blijkt onder meer, dat vooral Bard vragen over Poetin consequent weigert te antwoorden, wanneer die in het Russisch worden gesteld. Ook leek de chatbot dezelfde censuurregels te volgen die eerder via de Russische zoekmachine Yandex uitlekten. ‘Het lijkt er dus op dat er contact is geweest tussen Google en de Russische staat’, zegt Loos. ‘Dat is heel erg, maar we weten niet of er ook zulk contact is geweest met de Nederlandse staat, of andere westerse landen. We weten sowieso niet welk wereldbeeld er subtiel schuilgaat achter de antwoorden.’

Deze vangrails moeten
voorkomen dat ChatGPT
uit de bocht vliegt

Regels en wetten

Als technologische oplossingen niet voldoen, zijn er altijd nog regels en wetten. Met een AI-verordening dwingt de Europese Unie aanbieders van generatieve AI-systemen tot meer transparantie. Terecht, vindt onderzoeker Bo Hijstek van het Rathenau Instituut, maar ze tempert direct de verwachtingen. ‘Hoe dit werkt, moet nog blijken in de praktijk. Developers weten zelf niet eens altijd hoe de systemen precies werken, waardoor het moeilijk wordt veiligheidsrisico’s in te schatten en te controleren.’ Bovendien, zegt Hijstek, worden er al standaarden opgesteld, maar dan moet nog blijken hoe bedrijven zich eraan gaan houden. ‘Techbedrijven krijgen bijvoorbeeld ieder jaar meer en grotere boetes voor het schenden van privacy- en mededingingswetgeving, maar die valt in het niet bij de gigantische winst die ze maken met hun schadelijke businessmodellen – je kunt je dus afvragen of die sancties voldoende zijn.’ De vraag is volgens Hijstek bovendien, hoe de EU het gaat controleren. Het aantal AIbedrijven en -applicaties groeit gestaag en toezichthouders hebben maar beperkte capaciteit.

‘Is het niet gewoon
een kwestie van tijd
voordat de chatbot
het verschil tussen
feit en fictie maakt?’

Samenleving in spagaat

Terwijl technologen en beleidsmakers zich nog het hoofd breken over manieren om de schade van AI-chatbots te beperken, worstelt de samenleving nu al volop met de consequenties ervan. Moeten we het gebruik van ChatGPT-achtige tools ontmoedigen, of toch behoedzaam ons voordeel ermee doen? En is ontmoedigen nog wel mogelijk? Van 137 bevraagde gemeenten bleek driekwart al ChatGPT te gebruiken, aldus een steekproef van EenVandaag vorig jaar, terwijl demissionair staatssecretaris Koninkrijksrelaties en Digitalisering Alexandra van Huffelen dat eerder nog z. had afgeraden.

Onderwijsinstellingen bevinden zich in een vergelijkbare spagaat, vertelt Bram Enning, aanvoerder van NPuls, een landelijk innovatie- en digitaliseringsprogramma voor het vervolgonderwijs. ‘ChatGPT zat er wel een beetje aan te komen, maar dat het zo snel, goed en algemeen beschikbaar zou zijn, dat hadden we niet voorzien. Het lijkt een orakel dat altijd antwoord geeft.’ Veel studenten lustten er onmiddellijk pap van, maar docenten waren minder enthousiast. ‘Er was best wel wat onrust in het onderwijs’, zegt Enning. ‘Wat betekent dat voor ons, met name voor onze toetsing? Studenten laten ChatGPT tekst produceren en dan moet je achterhalen of iets zelf geschreven is, of met behulp van AI. Detectietools hiervoor zijn niet betrouwbaar.’

Terwijl de docenten niet zeker weten of de studenten de echte auteurs zijn van de ingeleverde opdrachten, is het niet vanzelfsprekend dat studenten het doorhebben als AI ze onzin voorschotelt. Dit vereist een behoorlijk kritische houding tegenover de uitkomsten, die niet alle studenten hebben. Verbieden of ontmoedigen heeft weinig nut meer, vinden de experts die Skepter spreekt. Het hek is al van de dam. ‘De techniek is er en gaat niet meer weg’, verwoordt Enning de communis opinio. Aangezien AI-tools onderdeel zullen gaan uitmaken van veel werkdomeinen, kunnen studenten er maar beter goed mee leren omgaan. ‘We moeten studenten bewust maken van de mogelijkheden, maar ook van de risico’s.’ Volgens Loos komt dat voor een belangrijk deel neer op het bijbrengen van een nieuw soort mediawijsheid. ‘Mediawijsheid leert je om een bron te checken op de zender: langs welk kanaal wordt het gestuurd? Wat is het belang van de zender?

Ook bij een AI-model moeten leerlingen beseffen wat voor bron dat is. En ze moeten zo veel mogelijk andere bronnen checken.’ Volwassenen moeten net zo goed leren dat ze te maken hebben met een niet-menselijke zender die fouten maakt. Workshops van maatschappelijke instanties, zoals ouderenverenigingen, kunnen onderwijzen dat een absurde vraag (‘Waarom heeft Enith Vlooswijk maar een been?’) haast altijd leidt tot een bevestigend antwoord: het model borduurt immers voort op de woorden die je invoert. ‘Je moet ten minste doorvragen naar onderbouwende bronnen’, zegt Loos hierover. Uiteraard is die methode ook niet waterdicht. Gevraagd om bronnen voor de claim, dat Enith Vlooswijk een been heeft verloren, komt ChatGPT met de website van ondergetekende en het MD Anderson Cancer Center. Ik zou bijna gaan twijfelen aan mijn tweebenigheid.

  • E. Loos en J. Radicke: ChatGPT-3 as a writing tool: an educational assistant or a moral hazard? Current ChatGPT-3 media representations compared to Plato’s critical stance on writing in Phaedrus. AI and Ethics 2024;4.
  • F. Ferrari, J. Van Dijck, A. Van den Bosch: Foundation models and the privatization of public knowledge. Nature Machine Intelligence 2023:5;818.
  • K.M. Caramancion: News Verifiers Showdown: A Comparative Performance Evaluation of ChatGPT 3.5, ChatGPT 4.0, Bing AI, and Bard in News Fact-Checking, IEEE Future Networks World Forum (FNWF) 2023.
  • A. Urman, M. Makhortykh: Cross-Lingual Analysis of Political Bias and False Information Prevalence in ChatGPT, Google Bard, and Bing Chat. OSF Preprint 2023.
  • I. Van Rooij: Stop feeding the hype and start resisting. Persoonlijk blog, 2024.

 Uit: Skepter 37.3 (2024)

Vond u dit artikel interessant? Overweeg dan eens om Skepsis te steunen door donateur te worden of een abonnement op Skepter te nemen.

Steun Skepsis