23 Maart 2025

Waarom GPT Niet Zoals Mensen Kan Redeneren

In een studie van AI- en taalexperts Martha Lewis van de Universiteit van Amsterdam en Melanie Mitchell van het Santa Fe Institute werd de capaciteit van GPT-4 om analogieën te begrijpen getest in vergelijking met menselijke prestaties. Analogisch redeneren – het vermogen om vergelijkingen te maken tussen verschillende dingen op basis van gedeelde overeenkomsten – is een cruciale manier waarop mensen de wereld begrijpen. Bijvoorbeeld: "Kop is voor koffie zoals soep is voor ???"

Hoewel GPT-4 goed presteert in standaard analogie-taken, bleek uit de studie dat het model moeite had wanneer de problemen licht werden aangepast. In tegenstelling tot mensen, die hun prestaties consistent hielden ondanks variaties in de analogieën, daalden de resultaten van GPT-4.

De Gebrek aan Flexibiliteit van GPT in Redeneren

De studie testte zowel AI- als menselijke prestaties op drie verschillende soorten analogieën:

Lettersequenties
Cijfer matrices
Verhaal-analogieën

GPT-4 presteerde goed op standaardtests, maar wanneer de problemen werden aangepast – zoals het veranderen van de positie van een ontbrekend cijfer of een lichte herformulering van een verhaal – daalde de prestaties van GPT-4 aanzienlijk. Mensen bleven echter consistent. Dit suggereert dat GPT-modellen niet over de flexibiliteit van menselijk redeneren beschikken en vaak afhankelijk zijn van patroonherkenning in plaats van echt begrip.

De Uitdagingen voor AI in Besluitvorming

Dit onderzoek toont aan dat AI-modellen zoals GPT-4 de analogieën die ze genereren niet echt "begrijpen". Hun redenering imiteert vaak patronen uit de trainingsdata in plaats van abstract begrip, wat een belangrijk kenmerk is van menselijke cognitie. De studie concludeert dat GPT-modellen zwakker zijn dan menselijke cognitie, vooral wanneer ze worden geconfronteerd met complexe redeneringstaken. Dit benadrukt de beperkingen van AI in kritieke besluitvormingsgebieden zoals gezondheidszorg, recht en onderwijs.

Dit is een belangrijke herinnering dat hoewel AI een krachtig hulpmiddel kan zijn, het nog niet in staat is om menselijk denken te vervangen in complexe, genuanceerde scenario’s.

Artikelgegevens:
Martha Lewis en Melanie Mitchell, 2025, ‘Evaluating the Robustness of Analogical Reasoning in Large Language Models’
Transactions on Machine Learning Research

Gepubliceerd door de UvA

Vergelijkbaar >

Vergelijkbare nieuwsitems

>Bekijk alle nieuwsitems >

9 september

Meertalige organisaties riskeren inconsistente AI-antwoorden >

AI-systemen geven niet altijd dezelfde antwoorden in verschillende talen. Uit onderzoek van CWI en partners blijkt dat Nederlandse multinationals hierdoor onbewust risico’s lopen, van HR tot klantenservice en strategische besluitvorming.

Lees meer >

9 september

Immuuntherapie effectiever maken met behulp van AI >

Onderzoekers van Sanquin hebben met een AI-methode de code ontrafeld die bepaalt hoeveel eiwit afweercellen produceren. Deze ontdekking kan immuuntherapie versterken en zo bijdragen aan betere kankerbehandelingen.

Lees meer >

9 september

ERC Starting Grant voor onderzoek naar gevolgen van AI op arbeidsmarkt en welvaartsstaat >

Politicoloog Juliana Chueri van de VU ontvangt een ERC Starting Grant voor haar onderzoek naar de politieke gevolgen van AI voor de arbeidsmarkt en de welvaartsstaat.

Lees meer >