Apple-onderzoek legt pijnlijke zwakte bloot in AI: ‘Slimme’ modellen falen op simpele puzzels
Een recent gepubliceerde studie van Apple heeft voor opschudding gezorgd in de techwereld. Het onderzoek zet vraagtekens bij de veronderstelling dat grote taalmodellen (LLM’s) en hun nieuwste variant, de zogeheten large reasoning models (LRM’s), daadwerkelijk in staat zijn tot betrouwbaar redeneren. De reacties zijn verdeeld: sommige experts zijn geschokt, anderen voelen zich juist bevestigd. Durfinvesteerder Josh Wolfe omschreef het op X als volgt: “Apple heeft net de redeneringscapaciteiten van LLM’s ‘GaryMarcus’d’.” Daarmee introduceerde hij niet alleen een nieuw werkwoord, maar verwees hij ook naar het bekritiseren en ontkrachten van overdreven claims over kunstmatige intelligentie.
De kern van het Apple-onderzoek is dat vooraanstaande modellen zoals ChatGPT, Claude en Deepseek misschien wel slim lijken, maar instorten zodra de complexiteit toeneemt. Hoewel deze systemen expliciet zijn ontwikkeld voor redeneervraagstukken, blijkt dat ze vaak tekortschieten zodra ze worden geconfronteerd met onbekende situaties die buiten hun trainingsgegevens vallen.
Dat AI-modellen beperkt zijn in hun vermogen om buiten hun trainingsdomein te generaliseren, is geen nieuw inzicht. Al in 1998 werd hiervoor gewaarschuwd. Zo werd destijds een eenvoudig wiskundig model getraind met alleen even getallen. Het model kon vergelijkbare even getallen oplossen die het nog niet eerder had gezien, maar faalde volledig bij vergelijkingen die een oneven antwoord vereisten. Meer dan 25 jaar later kampen de nieuwste modellen nog steeds met dit fundamentele probleem, vooral wanneer ze geconfronteerd worden met taken die duidelijk afwijken van hun oorspronkelijke trainingscontext.
Het geloof dat het simpelweg opschalen van modellen – door ze groter en krachtiger te maken – dit probleem zou oplossen, wordt door Apple nu overtuigend ontkracht. In het onderzoek werden geavanceerde modellen onderworpen aan klassieke puzzels zoals de Toren van Hanoi. De resultaten waren teleurstellend. Zelfs bij een versie met zeven schijven haalden de modellen minder dan 80% nauwkeurigheid. Bij acht schijven stortte hun prestatie compleet in. Dat systemen van miljarden dollars zo’n relatief eenvoudige puzzel niet betrouwbaar kunnen oplossen, is op z’n zachtst gezegd beschamend.
Maar het probleem zit dieper. Medeauteur Iman Mirzadeh benadrukte dat het niet alleen gaat om het vinden van de oplossing. Zelfs wanneer het model het juiste algoritme voorgelegd kreeg, faalde het alsnog. “Hun redeneerproces is niet logisch of intelligent,” aldus Mirzadeh. Het gaat dus niet alleen om het eindresultaat, maar om het fundamentele gebrek aan redenerende capaciteiten.
Ook hoogleraar informatica Subbarao Kambhampati van de Arizona State University sluit zich hierbij aan. Hij waarschuwt al langer voor de neiging om AI-systemen te antropomorfiseren – mensen gaan er ten onrechte van uit dat deze modellen redeneren zoals wij dat doen. Zijn eerdere onderzoeken toonden aan dat LRMs, ondanks hun naam, dezelfde zwakke punten vertonen als die in het Apple-onderzoek werden blootgelegd.
Een pijnlijke conclusie dient zich aan: als een AI-systeem van een miljard dollar niet in staat is een probleem op te lossen dat in 1957 al door AI-pionier Herbert Simon werd getackeld met klassieke (zij het inmiddels wat ouderwetse) methodes, dan lijkt de droom van algemene kunstmatige intelligentie (AGI) voorlopig onbereikbaar.
Toch is er nog een losse draad in het verhaal: ook mensen maken fouten. De Toren van Hanoi met acht schijven blijkt in de praktijk voor veel mensen een uitdaging. Maar precies dáárom bestaan computers. Ze zijn er om foutloos en consequent oplossingen te bieden voor complexe of eentonige taken. AGI hoeft geen exacte kopie van een mens te zijn – het moet juist het beste van twee werelden combineren: menselijke flexibiliteit en de betrouwbaarheid van rekenkracht. Een AGI die struikelt over simpele rekenfouten omdat mensen dat soms ook doen, slaat de plank volledig mis.
Het Apple-onderzoek herinnert ons eraan dat we voorzichtig moeten zijn met het omarmen van AI-hypes. De techniek is indrukwekkend, maar verre van onfeilbaar. Echte intelligentie vraagt meer dan alleen indrukwekkende taaluitvoer – het vereist begrip, logica en redeneervermogen dat verder reikt dan statistiek en patroonherkenning.