vrijdag 3 april 2026

Presteren goede studenten slechter door AI?

Een recente studie van de Universiteit van Aarhus onderzoch hoe generatieve AI (GenAI) de prestaties van studenten beïnvloedt tijdens het oplossen complexe. slecht omschreven problemen. Een slecht omschreven probleem is een taak waarbij het doel niet altijd duidelijk is en waarvoor geen eenduidige oplossing is. 

Aan de studie deden 141 studenten mee. De studie onderzocht de impact van GenAI op de prestaties van deze studenten tijdens een business case-examen  met daarin diverse slecht omschreven problemen. Studenten werden willekeurig ingedeeld in een controlegroep en een groep met toegang tot GenAI (ChatGPT-4). 

Studenten in de controlegroep (zonder GenAI) bleven presteren zoals verwacht: studenten die bij de start onderpresteerden, bleven achter, terwijl studenten die bovengemiddeld scoorden, hun prestaties konden behouden. 

De resultaten in de experimentele groep (met GenAI) toonden echter een opvallend patroon: studenten die bij de start onderpresteerden (een score van 5 of lager op de eerste taak) verbeterden hun scores significant wanneer ze met GenAI mochten werken. Daarentegen zagen studenten die bij de start bovengemiddeld scoorden, hun scores juist dalen.

De onderzoekers constateren dat door het gebruik van GenAI de verschillen tussen boven- en onderpresteerders sterk verkleind worden: beide groepen komen uit op een vergelijkbaar niveau. Dit wordt door de onderzoekers verklaard door wat zij cognitieve belasting inversie noemen: onderpresteerders ervoeren minder cognitieve belasting omdat GenAI complexe taken voor hen overnam, terwijl bovenpresteerders juist werden gehinderd door de omvangrijke en plausibel klinkende output van de chatbot. De tijdsdruk van de toets maakte het voor studenten bovendien onmogelijk om de GenAI-output goed te evalueren of te integreren in hun eigen antwoorden. De onderzoekers vergelijken hun bevinding met het bekende expertise reversal effect (de bevinding dat beginners baat hebben bij ondersteuning, terwijl het contraproductief kan zijn voor experts).\

We zien hier dus een paradox: technologie die bedoeld is om te helpen of je leerproces te ondersteunen, kan zo maar een obstakel worden. En waar die obstakels vaak het grootst zijn voor de meest kwetsbare studenten, zien we hier een voorbeeld hoe technologie, in de vorm van GenAI, juist de best presterende studenten kan hinderen in hun leerproces.


Het abstract:

This study investigates how generative AI (GenAI) access impacts student performance in ill-defined, time-pressured business school exams. Through an embedded mixed-methods design combining an experimental study with qualitative interviews, we identify an equalizing effect: low performers improve while high performers decline, resulting in performance convergence. Our qualitative analysis reveals the mechanism driving this convergence—GenAI-induced cognitive load inversion. Low performers experience cognitive load relief by copying chatbot output, thus bypassing the analytical work the task requires. High performers experience cognitive load amplification, struggling to process voluminous output under time pressure, disrupting their analytical processes. We argue that task structure shapes GenAI’s effects in time-constrained situations: the ill-defined nature of our task elicits different cognitive challenges compared to well-defined tasks of prior research, helping reconcile mixed findings on GenAI’s democratizing effects. Furthermore, the findings reveal how traditional assessments fail when GenAI masks performance differences.

zondag 29 maart 2026

Een nieuwe RCT naar AI in het onderwijs: AI-tutoring verslaat actief leren, of toch niet?

Onderzoekers van Harvard voerden een randomized controled trial uit met 194 studenten om te onderzoeken of een AI-tutor studenten beter kan laten leren dan actief leren in de klas. De resultaten toonden aan dat wanneer studenten werkten met een AI-tutor zij significant hogere scores behaalden op de posttests, terwijl ze er minder tijd besteedden aan studeren dan wanneer ze actief leerden in de klas. Daarnaast gaven studenten aan zich meer betrokken en gemotiveerd te voelen. De AI-tutor was in deze studie specifiek ontworpen volgens bewezen didactische principes, zoals stapsgewijze begeleiding, directe feedback en hield rekening met cognitive load. Maar wat betekenen deze resultaten nu precies? En hoe werd de studie precies opgezet?

In deze studie ondergingen studenten beide condities, de AI-tutor én de actieve les,  maar dan in twee opeenvolgende weken. Dit zogenoemde crossover-design zorgt ervoor dat elke student beide condities. Voor en na elke les maakten de studenten toetsen in om de leerwinst te meten. Hoewel beide groepen dezelfde leerstof kregen aangeboden, zat het verschil 'm in de uitvoering: de AI-tutor bood individuele, stapsgewijze begeleiding met directe feedback, terwijl de actieve les draaide om samenwerking aan opdrachten in een klassikale setting. Maar wat zegt dit nu eigenlijk over de echte verschillen tussen deze twee onderwijsvormen?

De resultaten uit deze studie zijn duidelijk: wanneer studenten met de AI-tutor werkten, behaalden ze significant hogere scores op de posttests dan wanneer ze actief leerden in de klas. Met een effectgrootte variërend van 0.73 tot 1.3 standaarddeviaties, laat de studie zien dat de AI-tutor niet alleen beter presteerde dan actief leren, maar dit ook deed in beduidend minder tijd. Ruim 70% van de studenten voltooide de les in minder dan een uur, terwijl de actieve les een vaste 60 minuten in beslag nam. Ook op het gebied van betrokkenheid en motivatie scoorden hoger wanneer ze werkten met de AI-tutor. 

Resultaten van de studie voor posttest scores.


Deze studie is indrukwekkend op papier, maar er zitten toch een paar haken en ogen aan. Ten eerste:Wat wordt er nu precies vergeleken in deze studie? Een zelfstandige, individuele leeromgeving  met stapsgewijze begeleiding, directe feedback en adaptief tempo met een klassikale setting waarin samenwerking en opdrachten centraal staan. Met andere woorden: de auteurs vergelijken tutoring-achtige instructie (een methode waarvan al decennialang bekend is dat ze effectief is) met een klassieke versie van actief leren. Kun je dan zeggen dat AI beter werkt? Of had je dan AI-tutoring moeten vergelijken met tutoring van een docent of een oudere student? Of met een Intelligent Tutoring System?

Ten tweede: het novelty effect. Studenten waren meer betrokken en gemotiveerd. Maar dit was wellicht omdat ze met een nieuwe, hippe tool werkten. Maar hoe lang blijft dat effect bestaan? Zonder herhaalde blootstelling of langdurig gebruik weten we niet of die motivatie en betrokkenheid blijven bestaan als de nieuwigheid eraf is. 

Ten derde: tijdsbesparing betekent niet automatisch dieper leren. Studenten leerden meer in minder tijd, maar dat zegt niets over of ze de stof echt begrepen of alleen maar snel oppikten. De toetsen die de studenten maakten richtten zich volgens de auteurs op "the understanding, applying, and analyzing levels of Bloom’s Taxonomy". Mogelijk matchte dit minder goed met de opzet van de opzet en opdrachten in de actief leren-lessen, die mogelijk beter aansluiten bij de hogere niveau's van de taxonomie.

Kortom: AI is geen magie. Het werkt alleen wanneer het goed ontworpen is. Als je dezelfde principes (stapsgewijze begeleiding, directe feedback, adaptief tempo) in de klas of in een face-to-face situatie toepast, zou het resultaat vergelijkbaar kunnen zijn. En dan is er nog iets wat de auteurs helemaal vergeten te noemen: de prijs van veel directe feedback die de AI-tutor je kan geven. Het is al lang bekend uit de literatuur over Intelligent Tutoring Systems (ITS) dat directe feedback efficiënt kan zijn, maar dat het studenten ook kan belemmeren in het zelf ontdekken en corrigeren van hun eigen fouten. Schooler en Anderson waarschuwden hier in de jaren '90 al voor. Studenten die direct feedback krijgen, leren misschien sneller, maar ze leren óók minder zelfstandig. Ze leren bijvoorbeeld minder goed zelf fouten ontdekken en deze fouten corrigeren.

donderdag 5 maart 2026

AI helpt leerlingen meer wanneer ze ook zelf iets doen, zoals notities maken

Er wordt momenteel over weinig onderwerpen in het onderwijs zo veel gesproken als over GenAI. Aan de ene kant zijn er mensen die zien dat GenAI het leerproces kan versterken: leerlingen kunnen sneller uitleg krijgen, vragen stellen en complexe teksten laten verduidelijken. Aan de andere kant groeit ook de zorg dat leerlingen met GenAI juist minder zelf nadenken en dat dit mogelijk nadelige gevolgen heeft. In de cursus Maatschappelijke vraagstukken: De rol van onderwijstechnologie van onze master Onderwijswetenschappen onderzochten we met studenten ook dit spanningsveld.

Ook een recente studie van Kreijkes en collega’s (2026) onderzoekt precies dit spanningsveld: wat gebeurt er wanneer leerlingen een large language model (LLM) gebruiken tijdens het lezen van een tekst? Helpt dat hen om beter te begrijpen en te onthouden wat ze lezen, of werkt een klassiekere strategie, zoals aantekeningen maken, eigenlijk beter?

De resultaten zijn interessant, en tegelijkertijd ook een beetje ontnuchterend.

Wat onderzochten ze?

De onderzoekers wilden weten wat er gebeurt wanneer leerlingen een large language model (LLM) gebruiken tijdens het lezen van een tekst. Concreet keken ze naar drie manieren van werken:

  1. Aantekeningen maken tijdens het lezen
  2. Een LLM gebruiken om vragen te stellen over de tekst
  3. Een combinatie van LLM gebruiken én notities maken

Daarbij onderzochten ze drie zaken:

  • tekstbegrip
  • retentie van de inhoud van de tekst na enkele dagen
  • betrokkenheid van leerlingen
Aan de studie namen 344 leerlingen van ongeveer 14-15 jaar uit zeven middelbare scholen in Engeland deel. De leerlingen bestudeerden twee historische teksten en werden drie dagen later getest op hun begrip en retentie.

GenAI gebruiken om te leren? Zelf nadenken blijft belangrijk
De resultaten laten een duidelijk patroon zien. Leerlingen die aantekeningen maakten, scoorden het best op zowel begrip als retentie. Leerlingen die alleen een LLM gebruikten scoorden het laagst. De groep die zowel een LLM gebruikte als aantekeningen maakte zat daar tussenin: zij deden het beter dan de LLM-groep, maar het verschil was minder groot dan met de groep die alleen aantekeningen maakte. Met andere woorden: GenAI bovenop een klassieke leerstrategie lijkt wel te helpen ten opzichte van GenAI alleen, maar het maakt de strategie van aantekeningen maken op zichzelf niet beter.

Betekent dit dat GenAI niet werkt?

Nee. Integendeel.

De studie suggereert dat combinaties van strategieën interessant kunnen zijn. LLM’s kunnen bijvoorbeeld helpen om extra vragen te stellen, verbanden te verkennen en nieuwsgierigheid te stimuleren. In de dataset zagen de onderzoekers bijvoorbeeld leerlingen die tijdens een tekst over apartheid plots vroegen naar het levensverhaal van Nelson Mandela, of tijdens een tekst over de Cubacrisis naar de angst voor communisme. Dat zijn vragen die verder gaan dan de oorspronkelijke tekst en mogelijk bijdragen aan dieper begrip of duiden op interesse die werd opgewekt bij de leerlingen.

Wat ook opviel: Veel van prompts die de leerlingen schreven waren gericht op het verkrijgen van aanvullende informatie of dieper begrip. Leerlingen stelden daarnaast vraag verduidelijkingsvragen ("Wat is een sanctie?") of vroegen de LLM vaak om informatie te conderseren. Opvallend was ook dat in slechts zes prompts bleek dat leerlingen de betrouwbaarheid van de output van de LLM betwijfelden. Een klein deel van de prompts was niet gerelateerd aan de leertaak ("Vertel me over Harry Potter"). 

Opvallend was ook dat wanneer de onderzoekers keken naar de overlap tussen de output die studenten genereerden met behulp van de LLM en de inhoud van hun notities, ze moesten constateren dat deze overlap behoorlijk groot was. Bij bijna 1/5 van de leerlingen bevatten de aantekeningen vrijwel alleen letterlijke kopieën van de LLM-output. Dit suggereert dat leerlingen in de LLM+aantekeningen conditie minder zelf aantekeningen maakten, wat mogelijk de effectiviteit ervan vermindert.

Overzicht van de verschillende prompts die leerlingen gebruikten.

Nog een interessant detail: Leerlingen dachten zelf vaak dat het LLM hen beter hielp dan notities maken. Dat staat haaks op hun daadwerkelijke leerresultaten.

Dat is overigens geen nieuw fenomeen. Onderzoek naar leren laat al langer zien dat leerlingen niet altijd goed kunnen inschatten wat hen werkelijk helpt om te leren.

Wat betekent dit voor onderwijs?
Misschien vooral dit: AI kan een nuttig hulpmiddel zijn, maar het vervangt geen cognitieve inspanning van leerlingen zelf. Strategieën zoals: aantekeningen maken, samenvatten, uitleggen in eigen woorden, blijven krachtige manieren om kennis op te bouwen.

En misschien is dat wel de belangrijkste les uit dit onderzoek: GenAI kan leren ondersteunen, maar leren zelf blijft inspanning vragen.

Of zoals een oud onderwijsprincipe het samenvat: als leren te gemakkelijk voelt, is het vaak minder effectief.


Het abstract
Students' rapid uptake of Generative Artificial Intelligence tools, particularly large language models (LLMs), raises urgent questions about their effects on learning. We compared the impact of LLM use to that of traditional note-taking, or a combination of both, on secondary school students' reading comprehension and retention. We conducted a pre-registered, randomised controlled experiment with within- and between-participant design elements in schools in England. 405 students, aged 14–15 years, studied two text passages and completed comprehension and retention tests three days later. Quantitative results demonstrated that both note-taking alone and combined with LLM use had significant positive effects on retention and comprehension compared to using the LLM alone. Yet, most students preferred using the LLM over note-taking, and perceived it as more helpful. Qualitative results revealed that many students valued the LLM for making complex material more accessible and reducing cognitive load, while they appreciated note-taking for promoting deeper engagement and aiding memory. Additionally, we identified “archetypes” of prompting behaviour, offering insights into the different ways students interacted with the LLM. Overall, our findings suggest that, while note-taking promotes cognitive engagement and long-term comprehension and retention, LLMs may facilitate initial understanding and student interest. The study reveals the continued importance of traditional learning activities, the benefits of combining LLM use with traditional learning over using LLMs alone, and the AI skills that students need to maximise those benefits.