zondag 2 maart 2014

Leer je het meest door zelf fouten te maken?

Deze bijdrage verscheen eerder op de weblog onderzoekonderwijs.net onder de titel Van je eigen fouten leer je het meest?

Truth comes out of error more readily than out of confusion.
Francis Bacon (1561-1626)

It is the true nature of mankind to learn from mistakes, not from example.
Sir Fred Hoyle (1915-2001)

Wetenschap begint vaak met een eenvoudige vraag, bijvoorbeeld: is het wel of niet nuttig als een leerling die iets nieuws  leert eerst zelf stoeit met de materie (en daarbij onvermijdelijk fouten maakt)? Dat stoeien klinkt onlogisch: de beginnende leerling zal ten eerste niet goed
Manu Kapur
snappen waar ze mee bezig is en daarnast leidt het maken van fouten misschien wel tot frustratie en het aanleren van verkeerde kennis. Toch zegt Manu Kapur, hoofd van het Learning Sciences Lab aan de Nanyang Technische Universiteit (Singapore) dat juist de onvoorspelbaarheid van gegeven problemen, de kans op het maken van fouten, en het vast komen zitten tijdens het werken eraan een positief leereffect kunnen hebben. Hij noemt dit proces productive failure en het is een onderwerp waar hij met collega's al jaren onderzoek naar uitvoert.
Ik wil in deze bijdrage inzoomen op Kapur's meest recente studie, die is gepubliceerd in het gerenommeerde tijdschrift Journal of the Learning Sciences. De titel ervan is Comparing learning from productive failure and vicarious failure. Het gaat om een experiment waarin twee instructiemethodes, 'productive failure' (PF) en 'vicarious failure' (VF) met elkaar worden vergeleken. Kapur betoogt dat inmiddels redelijk wat onderzoek laat zien  dat het effectief kan zijn om leerlingen met leerstof in aanraking te brengen door hen relevante problemen te laten oplossen, ook al hebben die leerlingen nog niet genoeg er over geleerd om die problemen correct op te kunnen lossen. Het zelf fouten maken is uiteindelijk wel effectief: 'productive failure' dus. Leerlingen wordt ook expliciet gemeld dat het niet erg is als het hen niet lukt problemen op te lossen: het gaat puur om uitproberen en grenzen verkennen. Daar tegenover stelt Kapur een situatie voor waarin leerlingen leren van de (foute) oplossingen van anderen: 'vicarious failure'.
  1. Onderwijs dat volgens het PF-principe ontworpen is bestaat uit twee fasen: Genereren en verkennen. In deze fase komen leerlingen op allerlei manieren in aanraking met allerlei problemen. Op basis daarvan genereren zij 'multiple representations and solution methods' (RSMs). De kans dat leerlingen op basis hiervan succesvol ontdekken wat het principe achter de problemen is is erg klein, weten we uit onderzoek (bijvoorbeeld Kirschner, Sweller en Clark, 2006).
  2. Kennis opbouwen. In deze fase worden door middel van gerichte instructie de verschillende RSMs georganiseerd en opgebouwd tot een serie 'canonieke' RSMs (correcte kennis, dus).
Kapur stelt dat PF effectief is in de zin dat het tot betere transfer leidt dan directe instructie. Daarnaast stelt hij dat het aantal RSMs dat een leerling zelf weet te genereren (meer 'RSM diversity') ook zal leiden tot een groter leereffect, want in dat geval wordt meer voorkennis van de leerling (voor zover aanwezig) geactiveerd. De vraag is: is de bepalende factor bij PF het zelf genereren van RSMs (en dus ook het zelf fouten maken)? Om dat te testen is een experiment nodig, waarbij PF (zelf RSMs maken) vergeleken wordt met VF (bestuderen van de RSMs van anderen). Dat betekent dat in het experiment fase 1 verschilt bij PF en VF, maar dat fase 2 in beide gevallen identiek is.
Over de vraag of PF of VF effectiever is kun je twee tegenovergestelde voorspellingen doen. Of: PF doet het beter dan VF want de eerste fase is persoonlijker, sluit beter aan bij eigen voorkennis, en is daarom voor de leerling interessanter. Of: VF doet het beter dan PF want bij PF wordt het werkgeheugen meer belast waardoor er voor het opbouwen van kennis minder 'denkruimte' over is, en er wordt bij PF een beroep gedaan op domeinkennis bij de leerling die wellicht tegenvalt: in het laatste geval zou PF alleen effectief zijn als de domeinkennis van de leerling van voldoende niveau is (in jargon: er treedt een 'expertise reversal effect' op).
Om deze voorspellingen te testen is het in dit experiment nodig om voorkennis van de leerling en cognitieve belasting te meten. Het experiment van Kapur maakte gebruik van twee scholen (school A en school B) die verschilden op algemeen prestatieniveau. In totaal 136 leerlingen (64 op school A en 72 op school B) deden mee aan het onderzoek. Op beide scholen werkte een klas volgens het PF-principe en een andere klas volgens het VF-principe. Het leerdomein waarover de les ging was 'standaarddeviaties'.
Zoals vaker bij dit type onderzoek konden leerlingen niet willekeurig aan een conditie worden toegewezen (ze zitten tenslotte bij elkaar in een klas) waardoor dit onderzoek 'quasi experimenteel' is. In beide condities volgen leerlingen vier lessen, waarvan de lessen 1 en 2 fase 1 besloegen en lessen 3 en 4 fase 2. In fase 1 werkten leerlingen samen in groepjes van 2 of 3, ofwel met het zelf  oplossen van problemen (PF), ofwel het bestuderen van de uitgewerkte problemen van anderen (VF). Na de laatste les werd een kennistest afgenomen om te meten wat het leereffect was.
Voordat ik op het de resultaten inga moet ik iets over de gebruikte tests zeggen. Kapur is daar een beetje makkelijk in. Om cognitieve belasting te meten gebruikt hij (naar eigen zeggen) de eerste de beste test die hij na wat zoeken tegenkwam. Echt veel begrip van cognitieve belasting lijkt Kapur zelf ook niet te hebben (blijkt ook later in de discussie).
De kennisvoortest bestond uit 6 vragen: 5 multiple-choice en 1 open vraag (goed of fout dus ook 1 punt waard). De score op de test werd daarna lineair geschaald naar 10. Ik ga ervan uit dat de maximale score 6 dan 10 wordt, wat een  vermenigvuldiging met 10/6 (1,66...) inhoudt. Wat bleek? Geen enkele leerling had de open vraag correct. Oftewel: de hoogstscorende leerling scoort 5 punten. Omgeschaald is dat 8,33. Hieronder heb ik een afbeelding uit de resultatensectie neergezet, een deel van tabel 2. Wat valt op? De gemiddelde scores op voorkennis zijn allemaal hoger dan 8,33. Dat betekent dat de uitleg in het artikel incompleet is of dat de getoonde getallen onjuist zijn. Mijn vermoeden is dat de omrekenscore op basis van 5 vragen is gedaan (die is dan 2) en niet 6. Zo'n onduidelijkheid maakt wel dat ik ga twijfelen aan de betrouwbaarheid van de overige beschrijvingen.

Fragment uit Tabel 2 in Kapur (2013)

De kennisnatest bestond uit 19 vragen. Die 19 worden verdeeld over drie categorieën (2, 14, en 3 items groot), en elk van die drie wordt weer omgeschaald naar maximaal 10. Van mij had al dit gegoochel niet gehoeven. Het is zo net alsof de subschalen gelijkwaardig zijn wat dus duidelijk totaal niet het geval is. In de resultatensectie wordt serieuze statistiek bedreven en van alles geconcludeerd over 'procedural fluency', dat in werkelijkheid met twee items gemeten is. Hier wordt een statistisch rookgordijn opgetrokken.
  1. Wat kwam er uit het experiment? Dat zijn uiteindelijk drie dingen:
    PF scoort op de natest hoger dan VF op twee van de drie categorieën (namelijk 'conceptual understanding' en 'transfer').
  2. PF scoort hoger op de (tussendoor afgenomen) vragenlijst 'mentale inspanning' dan VF. Maar: de mate van mentale inspanning zelf had geen voorspellende waarde op de kennistests.
  3. Het aantal door leerlingen gegenereerde of bekeken RSMs in fase 1 was een positieve voorspeller van het leereffect (in beide condities).
Kapur concludeert dat het zelf genereren van RSMs effectiever is in het activeren van voorkennis van de leerling dan het evalueren van andermans RSMs. Daarbij waagt hij zich aan een aantal uitspraken over cognitieve belasting, iets waarvan ik zelf het gevoel had dat hij niet goed weet wat dat concept inhoudt.  Kapur ziet het als één ding, terwijl 'cognitive load theory' het concept in drieën hakt. Als hij daarmee rekening gehouden had was een uitspraak als "Perhaps a higher cognitive load may not be monotonically detrimental to learning" overbodig geweest. Kapur haalt zelfs even Vygotsky aan als hij het over 'optimal cognitive load' in de zone van naaste ontwikkeling heeft.
Tegen het eind van Kapur's artikel komt een lelijke aap uit de mouw: het feit dat leerlingen in beide condities in duo's en trio's samenwerkten heeft misschien behoorlijk invloed op de resultaten gehad. Samen problemen oplossen werkt misschien wel heel anders dan samen problemen analyseren. Onderzoek van F. Kirschner, Paas, en P. Kirschner ondersteunt die hypothese.
Ietwat nuancerend kun je concluderen dat leren van fouten, of je die nu zelf maakt of dat anderen die gemaakt hebben, leerzaam kan zijn, maar dat het geen noodzakelijke voorwaarde voor leren is. Kapur's eindconclusie, dat "it must be relatively harder to learn from the mistakes of others than from one’s own mistakes" deel ik in het licht van alle methodologische haken en ogen echter niet.

Verwijzingen
Kapur, M. (2013). Comparing learning from productive failure and vicarious failure. The Journal of the Learning Sciences, 00, 1–27. doi:10.1080/10508406.2013.819000

Kapur, M., & Bielaczyc, K. (2012). Designing for Productive Failure. The Journal of the Learning Sciences, 21(1), 45-83, doi:10.1080/10508406.2011.591717

Kirschner, F., Paas, F., & Kirschner, P. A. (2009). Individual and group-based learning from complex cognitive tasks: Effects on retention and transfer efficiency. Computers in Human Behavior, 25(2): 306–314.

Kirschner, P. A., Sweller, J., & Clark, R. E. (2006). Why minimal guidance during instruction does not work. Educational Psychologist, 41(2): 75–86.