De COTAN en de WISC-III De COTAN en de WISC-III Verkoop WISC-III stopgezet Verkoop WISC-III voorlopig stopgezet Beoordeling WISC-III volgens COTAN-normen Beoordeling WISC-III volgens COTAN
WISC-III NDC aan gebruikers NDC aan gebruikers WISC-III De normering Normering WISC-III: representativiteit WISC-III Opmerkingen en Suggesties Handleiding WISC-III: opmerkingen
WISC-III Een illusie armer De WISC-III; Een illusie armer Afname WAIS-III of WISC-III? Afname WAIS-III of WISC-III? Steekproef WISC-III schiet te kort Steekproef WISC-III schiet te kort
Het herstel van de WISC-III Het herstel van de WISC-III De COTAN-beoordeling 2003 WISC-III De COTAN-beoordeling 2003 WISC-III de WISC-IV De WISC-IV
De aangepaste normen van de WISC-III De aangepaste normen van de WISC-III Critici WISC-III in het ongelijk gesteld Critici WISC-III in het ongelijk gesteld Boom stopt distributie WISC-III Boom stopt distributie WISC-III
Enquête toekomst WISC-III Enquête toekomst WISC-III Representatieve normen WISC-III van de baan Representatieve normen van de baan Hoe retourneer ik de WISC-III? Hoe retourneer ik de WISC-III?
Nieuwe CBS-tabel ontkracht WISC-III normen CBS-tabel ontkracht WISC-III normen Derde versie normen WISC-III Derde versie normen WISC-III .


Dit artikel is ook te downloaden als Word document: klik.

Critici van de WISC-IIINL in het ongelijk gesteld

Peter Tellegen

Persoonlijkheids- en Differentiële Psychologie, RuG

8 juni 2004

Inleiding

Sinds het verschijnen van de WISC-III NL (Kort, Compaan, Bleichrodt, Resing, Schittekatte, Bosmans, Vermeir & Verhaeghe, 2002) is veel kritiek geuit op de normering, het betrouwbaarheidsonderzoek en het ontbreken van validiteitsgegevens. Deze kritiek is in een aantal artikelen in De Psycholoog en op www.testresearch.nl naar voren gebracht (Tellegen, 2002ab, 2003, 2004), en kwam ook tot uitdrukking in de beoordeling van de COTAN. De beoordelaars kwamen tot de conclusie dat de 'normen', 'betrouwbaarheid' en 'validiteit' van de WISC-III NL onvoldoende zijn (COTAN, 2004). Een commissie van drie deskundigen die later door het NIP-Dienstencentrum is ingesteld om duidelijk te maken hoe de test verbeterd diende te worden, signaleerde ook belangrijke gebreken en sprak zijn bezorgdheid uit over het feit dat met betrekking tot de samenstelling van de normgroep vijf verschillende datasets in omloop waren (De Boeck, Kamphuis & Lutje Spelberg, 2003).

Tot nu toe zijn de auteurs van de WISC-III uiterst terughoudend geweest in hun reacties op de kritiek. In de recente herziene uitgave van het boek "Algemene Psychoiagnostiek I" van de Zeeuw (De Zeeuw, Dekker & Resing, 2004), dat enkele maanden geleden is verschenen, doorbreekt Resing echter het zwijgen.
Zij schrijft (p. 97):

"De publicatie van Tellegen in De Psycholoog (2002b) heeft veel onrust veroorzaakt. Hij plaatst kritische kanttekeningen bij de betrouwbaarheid, validiteit en normering van deze nieuwe WISC-III NL. Zijn bevindingen blijken deels te wijten aan slordigheden in de (voorlopige) handleiding, deels zijn de problemen overdreven."

Dat de problemen met de WISC-III overdreven zijn, is goed nieuws voor de psychologen die de test hebben aangeschaft maar hem in veel situaties niet mogen gebruiken. Voor de wetenschappelijk geïnteresseerden is het ook goed nieuws dat Resing meedeelt dat – waar relevant – op de bezwaren van Tellegen zal worden ingegaan. Dit zal gebeuren in de Technische Verantwoording die echter nog wel moet verschijnen.

Vooruitlopend op het verschijnen van deze Technische Verantwoording vermeldt Resing twee belangrijke kenmerken van de test die tot nu toe steeds ter discussie hebben gestaan.

Representatieve steekproef

Over de steekproef meldt zij het volgende (p. 96):

"De WISC-III NL is in 2002 genormeerd op een representatieve steekproef van 878 Nederlandse en 353 Vlaamse kinderen, gespreid naar regio, urbanisatiegraad, sekse en schooltype."

Het is niet helemaal duidelijk of Resing hierbij doelt op de steekproef en de normtabellen die in 2002 in de Handleiding van de WISC-III zijn beschreven, of op de aangepaste steekproef en de gewijzigde normtabellen die het NIP-Dienstencentrum in 2003 aan de gebruikers heeft toegestuurd. Dat dit onderscheid niet triviaal is blijkt uit de samenstelling naar schooltype van de Nederlandse steekproef van de 16-jarigen. Deze steekproeven worden hierna vergeleken. De samenstelling van de steekproef 2002 staat niet vermeld in de Handleiding maar is ons in september 2002 toegestuurd door de projectleidster van de WISC-III (zie Tellegen, 2002c). De samenstelling van de aangepaste steekproef staat vermeld in de "Errata en Normtabellen WISC-III", uitgebracht door het NDC (2003).

Nederlandse steekproef WISC-III, 16-jarigen, naar schooltype
. steekproef 2002 steekproef 2003

Schooltype N % N %
Praktijkonderwijs 2 2.8 % - 0.0 %
Vbo/Lwoo/Bbl/Kbl 3 4.2 % 2 2.5 %
Vmbo 4 5.6 % 39 48.8 %
Mavo 2 2.8 % - 0.0 %
Mbo 19 26.4 % - 0.0 %
Havo 23 31.9 % 22 27.5 %
Vwo 19 26.4 % 17 21.3 %

totaal 72 100 % 80 100 %

Het kan zijn dat Resing meent dat de steekproef van 2002 representatief is. Dit ligt voor de hand want zij verwijst naar de Handleiding en niet naar de "Errata en Normtabellen". Dat Resing de eerste steekproef als representatief beschouwt is ook aannemelijk omdat in de Handleiding staat dat het uitgangspunt was dat een representatieve steekproef werd getrokken, gestratificeerd naar schooltype. In de Handleiding wordt ook vermeld dat een zo goed mogelijke verdeling naar niveau is aangehouden.

Als de steekproef van de Handleiding een representatieve steekproef is, dan is het wel opvallend dat bijna 60 % van alle 16-jarigen onderwijs volgt op Havo/Vwo niveau. Dit is een veel hoger percentage dan blijkt uit gegevens van het CBS en van het ministerie van OCenW. Als de steekproef van 2002 representatief is dan is het ook niet zo goed te begrijpen waarom men een jaar later de normgroep zo ingrijpend heeft veranderd.

Het kan echter ook zijn dat Resing bedoelt dat de steekproef van 2003 representatief is. Deze steekproef verschilt voor de 16-jarigen aanzienlijk van de steekproef uit 2002, zoals in de tabel is te zien. De steekproef uit de Handleiding was dan dus niet representatief en dat is in overeenstemming met hetgeen drs. Compaan, de projectleidster van de WISC-III hierover heeft meegedeeld (zie Tellegen, 2002c): de auteurs wisten dat de steekproef met betrekking tot het onderwijsniveau niet representatief was, maar men had echter nagelaten dit in de Handleiding te vermelden.
Het percentage leerlingen op Havo/Vwo-niveau is bij de steekproef van 2003 een stuk lager (48.8 %) maar toch nog 10 % hoger dan het percentage dat uit CBS-gegevens is af te leiden (Tellegen, 2004). Heel opmerkelijk is dat nu opeens de leerlingen van het Praktijkonderwijs en van het Mbo uit de steekproef zijn verdwenen. De steekproef uit 2002 bestond voor een kwart uit Mbo-leerlingen en nu komen ze helemaal niet meer in de steekproef voor. Toch worden Praktijkonderwijs en Mbo expliciet in de Handleiding genoemd als niveaus binnen het Voortgezet Onderwijs die onderdeel zijn van de normgroep. Het weglaten van kinderen uit het Praktijkonderwijs, leerlingen op een laag niveau, is nadelig voor de normering omdat dan de onderkant van de scoreverdeling niet meer goed wordt vertegenwoordigd (zie Tellegen, 2002d).

Vooralsnog is het niet duidelijk welke normgroep door Resing representatief wordt geacht.

Interbeoordelaarsbetrouwbaarheid

In een extra onderzoek is bij de WISC-III onderzocht of er voldoende overeenstemming is in de beoordeling en scoring van de antwoordprotocollen. Hiertoe zijn 60 protocollen van kinderen, in leeftijd variërend van 6 tot 17 jaar, door 6 beoordelaars onafhankelijk gescoord. De interbeoordelaarsbetrouwbaarheid voor drie verbale subtests bleek respectievelijk .98, .96 en .94 (Kort et al., 2002, p. 72). Afgaande op de beschrijving van het onderzoek in de Handleiding, was het aannemelijk dat de correlaties gebaseerd waren op de ruwe scores en niet op de genormeerde scores, of op homogene leeftijdsgroepen. Dit is wel van belang. Als de betrouwbaarheid in een heterogene leeftijdsgroep gebaseerd wordt op ruwe scores, dan wordt de betrouwbaarheid aanzienlijk overschat. Zo zou een betrouwbaarheid van .90 (gebaseerd op ruwe scores) dalen tot .80 als de correlatie met leeftijd .71 bedraagt.
Het vermoeden dat de interbeoordelaarsbetrouwbaarheid sterk is overschat, is de auteurs in september 2002 meegedeeld (Tellegen, 2002a) en werd herhaald in het artikel "De WISC-III, een illusie armer." Deze mening is ook naar voren gebracht door de beoordelaars van de COTAN bij de toelichting op de beoordeling. Tenslotte vermeldde de Commissie die de WISC-III heeft onderzocht (De Boeck, Kamphuis & Lutje Spelberg, 2003):

"De interbeoordelaarsbetrouwbaarheid moet op normscores berekend worden als dat niet zo zou zijn gebeurd."

In "Algemene Psychodiagnostiek I" schrijft Resing positief over de zeer hoge interbeoordelaarsbetrouwbaarheid van de WISC-III en zij herhaalt de uitkomsten die in de Handleiding zijn vermeld:

"In de meeste gevallen stellen de talrijke scoringsvoorbeelden en de nauwkeurige omschrijving van de scoring in de handleiding echter in staat tot betrouwbaar scoren. De gemiddelde gerapporteerde interbeoordelaarsbetrouwbaarheid (Wechsler, 2002) bedraagt 0,95 voor de verbale subtests en het zijn juist deze subtests waarin zich onduidelijkheid wat betreft de scoring zou kunnen voordoen (range 0,94 – 0,98). Deze waarde is hoog te noemen."

Op grond van deze weergave zou men moeten kunnen concluderen dat wel degelijk een juiste methode bij de berekening is gebruikt. Resing gaat daar echter niet op in en vermeldt ook niet op wat voor wijze de correlaties berekend zijn.

Conclusies

In reactie op het eerste kritische artikel over de WISC-III (Tellegen, 2002b) werd geschreven dat de kritiek voorbarig was (Kort, 2002):

"Tegen deze achtergrond is het prematuur een oordeel te vellen over de kwaliteit van de test zonder over de noodzakelijke gegevens te beschikken. Wij betreuren het dan ook dat dit toch is gebeurd."

De projectleider en toenmalig hoofd Research en Development van het NIP-Dienstencentrum deelde mee dat aan het technisch rapport nog werd gewerkt. Nu, anderhalf jaar later, meldt Resing dat de kritiek overdreven was, maar de Technische Verantwoording die deze mening moet onderbouwen, moet ook nu nog steeds verschijnen.

Zolang de Technische Verantwoording er nog niet is, is het wel wenselijk dat Resing duidelijkheid schept aangaande de twee punten die hiervoor zijn genoemd. Ten eerste zou zij moeten aantonen dat de samenstelling van de normgroep van de 16-jarigen (althans één van de twee) representatief is naar onderwijsniveau. Ten tweede zal zij moeten duidelijk maken dat de berekening van de interbeoordelaarsbetrouwbaarheid juist is uitgevoerd en niet gebaseerd op met leeftijd gecorreleerde data.

Sinds het verschijnen van de WISC-III, nu twee jaar geleden, weigeren de auteurs verantwoording af te leggen, in te gaan op kritiek, of inzage te geven in informatie die vanzelfsprekend in de Handleiding vermeld had moeten zijn. Indien nu opnieuw geweigerd wordt om duidelijkheid te scheppen met betrekking tot zeer concrete, en voor de beoordeling van de test belangrijke vragen, dan ontstaat toch de indruk dat de auteurs van de WISC-III willens en wetens onjuiste informatie over de test verspreiden.

Voor psychologen is dit geen triviale zaak. In de Algemene Standaard Testgebruik NIP (AST-NIP) die door het Hoofdbestuur van het NIP in april 2004 op voorstel van de COTAN is vastgesteld, en die in juli aan de leden van het NIP ter goedkeuring wordt voorgelegd, wordt het volgende gezegd over de principes bij de keuze van psychodiagnostische instrumenten:

"Een psychodiagnostisch instrument kan ingezet worden voor het geven van een advies over een persoon of groep personen indien van dit instrument de theoretische herkomst , betrouwbaarheid, validiteit en normering tenminste voldoende zijn, volgens het oordeel van de NIP-Commissie Testaangelegenheden Nederland (COTAN). Indien het instrument op een of meer van bovengenoemde punten, al dan niet bij gebrek aan gegevens, door de COTAN als onvoldoende is beoordeeld, of wanneer nog geen COTAN-beoordeling heeft plaatsgevonden, dient de psycholoog het gebruik van dit instrument afdoende te kunnen argumenteren."

Deze nieuwe formulering van de Standaard Testgebruik betekent dat NIP-psychologen de WISC-III alleen nog maar mogen gebruiken als zij hier afdoende argumenten voor kunnen aandragen. Als zou blijken dat de informatie van Resing aangaande representativiteit van de steekproef en kwaliteit van de interbeoordelaarsbetrouwbaarheid niet juist is, dan wordt het voor de testgebruikers langzamerhand onmogelijk om nog een zuiver inzicht te krijgen in de kwaliteit van de test. Zij zullen dan niet in staat zijn om het gebruik van de WISC-III te verantwoorden.

Het is daarom niet onverstandig de vragen die nu aan Resing zijn voorgelegd, te beschouwen als testcase. Als Resing kan aantonen dat haar uitspraken over de WISC-III correct zijn, dan was de titel van dit stuk juist en zijn de critici in het ongelijk gesteld. Als op deze vragen echter geen bevredigend antwoord komt, dan is de conclusie onontkoombaar dat het met de WISC-III een hopeloze zaak is.

Literatuur

Boeck, P. de, Kamphuis, H.J. & Spelberg, H. Lutje (2003). Commissie WISC-III. Beoordeling Nederlandstalige WISC III. Amsterdam: NIP-Dienstencentrum.

COTAN (2004). Documentatie van Tests en Testresearch in Nederland. Aanvulling 2004/01. Amsterdam: Boom test uitgevers.

Kort, W. (2002). Reactie NIP Dienstencentrum. De Psycholoog, 37, 610.

Kort, W., Compaan, E.L., Bleichrodt, N., Resing, W.C.M., Schittekatte, M., Bosmans, M., Vermeir, G. & Verhaeghe, P. (2002). WISC-III NL. Handleiding. London: The Psychological Corporation.

NDC (2003). Errata en Normtabellen WISC-III NL. Amsterdam: NIP-Dienstencentrum.

NIP (2004). Algemene Standaard Testgebruik NIP (AST-NIP). Concept. Amsterdam: NIP.

Tellegen, P.J. (2002a). De Handleiding van de WISC-III NL. Correcties, opmerkingen en suggesties. Intern: RuG

Tellegen, P.J. (2002b). De WISC-III NL. Een illusie armer. De Psycholoog, 37, 607-610.

Tellegen, P.J. (2002c). Correspondentie WISC-III NL, 17/9/2001-20/11/2002. Intern: RuG.

Tellegen, P.J. (2002d). De kwaliteit van de normen van de RAKIT.

Tellegen, P.J. (2003). De steekproef van de WISC-III NL bij het Voortgezet Onderwijs schiet te kort. Internet: www.testresearch.nl/wisc/wiscstkpr.html

Tellegen, P.J. (2004). De aangepaste normen van de WISC-III NL.

Zeeuw, J. de, Dekker, R. & Resing, W.C.M. (2004). Algemene Psychodiagnostiek I. Testmethoden. Geheel herziene druk. Leiden: PITS.


to top to top to top to top

homepage T&T homepage SON-tests