Intelligentietests voor jonge kinderen Intelligentietests voor jonge kinderen Bespreking: Intelligentie, weten en meten Intelligentie: weten en meten Diagnostiek bij onderwijs en indicatiestelling Diagnostiek onderwijs en indicatiestelling
Zin of onzin van de kleutertoets Zin of onzin van de kleutertoets Zogenaamde Classificerende Diagnostiek Zogenaamde Classificerende Diagnostiek Rugzak of Aapje? Rugzak of Aapje?
Het kind als machientje Het kind als machientje De waan van het IQ De waan van het IQ Diagnosten in spagaat Diagnosten in spagaat
Kinderen met dyslexie onderschat Kinderen met dyslexie onderschat IQ en onderwijs, twee NRC artikelen IQ en onderwijs, twee NRC artikelen Tests onzuiver belicht Tests onzuiver belicht


De Psycholoog, juni 2005, p.338-340

Boekbespreking van:
J. de Zeeuw, R. Dekker & W.C.M. Resing
Algemene Psychodiagnostiek I. Testmethoden
Leiden: PITS, 2004, 611 p.


TESTS ONZUIVER BELICHT

P.J. Tellegen


De omvangrijke uitgave Testmethoden is de achtste en geheel herziene druk van band I van het standaardwerk Algemene Psychodiagnostiek van Jan de Zeeuw. De auteur is in 1998 overleden en deze uitgave is verzorgd door Riet Dekker en Wilma Resing. De banden II (Testtheorie) en III (Testpraxis) zullen niet meer worden herzien. Net als in de vorige uitgave van 1995 bestaat het boek uit drie gedeelten. Een inleidend deel dat de verschillende aspecten van psychologische tests beschrijft, zoals doelstelling, meettheorie, betrouwbaarheid en validiteit; een deel gericht op onderzoek van de intelligentie; en een deel gericht op onderzoek van de persoonlijkheid. Het boek wordt afgesloten met een uitgebreide literatuuropgave en een aantal indexen. De auteurs zien het boek in de eerste plaats als leerboek voor de psychodiagnostische testmethodiek en daarnaast als naslagwerk.

De beschrijving van de theoretische achtergrond met betrekking tot het intelligentieonderzoek is geactualiseerd en het overzicht van tests is aangepast aan nieuwe ontwikkelingen. Op het gebied van de persoonlijkheid zijn de nieuwe auteurs naar eigen zeggen minder bekend. Dat verklaart wellicht het opmerkelijke feit dat de helft van het deel met betrekking tot persoonlijkheidsonderzoek, gewijd is aan projectiemethoden. Blijkbaar achten Dekker en Resing vooral de Rohrschachtest van groot belang voor de hedendaagse diagnostiek. In de door hen toegevoegde lijst van aanbevolen literatuur hebben maar liefst acht van de 17 publicaties betrekking op de Rohrschach.

Het inleidende gedeelte van Algemene Psychodiagnostiek I gaat in op de psychometrische aspecten van meetinstrumenten. In 50 pagina's komen achtereenvolgens aan de orde: terminologie, indelingen van tests, meettheorie, testtheorieën, normering, testbetrouwbaarheid, testvaliditeit, testpsychometrie, testafname en tenslotte interpretatie en advisering. Ofschoon dit gedeelte geheel is herschreven, zijn sommige passages nodeloos ingewikkeld en niet erg helder geformuleerd zoals blijkt uit de volgende citaten:

  • "De uitspraak: 'gezien onze gegevens heeft P een goede kans van slagen' is verantwoord. In feite gaat het hier niet om de kans van de individuele onderzochte, maar om de kans van de diagnost met de test(s)."
  • "Naarmate de spreiding van de testscores groter is, wordt ook de standaardmeetfout groter. Dit is het gevolg van de hierboven genoemde herdefiniëring van het replicatieconcept van het klassieke testmodel."

Deze inleiding in de testtheorie is als leerstof ongeschikt omdat teveel informatie in een te beknopte vorm wordt behandeld. Een onoverkomelijk probleem vormt echter het grote aantal fouten met betrekking tot de behandelde theorie. Ten Berge (Tijdschrift voor Onderwijsresearch, 1980) oordeelde indertijd al als volgt over Testtheorie van De Zeeuw: "Maar het betoog wordt zo vaak en in zo ernstige mate ontregeld door misgrepen dat dit boek noch als leerboek, noch als naslagwerk kan worden aanbevolen."
Voor dit boek geldt met betrekking tot het psychometrische deel helaas hetzelfde. Van de misgrepen volgen hier enkele voorbeelden:

  • Meerkeuze items in intelligentietests hoeven niet tenminste vier antwoordalternatieven te hebben.
  • Bij goed/fout scoring zou volgens de auteurs het optellen van scores niet zijn toegestaan.
  • De auteurs menen dat een volledige intervalschaal verkregen wordt door te stellen dat de afstand tussen twee (willekeurig gekozen) meetpunten uit een aantal gelijke afstanden bestaat. Hierbij gaan zij echter aan het essentiële probleem voorbij hoe de gelijke afstanden bepaald moeten worden.
  • Volgens de auteurs lopen tot z-scores getransformeerde testscores volgens een geaccepteerde afspraak van -3 tot +3. Hierover bestaan echter geen geaccepteerde afspraken. De IQ-scores zouden dan altijd variëren van 55 tot 145 hetgeen bijvoorbeeld bij de WISC-III RN en de SON-R 2,5-7 niet het geval is.
  • Ten onrechte wordt gesuggereerd dat het niet zuivere intervalkarakter van testscores er een belangrijke oorzaak van is dat validiteiten nooit erg hoog kunnen zijn.
  • Itemkarakteristieke curves worden bij IRT afgezet tegen de latente eigenschap en niet tegen de testscore zoals de auteurs menen.
  • Het Mokkenmodel heeft niet als enige eis dat de itemcurves monotoon stijgen; de curves dienen elkaar ook niet te snijden.
  • Indien het doel is om bij een intelligentietest normen te baseren op een landelijk representatieve steekproef, dan is het inconsequent om te stellen dat het diagnostisch onbevredigend zou zijn om een plattelander met dezelfde normen te beoordelen als een stedeling. In dit kader wordt het ook als een (naar onze mening achterhaald) probleem gepresenteerd of men kinderen van verschillend sociaal- economisch milieu met aparte IQ-normen moet beoordelen. Daarentegen wordt het actuele en zeer relevante probleem van aparte normen voor allochtonen niet expliciet genoemd.
  • De uitspraak dat het klassieke testmodel geen middel geeft om de betrouwbare scorecomponent van een testscore te voorspellen is onjuist. De voorstelling van de auteurs als zou men bij de klassieke testtheorie metingen bij meerdere personen beschouwen als herhaalde meting bij 1 persoon, is eveneens onjuist. Ook hetgeen over parallelle tests en over de split-half methode wordt gezegd klopt niet.
  • Het is niet juist dat een interval rond de geobserveerde score, gebaseerd op de standaardmeetfout, aangeeft hoe waarschijnlijk het is dat de betrouwbare score binnen de grenzen van het interval valt. Hiertoe moet men een waarschijnlijkheidsinterval berekenen, dat gebaseerd wordt op de standaardschattingsfout.
  • Het kwadraat van een correlatiecoëfficiënt geeft niet de proportie gemeenschappelijke variantie weer.

Een absoluut dieptepunt in dit theoretische deel van Algemene Psychodiagnostiek I is echter de volgende opmerking:

  • "De betrouwbaarheidsintervallen behorend bij bijvoorbeeld het 95% betrouwbaarheidsinterval zijn vaak nogal groot en daarom in de praktijk van beperkte waarde." En nadat bij een IQ-score van 105 een interval van 95-115 is berekend, gaan de auteurs als volgt verder: "In de praktijk kan men hier niet veel mee: de ondergrens is bij dit kind gemiddeld en de bovengrens is een IQ op het niveau 'boven gemiddeld'. Het is natuurlijk zeer onwaarschijnlijk dat men er in de praktijk zover 'naast' zou zitten, maar dit is het statistische gegeven. De grootte van een meetfout wordt namelijk mede bepaald door de grootte van de standaarddeviatie."

Nu tonen betrouwbaarheidsintervallen juist aan dat men er in de 'praktijk' heel gemakkelijk naast kan zitten en hoe frequent dit gebeurt. De belangrijkste bijdrage die de psychometrie aan testgebruikers kan geven (afgezien van de constructie van deugdelijke tests) is juist duidelijk te maken dat een testuitkomst niet hetzelfde is als een exacte meting. In feite geven de auteurs dus de aanbeveling om de psychometrie maar terzijde te schuiven omdat zij deze boodschap niet willen horen.


Het grootste gedeelte van het boek is gewijd aan de bespreking van intelligentietests en tests op het gebied van de persoonlijkheid. Ten opzichte van de vorige uitgave zijn enkele recent verschenen tests zoals de KAIT, WISC-III en WAIS-III toegevoegd. In een aantal opzichten komt dit overzicht overeen met de informatie die ook te vinden is in de Documentatie van tests en testresearch in Nederland die door de COTAN wordt samengesteld (Evers, van Vliet-Mulder & Groot, 2000). In de Documentatie staat de COTAN-beoordeling van de in Nederland verschenen tests vermeld en er wordt een uitgebreide opsomming gegeven van kenmerken en onderzoeksresultaten. De behandeling in Algemene Psychodiagnostiek I is meer beschrijvend van aard. Er worden voorbeelden van testitems gegeven en de tests worden in een kader geplaatst. Een meer geïntegreerde benadering heeft zeker voordelen en kan een dergelijk overzicht ook beter leesbaar maken.

Van een boek dat als leerboek en naslagwerk is bedoeld mag wel worden verwacht dat dit zorgvuldig wordt samengesteld, waarbij niet vooringenomen te werk wordt gaan. Daaraan schort het echter bij het overzicht van de intelligentietests. In de praktijk is een belangrijk aspect voor de gebruiksmogelijkheden van tests de COTAN-beoordeling en dan in het bijzonder de beoordeling van de normering. Over de LDT (Schroots & Van Alphen de Veer, 1976) melden de auteurs dat de COTAN-beoordeling laat zien dat de test op alle psychometrische aspecten aan de eisen voldoet. "De normen zijn echter zodanig verouderd dat deze, indien herbeoordeeld, als onvoldoende zouden worden aangemerkt."
Over de SON-R 5,5-17 (Snijders, Tellegen & Laros, 1988) wordt gemeld: "De COTAN beoordeling laat op alle onderdelen het predicaat 'goed' zien. De normen echter, verzameld in 1987, zouden bij herbeoordeling nu een onvoldoende beoordeling krijgen aangezien ze ruim 17 jaar geleden zijn verzameld en geconstrueerd."
Het valt op dat dergelijke constateringen niet worden gemaakt bij de ITVIK (Dekker, 1987) en bij de RAKIT (Bleichrodt, Drenth, Zaal & Resing, 1984), waarvan de normen toch ouder zijn. Bovendien zijn de uitspraken over de criteria die de COTAN zou hanteren niet correct. In het Beoordelingssysteem voor de Kwaliteit van Tests van de COTAN is dit namelijk als volgt geformuleerd: "Teneinde de gebruiker te attenderen op mogelijk versleten normen zal aan de beoordeling van tests waarvan hernormerings- of ijkingsonderzoek sinds 15 jaar niet heeft plaatsgevonden, de kwalificatie 'De normen zijn verouderd' worden toegevoegd. Na nog eens vijf jaar zonder dergelijk onderzoek wordt deze kwalificatie gewijzigd in: 'Wegens veroudering zijn de normen niet meer bruikbaar'." Hetgeen in dit boek wordt gemeld over de uitkomst van een eventuele herbeoordeling van de SON-R 5,5-17 is dus onjuist. Men gaat er ook aan voorbij dat de (verkorte vorm van de) test in 2003 opnieuw door de COTAN is beoordeeld. Het oordeel over de normering was wederom 'goed'.

Een ander voorbeeld van selectieve aandacht betreft de uitgave van de WAIS-III en WISC-III. Bij de bespreking van de WAIS-III wordt uitgebreid ingegaan op de bezwaren die zijn ingebracht tegen de wijze waarop de test is uitgegeven, met name de gebrekkige normering. Over de WISC-III wordt echter gezegd dat deze in 2002 is genormeerd op een representatieve steekproef. Dat dit niet zo is, is echter algemeen bekend en is inmiddels aanleiding tot een tweede herziening van de normen. De gerapporteerde interbeoordelaarsbetrouwbaarheid wordt hoog genoemd. Van diverse kanten (onder andere de COTAN) is echter naar voren gebracht dat dit een artefact is en het gevolg van een onjuiste methode van berekening. Er wordt wel melding gemaakt van kritiek op de WISC-III maar deze zou overdreven zijn. Hiervoor worden geen argumenten gegeven maar in plaats daarvan wordt verwezen naar een later te verschijnen Technische Verantwoording waarvan de publicatie reeds drie jaar lang wordt aangekondigd.
Overigens wordt de handleiding van de WISC-III, waarvan Resing auteur is, opeens 'voorlopig' genoemd. De uiterst negatieve COTAN beoordeling van de WISC-III wordt ook een 'voorlopige' beoordeling genoemd, terwijl de COTAN dit predikaat niet kent.

In de weergave van de prestaties van allochtone kinderen op intelligentietests wordt eveneens selectief te werk gegaan. Zo worden bij de RAKIT gemiddelden van allochtone groepen vermeld nadat voor sociaal-economisch niveau is gecorrigeerd. Bij de SON-R 5,5-17 gebeurt dit niet. Ten onrechte wordt bij de SON-R 5,5-17 het gemiddelde van Turks/Marokkaanse kinderen vermeld als het gemiddelde van alle allochtone kinderen op de SON-R 5,5-17. Dit laatste gemiddelde (zonder correctie voor SES) is echter 94 en niet, zoals wordt vermeld, 84.
Men presenteert de gegevens alsof er voor allochtone kinderen nauwelijks verschillen zijn tussen de RAKIT en de SON-R. Het relevante gegeven dat deze groep juist op de verbale onderdelen van de RAKIT zo'n grote achterstand heeft wordt niet vermeld. Op de uitkomsten van enkele honderden allochtone kinderen op de SON-R 2,5-7 wordt in het geheel niet ingegaan. Toch is het vermeldenswaard dat bij de SON-R 2,5-7, een niet-verbale intelligentietest, het verschil tussen de autochtone en allochtone groep na correctie voor SES slechts 3 IQ-punten is. Bij de RAKIT is dit gecorrigeerde verschil 10 punten voor Surinaams/Antilliaanse kinderen en 15 punten voor Turkse en Marokkaanse kinderen.

Een leerboek en overzichtswerk dat bedoeld is voor een wetenschappelijk publiek moet vanzelfsprekend met kennis van zaken en grote zorgvuldigheid worden samengesteld. Omdat de lezer in het algemeen niet zelf de juistheid van de gepresenteerde informatie kan controleren, moet hij blindelings kunnen vertrouwen op de tekst. In deze kritiek zijn diverse voorbeelden gegeven van onjuiste informatie en van selectieve oordelen. Hierdoor schiet de uitgave van Algemene Psychodiagnostiek I zijn doel voorbij. Voor een betrouwbaar overzicht van tests blijft men voorlopig aangewezen op de eerder genoemde Documentatie van tests en testresearch in Nederland.


Litteratuur

Berge, J.M.F. ten (1980). Boekbesprekingen: J. de Zeeuw, Algemene Psychodiagnostiek II: Testtheorie. Tijdschrift voor Onderwijsresearch 5, nr. 2, 94-95.
Bleichrodt, N., Drenth, P.J.D., Zaal, J.N., & Resing, W.C.M. (1984). Revisie Amsterdamse Kinder Intelligentietest. Lisse: Swets & Zeitlinger.
Dekker, R. (1987). Intelligentie van visueel gehandicapte kinderen in de leeftijd van 6 tot 15 jaar. Academisch proefschrift. Amsterdam: Vrije Universiteit, Arbeids- en Organisatiepsychologie.
Evers, A., Vliet-Mulder, J.C. van, & Groot, C.J. (2000). Documentatie van Tests en Testresearch in Nederland. Assen: Van Gorcum.
Schroots, J.J.F., & Alphen de Veer, R.J. van (1976). LDT. Leidse Diagnostische Test, deel I. Handleiding. Amsterdam: Swets & Zeitlinger.
Snijders, J.Th., Tellegen, P.J., & Laros, J.A. (1988). Snijders-Oomen niet-verbale intelligentietest. SON-R 5,5-17. Verantwoording en handleiding. Groningen: Wolters-Noordhoff.
Zeeuw, J. de (1995). Algemene Psychodiagnostiek I. Testmethoden. Lisse: Swets & Zeitlinger.


to top to top to top to top

homepage T&T homepage SON-tests