De kwaliteit van de normen van de WAIS-III De normen van de WAIS-III Afname WAIS-III of WISC-III; Verantwoord en Verstandig? Afname WAIS-III of WISC-III? COTAN beoordeling WAIS-III COTAN beoordeling WAIS-III
Betrouwbaarheid en validiteit WAIS-III Betrouwbaarheid en validiteit WAIS-III Veranderingen in steekproef en testmateriaal Veranderingen in steekproef en testmateriaal. S&Z aan de gebruikers S&Z mailing aan de gebruikers
Normering WAIS-III ingrijpend herzien Normering WAIS-III ingrijpend herzien Herziene normering in strijd met CBS gegevens Normering in strijd met CBS gegevens .


Dit artikel is ook te downloaden als Word document: klik,

De Psycholoog, maart 2003, p. 128-132

Forum

De betrouwbaarheid en validiteit van de WAIS-IIINL

Peter Tellegen

De aandacht op de WAIS-III was tot nu toe sterk gericht op de problemen rond de normering.
Met de betrouwbaarheid en validiteit blijkt echter ook het nodige aan de hand te zijn.
Bovendien duikt er een nieuw probleem op. Is de WAIS-III die nu wordt verkocht wel gelijk aan de test die bij het normeringsonderzoek is gebruikt?

Inleiding

De kritiek op de Nederlandse versie van de WAIS-III had vooral betrekking op de normering (zie bijv. Van der Laan & Oswald, 2001; Derksen & Katzko, 2002; Tellegen, 2002a). Dit heeft ertoe geleid dat de uitgever besloten heeft aanvullende normgegevens te verzamelen en de normering opnieuw uit te voeren (Span, 2002). Op de betrouwbaarheid en validiteit van de WAIS-III is nog niet uitgebreid ingegaan.
In dit artikel wordt aandacht besteed aan de betrouwbaarheid en validiteit zoals deze besproken is in de Technische Handleiding van de WAIS-III (Uterwijk, 2000). Bij de beoordeling is gebruik gemaakt van de richtlijnen van de COTAN (1999).

De betrouwbaarheid van de testscores

De betrouwbaarheid van de testscores is bij de WAIS-III voornamelijk bepaald met de split-half methode als maat voor de interne consistentie. Voor twee subtests die als snelheidstests worden beschouwd is de betrouwbaarheid gebaseerd op test-hertest gegevens. De betrouwbaarheden worden per afzonderlijke leeftijdsgroep weergegeven en voor de totale normgroep. Voor de twee snelheidstests en voor de Index Verwerkingssnelheid wordt alleen een totaaluitkomst gepresenteerd, gebaseerd op een stabiliteitsonderzoek bij 60 personen.

Voor tests zoals de WAIS-III, die gebruikt worden voor belangrijke beslissingen, hanteert de COTAN als uitgangspunt voor de gewenste hoogte van de betrouwbaarheidscoëfficiënt voor het oordeel ‘goed’, dat de betrouwbaarheid van de totaalscores in vrijwel alle relevante groepen tenminste .90 moet zijn. Voor het totaal IQ (TIQ) en het verbaal IQ (VIQ) is dit het geval, het performaal IQ (PIQ) is echter in vijf van de zeven leeftijdsgroepen < .90. Van de indexscores is in 20% van de gevallen de betrouwbaarheid <.90. De betrouwbaarheid van de subtestscores dient voor de WAIS-III tenminste .80 te zijn voor het oordeel 'goed'. Echter 33 van de 84 vermelde betrouwbaarheden voor de subtests zijn <.80 en van drie subtests is de betrouwbaarheid in vrijwel alle leeftijdsgroepen <.70.
Op grond van deze uitkomsten zou het voorlopige COTAN-oordeel over de betrouwbaarheid niet beter kunnen zijn dan ‘voldoende’, een oordeel dat naar beneden kan worden bijgesteld indien de kwaliteit van het uitgevoerde onderzoek niet aan de eisen voldoet.

Leeftijdseffect op de berekening van de betrouwbaarheid
In de Technische Handleiding wordt de betrouwbaarheid uitsluitend besproken aan de hand van de uitkomsten van de totale steekproef. Op grond hiervan komen de auteurs tot zeer positieve uitspraken over de betrouwbaarheid. De betrouwbaarheid van de IQ- en indexscores wordt door hen zelfs extreem hoog genoemd. Voor een intelligentietest is echter niet de betrouwbaarheid van de ruwe scores in een heterogene leeftijdsgroep van belang maar de betrouwbaarheid van de voor leeftijd genormeerde scores. Het presenteren van betrouwbaarheidscoëfficiënten over heterogene leeftijdsgroepen wordt in het Beoordelingssysteem van de COTAN dan ook onjuist en zelfs misleidend genoemd (COTAN, 1999, Ad. 4.3.b.)

In onderstaande tabel is van de subtests die gebruikt worden voor de berekening van de IQ-scores, de gemiddelde betrouwbaarheid weergegeven voor de zeven leeftijdsgroepen en de betrouwbaarheid die vermeld wordt voor de totale steekproef. Tevens is de correlatie vermeld bij een hertest na een periode van drie tot twaalf weken.

Tabel 1
Interne consistentie gemiddeld over 7 leeftijdsgroepen (gem.),
interne consistentie voor totale steekproef (tot.)
en stabiliteitcoëfficiënt bij test-hertest (stab.)
verbale subtests performale subtests
. gem. tot. stab. . gem. tot. stab.
W .904 .91 (.91) OT .693 .77 (.77)
O .829 .84 (.83) SSC - .77 (.77)
R .863 .87 (.78) Bp .814 .89 (.88)
Cr .846 .86 (.70) MR .861 .91 (.78)
I .890 .89 (.92) PO .631 .76 (.78)
B .816 .81 (.89) .
VIQ .964 .97 (.94) PIQ .890 .94 (.84)

Bij de verbale subtests is er weinig verschil tussen de gemiddelde waarde van de betrouwbaarheid voor de zeven leeftijdsgroepen en de waarde voor de totale groep. Dit ligt ook voor de hand aangezien de prestaties op de verbale onderdelen weinig veranderen met leeftijd (zie Tellegen, 2002ab). Voor de performale subtests geldt dat de betrouwbaarheid berekend over de totale groep duidelijk hoger is. Voor deze subtests is er wel sprake van een samenhang met leeftijd, de prestaties gaan vanaf vijftig jaar aanzienlijk achteruit. In de totale groep wordt de betrouwbaarheid van de genormeerde subtestscores en van het PIQ sterk overschat.

De stabiliteitcoëfficiënten zijn berekend over een kleine, en qua leeftijd heterogene groep van 60 personen (in de Inleiding staat echter dat de hertest bij 77 proefpersonen is uitgevoerd). Het is daarom moeilijk om op grond van deze correlaties die op een heterogene leeftijdsgroep zijn gebaseerd de betrouwbaarheid van de voor leeftijd genormeerde testscores te schatten. Voor de subtest Symbool Substitutie – Coderen is vanwege het snelheidskarakter geen betrouwbaarheid per leeftijdsgroep bepaald en wordt in plaats daarvan voor de totale groep de stabiliteitcoëfficiënt gebruikt. In de Technische Handleiding wordt echter niet vermeld op wat voor manier de betrouwbaarheid van deze subtest is gebruikt bij de berekening van de betrouwbaarheid van het PIQ en TIQ per leeftijdsgroep. Er wordt trouwens in het geheel niet ingegaan op de berekeningswijze van de betrouwbaarheid van de IQ- en Index-scores.

Uit het feit dat de betrouwbaarheid van het PIQ voor de totale groep duidelijk hoger is dan binnen de leeftijdsgroepen, kan worden afgeleid dat de coëfficiënt voor de totale groep niet betrekking heeft op de IQ-scores (deze zijn immers voor leeftijd genormeerd) maar op een ruwe somscore. Bij de stabiliteit hebben we echter vermoedelijk wel met IQ-scores te maken, gezien de gemiddelden en spreidingen die in de Technische Handleiding in tabel 3.3 zijn vermeld. Daarom is de stabiliteit van het PIQ ook aanmerkelijk lager in vergelijking tot de betrouwbaarheid van het PIQ over de totale groep, terwijl slechts voor één performale subtest de stabiliteit lager is dan de betrouwbaarheid.

Effect van de afnameprocedure op de berekening van de betrouwbaarheid
Indien de betrouwbaarheid van een test bepaald wordt op grond van de interne consistentie van itemscores (zoals bij alpha) of van testhelften (split-half methode) is het noodzakelijk dat de verschillende scores onafhankelijk van elkaar verkregen worden. Wanneer door de afnameprocedure een samenhang wordt opgelegd heeft dit als gevolg dat de betrouwbaarheid wordt overschat. Zo is gebleken dat als gevolg van adaptieve procedures de betrouwbaarheid schijnbaar kan toenemen terwijl deze feitelijk lager wordt (Snijders, Tellegen & Laros, 1988).
Een soortgelijk effect treedt op bij tests met een snelheidskarakter. Volgens de Afname en Scoringshandleiding van de WAIS-III (Wechsler, 2000) heeft de helft van de subtests een tijdslimiet, is er bij zeven van de veertien subtests een instapregel en wordt bij elf subtests de afname gestopt na een gefixeerd aantal fouten. Bij alle subtests wordt zo een afhankelijkheid tussen de itemscores gecreëerd. In het Beoordelingssysteen van de COTAN wordt aangeraden in een dergelijke situatie voor de bepaling van de betrouwbaarheid geen interne consistentiematen te gebruiken, of anders correcties toe te passen (COTAN, 1999, Ad.4.2.b.).

Toepassing van de betrouwbaarheidsgegevens
Met behulp van standaardmeetfouten, waarschijnlijkheidsintervallen, en vereiste verschillen tussen scores voor statistische significantie, wordt in de Technische Handleiding inzicht gegeven in de nauwkeurigheid van de verkregen scores. De uitwerking hiervan is in veel gevallen echter niet correct. Dit blijkt uit het volgende:

  • de standaardmeetfout van de genormeerde scores bij de gecombineerde groep wordt ten onrechte gebaseerd op de betrouwbaarheid van de ruwe scores in de heterogene leeftijdsgroep;
  • de formule voor de standaardschattingsfout (ten onrechte geschatte standaardmeetfout genoemd) is niet juist (zie COTAN, 1999, Ad. 3.6);
  • voor de interpretatie van verschillen tussen scores wordt aangeraden de grenswaarden te gebruiken die berekend zijn als gemiddelde voor alle groepen; de grenswaarde is echter gebaseerd op de betrouwbaarheid van de ruwe scores in de heterogene leeftijdsgroep;
  • de waarschijnlijkheidsintervallen in de Afname- en Scoringshandleiding van de WAIS-III zijn niet gebaseerd op de betrouwbaarheid van de WAIS-III NL maar op de betrouwbaarheid van de Amerikaanse versie;
  • naast de reeds bekende fouten in de tabel met betrekking tot de stabiliteit, blijken ook in de andere tabellen belangrijke fouten te zitten.

Het oordeel over de betrouwbaarheid
De wijze waarop de betrouwbaarheid van de WAIS-III NL is onderzocht vertoont grote gebreken. De betrouwbaarheid van de scores binnen de leeftijdsgroepen wordt overschat en het is soms onduidelijk hoe de berekening is uitgevoerd. Ten onrechte worden de uitkomsten in de heterogene leeftijdsgroep als maatgevend beschouwd en deze uitkomsten worden in een aantal gevallen vervolgens op een onjuiste wijze voor de toetsen gebruikt. De belangrijkste toepassing van de betrouwbaarheid, de weergave van waarschijnlijkheidsintervallen voor de 'ware' score, wordt gebaseerd op Amerikaanse betrouwbaarheidsgegevens zonder dat aannemelijk is gemaakt dat dit verantwoord is.

Op grond van de kwaliteit van het onderzoek zou volgens het Beoordelingssysteem van de COTAN het voorlopig oordeel 'voldoende' over de betrouwbaarheid naar beneden moeten worden bijgesteld en wordt daarmee 'onvoldoende'. Dit geldt des te meer daar de gebreken van het onderzoek vrijwel steeds een overschatting van de betrouwbaarheid als gevolg hebben.

Het onderzoek naar de validiteit van de WAIS-III

De validiteit is op drie manieren onderzocht. Via relaties met andere tests, via onderzoek naar de interne structuur van de test en op grond van uitkomsten bij een aantal klinische steekproeven. Dit laatste wordt bij de indeling van de COTAN tot de criteriumvaliditeit gerekend terwijl factoranalyse en correlaties met soortgelijke tests gerekend worden tot de begripsvaliditeit.

Interne structuur
In de Technische Handleiding worden de onderlinge correlaties tussen de subtests gepresenteerd alsmede de correlaties met de schaalscores. De correlaties met de schaalscores worden gegeven zowel inclusief als exclusief de betreffende subtest. Het merkwaardige is dat de correlaties tussen de subtests betrekking hebben op de ruwe scores terwijl het bij de schaalscores gaat om somscores van genormeerde scores. Bij nadere inspectie blijkt dat er in de tabel ongerijmdheden zitten. De correlatie van de subtest woordenschat met het TIQ stijgt van .52 naar .72 indien de subtest bij het TIQ wordt betrokken terwijl voor Cijferreeksen de correlatie vrijwel gelijk blijft (gaat van .52 naar .53).
In de Technische Handleiding wordt aangegeven hoe het patroon van correlaties bij zou kunnen dragen aan een oordeel over de validiteit maar de gepresenteerde correlaties worden niet besproken en zij worden niet aan de hand van de door de auteurs genoemde criteria beoordeeld. Bovendien zou een dergelijke analyse gebaseerd moeten worden op correlaties tussen genormeerde scores.

Bij de exploratieve factoranalyse wordt een vierfactoroplossing redelijk ondersteund door de ladingen van de subtests. De subtest Rekenen heeft echter een even hoge lading op drie factoren en past niet specifiek bij de factor Werkgeheugen waarbij de subtest is ondergebracht. Verder hebben slechts twee subtests een hoge lading op de factor Verwerkingssnelheid. Dit is weinig om een factor te definiëren.

Bij de confirmatieve factoranalyse zijn 1, 2, 3 en 4-factormodellen onderzocht in de totale groep en in verschillende leeftijdsgroepen. De vermelde aantallen personen en de grenzen van de leeftijdsgroepen zijn niet in overeenstemming met andere gegevens. Bij de bespreking van de goodness-of-fit toetsen wordt vermeld dat zowel een drie- als een vierfactormodel kan voldoen en dat de uitkomsten per leeftijdsgroep verschillen. Het is echter niet duidelijk hoe de driefactoroplossing eruit ziet, wat de verschillen tussen de leeftijdsgroepen zijn, en welke gevolgen dit heeft voor de diagnostiek. Bovendien wordt niet aangegeven hoe de ladingen zijn bij de tweefactoroplossing en hoe dit correspondeert met het onderscheid in Verbaal IQ en Performaal IQ.

Het is niet duidelijk of de factoranalyses gebaseerd zijn op ruwe scores of op genormeerde scores. Dit onderscheid is natuurlijk wel van belang. Bij navraag verklaarde Swets Test Publishers dat bij de factoranalyse vermoedelijk een leeftijdscorrectie op de correlaties is toegepast. Zij zijn echter niet bereid om de correlatiematrix van de genormeerde subtestscores openbaar te maken, zodat de uitkomsten niet controleerbaar zijn.

Correlaties met andere tests
De correlaties met andere tests hebben betrekking op de oude WAIS en op een experimentele Nederlandstalige versie van de Kaufman Adolescent and Adult Intelligence Test (KAIT) en van de Kaufman Short Neuropsychological Assessment Procedure (K-SNAP).
De correlaties van de schaalscores van de WAIS-III met de oude WAIS zijn hoog en goed vergelijkbaar met de hertestcorrelaties en met Amerikaans onderzoek naar de samenhang tussen WAIS-R en WAIS-III. De verschillen tussen de gemiddelde scores worden echter op een te simpele wijze verklaard door te verwijzen naar het Flynn-effect. Er wordt niet onderkend dat ook van een leereffect sprake is (dat de oude WAIS steeds als tweede test is afgenomen wordt niet vermeld).

De correlaties met de KAIT zijn buitengewoon laag, in aanmerking genomen dat beide tests beogen hetzelfde te meten. De correlatie tussen het TIQ van de WAIS-III met de KAIT was in het Amerikaanse onderzoek .83 terwijl deze in het Nederlandse onderzoek slechts .51 is. Onbegrijpelijk dat de auteurs dit 'redelijk hoog' noemen. Bij de KAIT worden een schaal voor 'cristalized' en een schaal voor 'fluid intelligence' onderscheiden. Het is opmerkelijk dat de correlaties van de WAIS-III met deze schalen niet worden vermeld, dit zou juist informatie kunnen geven over de convergente en divergente validiteit.

Het onderzoek wordt ook in andere opzichten veel te summier weergegeven. Er zijn geen gegevens over het aantal proefpersonen en over de leeftijd en ook geen gegevens over het gemiddelde en spreiding van de scores. Bovendien blijkt dat opnieuw genormeerde scores gecorreleerd worden met ruwe scores hetgeen de uitkomsten zal hebben vertekend.

Intelligentiemeting bij ouderen
Voor de validiteit van de WAIS-III als intelligentiemaat bij ouderen is het een belangrijk gegeven dat de prestaties bij de performale schaal sterk afnemen vanaf vijftig jaar terwijl dit niet het geval is voor de onderdelen van de verbale schaal. Het is een grote tekortkoming dat dit niet in de handleiding wordt gesignaleerd en dat niet wordt ingegaan op de implicaties hiervan voor de toepasbaarheid van het IQ bij ouderen. De achteruitgang bij de performale subtests is vermoedelijk toe te schrijven aan het snelheidskarakter van deze onderdelen en het beroep dat wordt gedaan op motorische vaardigheden. Dat deze vaardigheden met de ouderdom afnemen houdt niet in dat ook de intelligentie afneemt. Weliswaar worden de normen aangepast zodat het performaal IQ gelijk blijft aan 100, maar dit is een correctie voor het gemiddeld effect. Personen die eerder of in grotere mate van deze problemen last krijgen, gaan er schijnbaar in intelligentie op achteruit, terwijl personen die (nog) geen last hebben van deze motorische problemen schijnbaar intelligenter worden. Net als het geval is bij het gebruik van verbale testonderdelen bij allochtonen (Tellegen, 2000, 2001) kan het probleem van de performale testonderdelen bij ouderen niet opgelost worden door aanpassing van normen. Daarentegen moeten onderdelen die niet (meer) bruikbaar zijn buiten beschouwing worden gelaten bij de beoordeling van de intelligentie. Het is daarom bijzonder jammer, en in strijd met de bedoeling de test ook voor hoogbejaarden geschikt te maken, dat bij verschillende onderdelen van de WAIS-III het snelheidskarakter juist versterkt is in vergelijking tot de oude WAIS.

Beoordeling van de validiteit door de COTAN
De criteriumvaliditeit is door de COTAN als ‘onvoldoende’ beoordeeld aangezien uitsluitend het Amerikaanse onderzoek is vermeld. Het is opmerkelijk dat veel uitkomsten die wel bekend waren, niet in de Technische Handleiding zijn vermeld. Zo wordt er geen aandacht besteed aan verschillen tussen de Nederlandse en de Vlaamse steekproef; geen gegevens over sekseverschillen (die aanzienlijk blijken te zijn); niets over de samenhang met opleidingsniveau en geen informatie hoe de testscores met leeftijd veranderen.

De begripsvaliditeit is door de COTAN als 'voldoende' beoordeeld. De aard en de uitkomsten van het onderzoek naar de begripsvaliditeit rechtvaardigen dit als voorlopig oordeel. Op grond van de grote gebreken in de wijze waarop het onderzoek is uitgevoerd en gepresenteerd, behoort dit oordeel echter naar beneden te worden bijgesteld. Daarom is naar onze mening ook de begripsvaliditeit van de WAIS-III ‘onvoldoende’.

Testmateriaal en instructies

De kwaliteit van het testmateriaal en van de instructies worden bij de Wechsler-tests in het algemeen als ‘goed’ beoordeeld. Derksen en Katzko (2002) hebben wel kritische opmerkingen geplaatst bij de gevolgde methode van vertaling naar het Nederlands, maar dit zou dan consequenties hebben voor equivalentie met de oorspronkelijke test en hoeft niet noodzakelijkerwijs negatieve gevolgen te hebben voor de kwaliteit. Onlangs is echter naar buiten gekomen dat er reden voor twijfel is of de test zoals die in het normeringsonderzoek is afgenomen wel gelijk is aan de nu gepubliceerde test wat betreft materiaal, instructies en scoringsregels. De aanleiding voor deze twijfel is een brief die één van de testleiders bij het normeringsonderzoek van de WAIS-III (een gepromoveerd psychologe) heeft verstuurd aan de leden van de COTAN. Hieruit het volgende citaat waarin zij de gang van zaken beschrijft nadat de oorspronkelijke projectleider niet meer in functie was:

“De dataverzameling voor de WAIS-III was echter niet klaar (…). Onze reactie was: hoe is het mogelijk dat men zo’n omvangrijk onderzoek stopzet – een nieuwe projectleider aanstelt die van toeten noch blazen weet – geen idee heeft van de bestaande informatie maar wel even het onderzoek moet afronden want … de test moet verkocht worden.
Nog groter werd onze verbazing en boosheid toen we merkten dat deze peperdure test allerlei wijzigingen bevatte in vergelijking met datgene wat wij hadden afgenomen.
VB. Blokpatronen was uitgebreid met moeilijker items. Die zitten er niet meer in en daarvoor in de plaats zijn, om de moeilijkheidsgraad van de oude items te verhogen, de tijden bekort en wel zodanig dat de pp. er eigenlijk geen behoorlijke score mee kan halen.
Hoe kan dit?"

Uit de vergelijking van het scoreformulier dat bij de normering is gebruikt met het huidige scoreformulier, blijkt dat bij vijf subtests naderhand items zijn weggelaten. Als gevolg van de afbreekregels kan niet altijd worden nagegaan hoe de score zou zijn indien het item niet in de test was opgenomen. Daarnaast zijn bij sommige subtests achteraf ook de instap- en afbreekregels veranderd. Tenslotte zijn er aanwijzingen dat in de formulering van items, in de instructies, en in de criteria voor scoring van antwoorden, veranderingen zijn aangebracht.

Dat door de auteurs van de WAIS-III na de normering het testmateriaal is aangepast, is in strijd met de richtlijnen voor testontwikkeling en testgebruik van de COTAN (1988, richtlijn 6.2) en van de International Test Commission (ITC, 1999, punt 2.9.3). In de Afname- en Scoringshandleiding van de WAIS-III NL worden voor de testgebruiker enkele elementaire afnameprocedures besproken. Hierbij wordt gewaarschuwd dat indien er wordt afgeweken van de standaardprocedures, dit de betrouwbaarheid en de geldigheid van de testresultaten negatief kan beïnvloeden. De gebruikers worden echter niet op de hoogte gesteld van de veranderingen die de auteurs zelf hebben aangebracht.

Conclusie

De COTAN-beoordeling van de WAIS-III is eind 2002 bekend geworden. De kwaliteit van het testmateriaal en de kwaliteit van de handleiding, alsmede de betrouwbaarheid zijn als ‘goed’ beoordeeld. De uitgangspunten bij de constructie en de begripsvaliditeit als ‘voldoende’ en de normen en de criteriumvaliditeit als ‘onvoldoende’. De wijze waarop het onderzoek naar de betrouwbaarheid en validiteit van de WAIS-III is uitgevoerd en gepresenteerd is echter zo gebrekkig dat de beoordeling van de betrouwbaarheid en van de validiteit ‘onvoldoende’ zou moeten zijn

Swets Test Publishers heeft uiteindelijk erkend dat de steekproef van de WAIS-III niet representatief is en gaat de normgroep uitbreiden en de normering opnieuw uitvoeren. Naar nu blijkt is de huidige normgroep van 745 personen een beperkt deel van de oorspronkelijk geplande normgroep. Ongeveer een kwart van de steekproef moest nog worden getest toen de WAIS-III werd uitgebracht en het is duidelijk dat de huidige normgroep niet voldoet aan het gestratificeerde steekproefplan dat aanvankelijk was opgezet.
Als gevolg van de nieuwe normering zullen alle gegevens met betrekking tot betrouwbaarheid en validiteit opnieuw moeten worden berekend en moeten de handleidingen worden herschreven. Mits dit op een deskundige wijze wordt gedaan, kan de kwaliteit van de normen, van de betrouwbaarheid en van de validiteit aanzienlijk worden verbeterd. Indien het echter zo is dat de test in het normeringsonderzoek ingrijpend afweek van de huidige versie, dan zijn de problemen moeilijk oplosbaar. Het is daarom van groot belang dat een zorgvuldige vergelijking wordt gemaakt tussen de normeringsversie van de test en de test zoals die nu wordt verkocht. Over de uitkomsten daarvan zal de lezer informatie kunnen vinden op deze site [www.testresearch.nl].

Dr. P.J. Tellegen is universitair docent/onderzoeker bij de afdeling Persoonlijkheidspsychologie en Differentiële Psychologie van de Rijksuniversiteit Groningen. Hij is auteur van verschillende intelligentietests. E-mail <p.j.tellegen@ppsw.rug.nl>.

Literatuur

COTAN (1988). Richtlijnen voor ontwikkeling en gebruik van psychologische tests en studietoetsen. Amsterdam: NIP.
COTAN (1999). Beoordelingssysteem voor de kwaliteit van tests. Amsterdam: NIP.
Derksen, J. & Katzko, M. (2002). WAIS-III: enkele kritische notities. De Psycholoog, 37, 460-462.
ITC (1999). International Guideliness for test-use. Version 2000. Copyright: International Test Commission.
Laan, E. van der & Oswald, H. (2001). WAIS in discussie. De Psycholoog, 36, 677-678.
Snijders, J.Th., Tellegen, P.J. & Laros, J.A. (1988). Snijders-Oomen Niet-verbale intelligentietest SON-R 5,5-17. Verantwoording en handleiding. Groningen: Wolters-Noordhoff.
Span, M.M. (2002). WAIS-III De stand van zaken. De Psycholoog, 37, 602-606.
Tellegen, P.J. (2000). Verantwoord testgebruik bij allochtonen. Een reactie. De Psycholoog, 35, 231-235.
Tellegen, P.J. (2001). Standpunten en verzinsels in de wetenschap. Het niveau van de discussie over testgebruik bij allochtonen [www.testresearch.nl].
Tellegen, P.J. (2002a). De kwaliteit van de normen van de WAIS-III. De Psycholoog, 37, 463-465.
Tellegen, P.J. (2002b). Correctie tabel 2. De Psycholoog, 37, 606.
Uterwijk, J. (2000). WAIS-III Nederlandstalige bewerking. Technische handleiding. Lisse: Swets & Zeitlinger.
Wechsler, D. (2001). WAIS-III Nederlandstalige bewerking. Afname en Scoringshandleiding. Lisse: Swets & Zeitlinger.


Reactie Swets Test Publishers

Swets Test Publishers heeft een week voor de publicatie-deadline van dit artikel kennis kunnen nemen van de inhoud daarvan, waarvoor dank aan de redactie van De Psycholoog. Wij voelen er echter niet voor om in ditzelfde nummer van De Psycholoog uitgebreid in te gaan op de uiterst gedetailleerde door Tellegen uitgeplozen en beschreven punten. Daarvoor is ons ook de benodigde tijd niet beschikbaar. Los daarvan besteden wij onze tijd en energie op dit moment volop aan het lopende additionele normeringsonderzoek van de WAIS-III NL-versie.
Op dit moment beperken wij ons daarom hier tot de opmerking dat er enkele belangrijke, pertinente onjuistheden in het artikel staan. Bovendien lijkt het erop dat, gezien de tendentieuze en misleidende koptekst en het citeren van anonieme ex-proefleiders, de doelstellingen van Tellegen wel eens andere zouden kunnen zijn dan het sec willen leveren van een inhoudelijke bijdrage aan de discussie over in Nederland uitgebrachte intelligentietests. Wij nodigen de lezer van De Psycholoog uit om onze meer uitgebreide reactie op dit artikel te lezen op www.swetstest.nl/info/WAIS-III, alwaar u ook andere informatie vindt omtrent het normeringsonderzoek.

Swets Test Publishers


to top to top to top to top

homepage T&T homepage SON-tests