Onze bijdrage in het Tijdschrift voor Psychotherapie (Van der Heijden, Derksen & Egger, 2008a) blijkt te inspireren tot reacties. De laatste (Hafkenscheid, 2009) heeft het karakter van een refreindicht, een ballade, door de niet onaanzienlijke overlap met de reactie van Jaspers (2008). Niettemin maken we graag gebruik van de mogelijkheid om enkele aperte onjuistheden in Hafkenscheids reactie aan te wijzen en tevens hier en daar wat nuanceringen aan te brengen. Wij zullen ons beperken tot de belangrijkste kritiekpunten van Hafkenscheid op de hoofdtekst.
Interessant is dat zowel Jaspers (2008) als Hafkenscheid (2009) het roerend eens is met de kern van ons betoog, namelijk de zinvolheid van een poging tot integratie van diagnostiek en psychotherapie. Jaspers benadrukt dat ‘het streven naar een constructieve alliantie tussen psychodiagnostiek en psychotherapie de aandacht van psychotherapeuten verdient.’ (2008, p. 376). Hafkenscheid gaat verder en voegt daar nog aan toe: ‘Van harte stem ik in met het pleidooi van Van der Heijden cum suis om psychotherapeutische keuzes en interventies te ondersteunen met psychometrische informatie.’ (2009, p. 59) Tot hier zijn we het dus eens! Een amusante analogie in psychometrische termen zou zijn dat het merendeel van de standpuntenvariantie al wordt verklaard door een en dezelfde factor. Het valt eenvoudig af te leiden dat de bezwaren, die weliswaar niet oninteressant zijn, daarmee slechts factoren zijn die in minderheid bijdragen aan diezelfde variantie.
Mikpunt van kritiek van beide heren is de toegevoegde waarde van psychometrische informatie in het algemeen en die van de Minnesota multiphasic personality inventory-2 (MMPI-2: Butcher, Dahlstrom, Graham, Tellegen & Kaemmer, 1989) in het bijzonder. In onderstaande bijdrage willen we graag punt voor punt commentaar leveren op de veelal ongenuanceerde en niet-onderbouwde uitspraken over de MMPI-2 door collega Hafkenscheid (2009). Voorts willen we kort stilstaan bij zijn kanttekeningen betreffende de waarde van psychometrische informatie.
Hafkenscheid (2009) begint zijn kanttekeningen bij de MMPI-2 met een reactie op Van der Heijden, Egger en Derksen (2007) en stelt dat ‘de overlappende schalen en de soms matige betrouwbaarheid van de MMPI-2, ondanks deze “chirurgische ingrepen in de MMPI-2”, er niet voor hebben gezorgd dat de patiënt erg versterkt uit de narcose is gekomen.’ (p. 60) De boodschap van ons artikel was dat enkele beperkingen van de MMPI-2 met de komst van de Restructured clinical scales (Tellegen, Ben-Porath, McNulty, Arbisi, Graham & Kaemmer, 2003), kortweg RC-schalen, wél goed verholpen zijn. In deze nieuwe schalen is het probleem met de itemoverlap namelijk definitief verholpen: itemoverlap komt in het geheel niet meer voor. We kunnen alleen nog spreken van enige overlap tussen de theoretische constructen waarnaar de schalen verwijzen, maar dat is eigen aan hypothetische constructen (De Groot, 1994). Problemen met de betrouwbaarheid hebben wij in het aangehaalde artikel in het geheel niet gerapporteerd. Zoals Hafkenscheid later ook schrijft, heeft de COTAN de betrouwbaarheid van de MMPI-2 met voldoende beoordeeld (Evers, Van Vliet-Mulder & Groot, 2000). Verder laten vijf van de tien RC-schalen in de normgroep een Cronbach’s α zien van 0,70 of hoger. Twee van de tien RC-schalen zitten daar dicht tegen aan (Cronbach’s α voor RC4 = 0,68 en RC8 = 0,67) en de gemiddelde Cronbach’s α voor alle schalen is ≥ 0,70, hetgeen door Evers en anderen (2000) als ‘voldoende’ wordt aangemerkt. De waarden voor de test-hertestbetrouwbaarheid van de RC-schalen in de normgroep zijn nog beter: deze zijn voor alle schalen (behalve RC6 met r = 0,67) ≥ 0,70 (Van der Heijden en anderen 2007). In een steekproef met ambulante psychiatrische patiënten (de doelgroep waarvoor de test bestemd is) ligt Cronbach’s α voor alle RC-schalen boven de 0,70 met een gemiddelde van 0,80 (Van der Heijden, Egger & Derksen, 2008c), wat door Evers en anderen (2000) met ‘goed’ beoordeeld wordt.
Wat de itemoverlap betreft, willen we op deze plaats opnieuw even in herinnering brengen dat overlap in de klinische schalen uit de MMPI-2 al net zo oud is als de MMPI zelf (Hathaway & McKinley, 1943): het is een artefact van de empirische constructie van deze schalen. Juist dit artefact heeft geleid tot de ontwikkeling van doeltreffende technieken om tot een goede testinterpretatie te komen (bijvoorbeeld het interpreteren van specifieke combinaties van verhogingen op de klinische schalen, de zogenaamde code types, en door de constructie en het gebruik van de Harris Lingoes-subschalen en de inhoudsschalen). Bovendien gaat deze kritiek niet op voor de overige schalen van de MMPI-2 (ongeveer 40).
Hafkenscheid suggereert voorts dat we de MMPI-2 maar als verloren moeten beschouwen ‘wanneer basale psychometrische kwaliteiten zoals de constructvaliditeit van een meetinstrument zich na meer dan 10.000 onderzoeken nog steeds niet fatsoenlijk hebben uitgekristalliseerd (…). Dat geldt des te meer voor een instrument dat zwaar leunt op psychometrisch toch al problematische profielinterpretaties.’ (p. 60). Dit is een merkwaardige en omgekeerde redenering. Hafkenscheid doet voorkomen alsof de 10.000 onderzoeken (het zijn er in werkelijkheid meer dan 14.000) naar en met de MMPI-2 steeds hernieuwde zinloze pogingen zijn om toch nog enige evidentie voor validiteit uit dit belabberde instrument te peuteren. Niets is echter minder waar: het betreft hier cumulatieve informatie vanuit allerlei settings met diverse externe criteria die bovendien voor de clinicus zeer handzaam en overzichtelijk is samengevat door onder meer Greene (2000), Graham (2006) en Friedman, Lewak, Nichols en Webb (2001). Onderzoek naar validiteit gaat altijd door want is nooit afgerond; de ontwikkeling van de MMPI-2-restructured form (MMPI-2-RF: Ben-Porath & Tellegen, 2008; Tellegen & Ben-Porath, 2008) is daar het recentste voorbeeld van. Dit is een kortere versie van de MMPI-2 met 338 items met de RC-schalen en daarop gebaseerde hogere-ordefactoren die beter aansluiten bij dimensionele modellen van persoonlijkheid (Krueger, 1999; Krueger, McGue, & Iacono, 2001; Sellbom, Ben-Porath, & Bagby, 2008). Hafkenscheid realiseert zich hier onvoldoende dat validiteit geen eigenschap van de test is maar van de uitspraken die op basis van de test worden gedaan over verschijnselen in de echte wereld (vergelijk Egger, 2003). Tussen de regels door schuift Hafkenscheid ons in de schoenen dat we een dynamisch-theoretische profielinterpretatie in de zin van collega’s Eurelings en Snellen (2003) zouden bedrijven of ondersteunen. Dit is onjuist. In diverse publicaties hebben we hiervan expliciet afstand genomen wegens het nagenoeg ontbreken van wetenschappelijke evidentie. Zie daarvoor met name Derksen (2004, 2005). Het interpreteren van codetypes (bijv. ‘4-9’ of ‘2-7’), waarover talloze onderzoeken zijn verschenen (voor een overzicht, zie Friedman en anderen, 2001; Graham, 2006), is iets totaal anders, maar klaarblijkelijk kent Hafkenscheid het verschil niet.
Vervolgens kort nog even iets over de ‘principiële zwakte van de MMPI-2’ die voort zou komen ‘uit het gebrek aan theoretische fundering in de itemkeuze.’ (Hafkenscheid, 2009, p. xx) Deze kritische kanttekening geldt inderdaad voor de klinische schalen, maar niet voor de gehele MMPI-2. De RC-schalen bijvoorbeeld zijn ontwikkeld met als vertrekpunt Watson en Tellegens Theory of mood and affect (Tellegen, 1985; Tellegen, Watson, & Clark, 1999; Watson & Tellegen, 1985; Watson, Wiese, Vaidya & Tellegen, 1999) en zijn ook sterk gelieerd aan Tellegens drie-factorenmodel van persoonlijkheid (Sellbom & Ben-Porath, 2005; Tellegen, 1991). Het gebrek aan theoretische fundering geldt overigens niet alleen voor de meeste bredebandvragenlijstmethoden, maar ook voor veel cognitieve tests zoals de WAIS-III en vele andere. In epistemologisch opzicht schuilt hierin zelfs vaak de sterkte van een instrument of van de observaties.
Het oordeel van de COTAN (Evers en anderen, 2000) is een ander punt dat veelvuldig terugkomt bij de bespreking van de toegevoegde waarde van de MMPI-2. De COTAN heeft de MMPI-2 al lang geleden beoordeeld, deze was toen net uit en nog volop in onderzoek. De beoordeling heeft alleen betrekking op Klinische schalen. Aangaande de criteriumvaliditeit kunnen we leunen op een grote hoeveelheid onderzoek uit het buitenland en tegenwoordig ook op binnenlands onderzoek (Egger, De Mey, Derksen & Van der Staak, 2003a, 2003b; Egger, Delsing & De Mey, 2003; Vendrig, Derksen & De Mey, 1999, 2000). In de nieuwe handleiding zijn resultaten daarvan gepubliceerd. De kwestie van de normen betreft een verschil van inzicht dat we eerder al uiteen hebben gezet in onze reactie op Jaspers (Van der Heijden, Egger & Derksen, 2008b). In dit opzicht zijn onze argumenten in harmonie met die in de internationale testwereld.
Na deze kritische kanttekeningen bij de psychometrische kwaliteiten van de MMPI-2 en de constructie van de test doet Hafkenscheid enkele tendentieuze uitspraken over de MMPI-2 die geen enkele wetenschappelijke basis hebben. Bijvoorbeeld: ‘Dat cliënten een onderzoek met de MMPI-2 als “grondig en belangrijk” ervaren, maakt het instrument psychometrisch niet beter en kan simpelweg worden toegeschreven aan cognitieve dissonantie.’ (Hafkenscheid, p. 61) Ook het vermeende mysterieuze karakter van de teruggerapporteerde schaalinterpretaties lijkt eerder gebaseerd op onwetendheid en vooringenomenheid van de auteur dan op de realiteit. De interpretatie van een MMPI-2 gebeurt geheel volgens protocol (zoals omschreven in Derksen, De Mey, Sloore & Hellenbosch, 2006; Friedman en anderen, 2001; Graham, 2006, Van Mulders & Hellenbosch, 2005) en is dus controleerbaar en transparant.
Ook suggereert Hafkenscheid dat ‘alleen ingewijden – die in de methode geloven en ook nogal eens een materieel belang hebben bij het gebruik ervan – bevoegd zijn om de waarde van de testmethode te beoordelen.’ (p. 61) Hoe kunnen we over geloof spreken bij de meest onderzochte test ter wereld? Het zou weinig toegevoegde waarde hebben om een test te ontwikkelen die alleen door the gifted geïnterpreteerd kan worden. Je zou dan even goed een glazen bol kunnen gebruiken. Wel is het zo dat een gedegen cursus of opleiding wenselijk is omdat de mogelijkheden van de test zeer uitvoerig zijn. De interpretatietechnieken vergen enige oefening en begeleiding zoals de uitvoering van een gedragstherapeutisch protocol dat ook vraagt. Bovendien kunnen er bij de interpretatie van psychologische tests allerlei ongewenste bijeffecten ontstaan, zoals confirmation bias (Ben-Shakhar, Bar-Hillel, Bilu & Shefler, 1998), die steeds aandacht behoeven.
Hafkenscheid zet de tegenstelling tussen ongestandaardiseerde en gestandaardiseerde diagnostiek veel sterker neer dan wij doen in de oorspronkelijke publicatie. Wij pretenderen niet dat de diagnostiek die de psychotherapeut bedrijft subjectief is en de afname van persoonlijkheidsvragenlijsten objectief. Wij zeggen dat in wetenschappelijk onderzoek is aangetoond dat met behulp van statistische of actuariële methoden betere voorspellingen over menselijk gedrag kunnen worden gedaan dan op basis van het klinisch oordeel alleen. Het is per definitie en al heel lang duidelijk dat gestandaardiseerde methoden vaak betrouwbaarder zijn dan ongestandaardiseerde methoden (zie bijvoorbeeld Beck, Ward & Mendelsohn, 1962). Dit komt in feite neer op Hafkenscheids stelling dat het klinisch oordeel bij voorkeur zo veel mogelijk in psychometrisch gevalideerde (lees gestandaardiseerde) meetinstrumenten wordt vastgelegd.
Ten slotte nog iets over het innovatieve alternatief dat Hafkenscheid aandraagt: circumplex-modellen. Deze modellen grijpen terug op de vier temperamenten of humores van Hippocrates en Galenus en vinden hun 20e-eeuwse startpunt in het werk van Guttman (1954). Hoewel circumplex-modellen dus verre van nieuw zijn (vergelijk Plutchik & Conte, 1997) kan de interpersonal circumplex (IPC) inderdaad nog als een veelbelovend instrument worden beschouwd. Hoewel extreme of conflicterende interpersoonlijke tendensen beschouwd kunnen worden als een vorm van disadaptatie, kan men op grond van IPC-scores alléén niet bepalen of een bepaalde dispositie adaptief is of niet. Bovendien is het meeste onderzoek naar de IPC tot op heden uitgevoerd bij normalen en meer onderzoek is dan ook nodig in klinische populaties (Locke, 2006). Niettemin zijn interpersoonlijke problemen meestal de aanleiding om hulp in de vorm van psychotherapie te zoeken. Ook spelen interpersoonlijke problemen een belangrijke rol in verschillende persoonlijkheidsstoornissen én in de uitkomst van psychotherapie. Maar er zijn veel meer dimensies dan die welke worden gemeten met de IPC alléén en die bijdragen aan adaptief versus disadaptief functioneren (Locke, 2006). In die zin zou een instrument als het IPC een aanvulling kunnen zijn op andere (self-report)methoden, maar is daarvoor geenszins een vervanging.
Het is verheugend om te lezen dat Hafkenscheid sympathiseert met ons pleidooi voor therapeutische diagnostiek. Kennelijk heeft hij niet veel sympathie voor de MMPI-2. Dat mag, maar een debat daarover binnen de academische psychologie zou moeten worden gevoerd met behulp van empirische data, niet op basis van persoonlijke affiniteiten en voorkeuren. Van de meer dan 14.000 wetenschappelijke publicaties over de MMPI gebruikt Hafkenscheid er niet één – behalve die van onze hand en daaruit citeert hij selectief en onevenwichtig, om zijn standpunten te beargumenteren. Daarmee begeeft hij zich op platgetreden paden, waardoor de overtuigingskracht en geloofwaardigheid (waarom maakt Hafkenscheid dit onderscheid?) van zijn kritische kanttekeningen helaas verloren gaan.