De Jong en Van ’t Spijker (2013) dragen bij aan de zindelijkheid van de discussie over Routine Outcome Monitoring (ROM) door drie niveaus te onderscheiden waarop die discussie gevoerd dient te worden: het macro-, meso- en microniveau. Tot dusver worden de felste discussies gevoerd over de zin of onzin van ROM op macroniveau: het gebruik van ROM om afdelingen en instellingen (en op termijn mogelijk ook individuele behandelaars) te vergelijken op effectiviteit en doelmatigheid (‘kwaliteit’) van de geboden zorg (benchmarking). Critici van de huidige ROM leggen in hun bezwaren verschillende accenten (Hafkenscheid, 2010; Hafkenscheid & Van Os, 2013; Van Os e.a., 2012; Zitman, 2012). Geen van hen heeft zich echter principieel uitgesproken tegen het monitoren van behandeluitkomsten en het gebruik van monitoren als kwaliteitsinstrument. Integendeel, de zorg van deze critici is juist dat ROM, zoals die recent in de Nederlandse ggz is ingevoerd, wetenschappelijk onverantwoord (en onverantwoordelijk) wordt uitgevoerd. Deze ROM doet afbreuk aan valide kwaliteitsmeting of bevordert die in elk geval niet.
De Jong en Van ’t Spijker erkennen dat benchmarking - in elk geval op basis van ROM-data zoals die nu in Nederland verzameld worden - buitengewoon ingewikkeld is. Zij bevinden zich sinds kort in goed gezelschap: nota bene de wetenschappelijke adviesraad van de van de Stichting Benchmark GGZ (SBG; Blijd-Hoogewys e.a., 2012) sprak recent eveneens uit zich bewust te zijn van de vele voetangels en klemmen die aan de huidige ROM als instrument voor benchmarking vast zitten. Tussen professionals en wetenschappers die het huidige ROM-systeem verdedigen en hen die het bekritiseren blijkt dus inmiddels een opmerkelijke eensgezindheid te groeien als het gaat om de problemen van (de huidige) ROM op macroniveau.
Dat is overigens geen reden om het zoeken naar valide kwaliteitsindicatoren te staken. De Jong en Van ’t Spijker hebben volkomen gelijk dat de beroepsgroepen in de geestelijke gezondheidszorg de maatschappelijke plicht hebben om de kwaliteit en doelmatigheid van hun werk te verantwoorden naar de samenleving die ervoor betaalt; zeker nu de kosten van de gezondheidszorg in Nederland verder oplopen. Geen enkel monitorsysteem zal echter voldoen zolang het, van achter het bureau of de vergadertafel, voornamelijk wordt ontworpen door mensen buiten het directe behandelproces. Patiënten maar ook behandelaars zullen veel meer betrokken moeten worden bij de definitie van kwaliteitscriteria en de operationalisering van behandelsucces; hoe lastig dat ook mag zijn (Hafkenscheid & Van Os, 2013).
In mijn reactie op De Jong en Van ’t Spijker wil ik ten eerste ingaan op hun visie op het oordeelsvermogen van de therapeut, en ten tweede op hun visie op de methodologie en resultaten van outcome tracking-onderzoek. In de huidige ROM, gebaseerd op het klantmodel, bepalen uitsluitend de scores van de patiënt het behandelsucces: de behandelaar vult geen monitorinstrument in en staat daarmee buiten spel. Voor De Jong en Van ’t Spijker is de marginale positie van de behandelaar in het monitoren van behandeluitkomsten geen probleem. Zij beargumenteren het belang van ROM-systemen, waarbij de behandelaar systematisch feedback krijgt over het behandelverloop via zelfbeoordelingen van patiënten op een gestandaardiseerde vragenlijst. Terecht zien zij de onvermijdelijke blinde vlekken van de therapeut als een belangrijk argument voor een dergelijk gebruik van ROM. Ten onrechte laten zij de blinde vlekken van de patiënt evenwel buiten beeld en buiten beschouwing.
Wat betreft het oordeelsvermogen van de behandelaar scharen De Jong en Van ’t Spijker zich in de rij van sceptici (o.a. Van der Heijden, Derksen & Egger, 2008) die graag naar Paul Meehl verwijzen om te beargumenteren waarom aan het therapeutenoordeel niet te veel gewicht moet worden toegekend of waarom dit oordeel zelfs moet worden gewantrouwd. De subjectiviteit en bevooroordeeldheid van het klinische oordeel worden kunstmatig geplaatst tegenover de vermeende objectiviteit en onbevooroordeeldheid van patiëntenoordelen op een gestandaardiseerde zelfbeoordelingvragenlijst. Westen en Weinberger (2005) beargumenteren overtuigend dat die scheidslijn door Meehl nooit zo bedoeld is. Meehl bekritiseerde vooral de onbetrouwbaarheid van het ‘ongewapende’ klinische oordeel. In low-validity environments (zoals complexe hulpverleningssituaties) is statistische predictie hoe dan ook superieur aan klinische predictie, overigens zonder enige garantie dat statistische formules een meer dan middelmatige voorspellingskracht hebben (Kahneman, 2011).
Dat wil echter helemaal niet zeggen dat het klinisch oordeel er niet toe doet. De input voor het algoritme kan zeer goed door clinici worden geleverd op basis van antwoorden op zo concreet mogelijke standaardvragen, om de formule vervolgens het werk te laten doen. De therapeut levert het ruwe materiaal (via scores op een gestandaardiseerde klinische beoordelingsschaal), maar oefent geen invloed uit op de weging of andere rekenkundige en statistische bewerkingen van dat materiaal. Die wegingen of andere bewerkingen worden aan de formule of de beslissingsregel overgelaten (Kahneman, 2011). Westen en Weinberger (2005) pleiten voor een herwaardering van het klinische oordeel, onder de voorwaarde dat dit oordeel in psychometrisch gevalideerde klinische beoordelingsschalen wordt vastgelegd. Het ontstaan en voortbestaan van psychopathologie kan vaak juist bij uitstek begrepen worden vanuit een te grote divergentie tussen de oordelen (beelden) van de patiënt over zichzelf en zijn omgeving enerzijds, en de oordelen (beelden) die zijn sociale omgeving over hem heeft anderzijds. Behandeling is er vaak op gericht meer convergentie te bewerkstelligen, waardoor de patiënt (weer) meer aansluiting vindt bij zijn sociale omgeving. Behandelaars zijn representanten van die sociale omgeving en hun beoordelingsperspectief is daarmee onmisbaar in welk monitorsysteem dan ook.
Een voorbeeld van de toepassing van gestandaardiseerde therapeutoordelen is de rol van de Impact Message Inventory-Circumplex (IMI-C; zie o.a. Hafkenscheid & Kiesler, 2007) binnen het Cognitive Behavioral Analysis System of Psychotherapy (CBASP; McCullough, 2006), een steeds invloedrijker therapiemodel voor het doorbreken van chronische depressie. Binnen CBASP is de IMI-C een monitorinstrument voor de therapeut: bij aanvang vult de behandelaar het instrument in om de karakteristieke problemen in de interpersoonlijke stijl van de patiënt te ‘objectiveren’, en na verloop van tijd om de nagestreefde veranderingen in die disfunctionele omgangsstijl te monitoren.
De Jong en Van ’t Spijker beroepen zich op de resultaten van het onderzoeksprogramma van Lambert en collega’s (Lambert, 2007), waaruit consistent en overtuigend zou blijken dat continue systematische feedback aan de therapeut over het behandelverloop - op basis van het scoreverloop op een zelfbeoordelingschaal als de Outcome Questionnaire (OQ-45) - de effectiviteit van ggz-behandeling substantieel zou verhogen. Het outcome tracking-onderzoek van Lambert en collega’s, door De Jong (2012) gerepliceerd in de Nederlandse situatie, is buitengewoon creatief en innovatief. Lambert en collega’s verdienen veel respect voor hun voortvarende en volhardende aanpak, die in een zeer productief onderzoeksprogramma heeft geresulteerd. Het onderzoek vindt plaats in de gewone klinische praktijk en vormt een goed tegenwicht tegen een doorslaande tendens naar standaardisering van psychotherapeutisch handelen; Lambert is aanhanger van de ‘algemene factoren’-benadering.
Methodologisch is het design dat in het onderzoek naar outcome tracking wordt gebruikt echter niet onproblematisch. Lambert en collega’s gebruiken hun OQ-45 als meetinstrument om ‘sturend’ te monitoren (Hafkenscheid, 2009). Daarvan is sprake wanneer de monitorscores bedoeld zijn om de behandeling rechtstreeks te beïnvloeden; dit gebeurt door de therapeut en/of de patiënt zelf gedurende de behandeling regelmatig feedback te verschaffen over het scoreverloop op het monitorinstrument. Hetzelfde instrument dat wordt gebruikt om de therapeut systematisch feedback te verschaffen, wordt tegelijkertijd gebruikt om vast te stellen wat de toegevoegde waarde is van die systematische feedback. De OQ-45 is dus tegelijkertijd monitorinstrument als effectmaat.
Hiermee raakt de onafhankelijke variabele - feedback op basis van de OQ-45 - gecontamineerd met de afhankelijke variabele; de OQ-45 als criterium voor de effectiviteit van feedback. Met andere woorden: door dit design wordt het principieel onmogelijk te beslissen of de scores veranderen, doordat a de feedback over de scores de behandeling daadwerkelijk sneller en effectiever maakt, of b de patiënt anders gaat scoren, in de wetenschap dat de therapeut over de scores gaat praten nadat hij ze onder ogen heeft gehad.
Los van deze methodologische bias (ten gunste van de feedbackconditie) zijn de resultaten van het onderzoek naar outcome tracking met meer mitsen en maren omgeven dan De Jong en Van ’t Spijker suggereren. In het lezenswaardige dissertatieonderzoek van De Jong (2012) zelf bleek de gewenste uitwerking van feedback zich (onder meer) te beperken tot kortere behandelingen. En in een recente replicatie van alle voorgaande onderzoek naar outcome tracking (Simon, Lambert, Harris, Busath & Vasquez, 2012) in een groep patiënten met zwaardere psychopathologie dan de patiëntenpopulatie van de Brigham Young University (BYU; de thuisbasis van waaruit Lambert en collega’s hun meeste studies verrichtten), bleek de toegevoegde waarde van systematische en continue feedback veel kleiner dan in de BYU-studies.
Sociaalwetenschappelijk onderzoek binnen - en trouwens ook buiten - de geestelijke gezondheidszorg dat grote effecten oplevert, moet eigenlijk altijd met de nodige reserves worden bekeken. Bij het onderzoek naar outcome monitoring lijkt dat niet anders: als er al effecten gevonden worden, dan zijn die in de regel bescheiden en nopen die tot veel slagen om de arm. Nogmaals: dat is geen enkele reden om het zoeken naar valide kwaliteitsindicatoren te staken. Integendeel. Zolang we onszelf maar geen rad voor de ogen draaien.