Vorige pagina

Monitoren van behandelresultaat met de CORE-OM

Jaargang 2012, uitgave 5

Bruikbaarheid en psychometrische eigenschappen

Tijdschrift voor Psychotherapie

10.1007/s12485-012-0041-x

Monitoren van behandelresultaat met de CORE-OM

Bruikbaarheid en psychometrische eigenschappen

W. J. Meerding¹, A. Van ’t Spijker² M. Van Riessen³

(1)	Meerding Zorgadvies, Raad voor de Volksgezondheid en Zorg, 2806 BK, Zuidelijke Burgvlietkade 15, Gouda, The Netherlands
(2)	afdeling Medische Psychologie en Psychotherapie, Erasmus Medisch Centrum, Rotterdam, The Netherlands
(3)	Mentaal Beter, Dordrecht, The Netherlands

W. J. Meerding
Email: wj.meerding@gmail.com

: 7 2012

De bruikbaarheid en psychometrische eigenschappen van de NederlandstaligeClinical Outcomes in Routine Evaluation - Outcome Measure (CORE-OM) zijn onderzocht in een tweedelijns ambulante ggz-populatie van zeventien jaar en ouder en in een steekproef uit de volwassen bevolking. Bij 2.528 van de 10.988 cliënten die vanaf oktober 2008 werden behandeld, waren CORE-OM-metingen beschikbaar voorafgaand en na afloop van de therapie. De uitkomsten laten zien dat de CORE-OM bruikbaar is als instrument voorroutine outcome monitoring (ROM). Het instrument heeft een hoge interne consistentie. De CORE-OM bleek gevoelig voor verandering in de klinische toestand van cliënten. Gemiddelde beginscores waren iets lager dan in vergelijkbare buitenlandse populaties. Normscores voor klinisch significante verandering konden worden afgeleid uit de vergelijking met scores uit de normale populatie.

zelfstandig adviseur, econoom en methodoloog, senior adviseur

vrijgevestigd psycholoog en psychotherapeut

psychotherapeut en wetenschappelijk onderzoeker

Inleiding

Er is toenemende aandacht voor meetbare behandelresultaten in de gezondheidszorg, ook in de geestelijke gezondheidszorg (Stuurgroep Zichtbare Zorg GGZ, 2010; SBG, 2011; Buwalda, Nugter, Swinkels & Mulder, 2011; Tijdschrift voor Psychiatrie, 2012). In een recent advies concludeert de Raad voor de Volksgezondheid en Zorg dat het wenselijk is om op expliciete gezondheidsdoelen te sturen in de behandelrelatie (microniveau), bij de zorginkoop (mesoniveau) en in het macrogezondheidsbeleid (Raad voor de Volksgezondheid en Zorg, 2011). Op het niveau van de individuele behandeling vindtroutine outcome monitoring (ROM) plaats door de cliënt voorafgaand, tijdens en na de therapie een of meer gestandaardiseerde vragenlijsten te laten invullen. Dit levert feedback op over het effect van de behandeling. De keuze van de vragenlijst is afhankelijk van het beoogde behandeldoel. Aan de hand van het resultaat van de metingen valt na te gaan of het behandeleffect overeenkomt met de vooraf door cliënt en therapeut vastgestelde verwachtingen en doelen. Deze informatie kan door therapeuten worden gebruikt om de behandelaanpak al dan niet aan te passen.

In Nederland en Vlaanderen is de belangstelling voor ROMbinnen de behandeling met name gewekt door onderzoek van Lambert en zijn medewerkers in de Verenigde Staten (Lambert, 2002; Lambert, 2005). Zij hebben in diverse onderzoeken aangetoond dat het gebruik van de Outcome Questionnaire (OQ-45) als feedbackinstrument binnen de behandeling een gunstig effect heeft op de werkzaamheid ervan en ook de kans op voortijdige uitval vermindert.

Behalve de gunstige invloed van ROMop de behandeling, kan het transparant en gestandaardiseerd meten van behandeleffectiviteit bij cliëntgroepen voor behandelteams of zorgaanbieders informatie opleveren voor het kwaliteitsbeleid. Gecombineerd met gegevens over de behandeling kan worden getoetst of behandelrichtlijnen voldoende worden nageleefd. Ten slotte kan met ROMper zorgaanbieder informatie worden gegenereerd over behandeleffectiviteit, zodat zorgaanbieders hun kwaliteit kunnen vergelijken met andere zorgaanbieders in de ggz. Die vergelijkende informatie kan onder meer worden gebruikt voor de zorginkoop. Hoewel er beleidsmatig en in de uitvoering al veel in gang is gezet om ROMin de hele ggz in te voeren, staat de inhoudelijke ontwikkeling en toepassing van het vergelijkend onderzoek nog in de kinderschoenen.

Voor ROMzijn geschikte meetinstrumenten nodig. Er zijn diverse generieke, niet-stoornisspecifieke meetinstrumenten beschikbaar die valide zijn voor het meten van behandelresultaat bij volwassenen bij kortdurende behandelingen, zoals de genoemde OQ-45 (SBG, 2011). De Clinical Outcomes in Routine Evaluation Outcome Measure (CORE-OM) is een vergelijkbaar instrument, ontwikkeld in het Verenigd Koninkrijk. De CORE-OMwordt daar op grote schaal gebruikt voor het genereren van benchmarkgegevens over de kwaliteit van zorgaanbieders in de National Health Service (NHS) en voor het meten van behandeleffectiviteit in de praktijk voor welomschreven patiëntengroepen (Evans, Connell, Barkham, Marshall & Mellor-Clark, 2003). De CORE-OMis ontwikkeld als onderdeel van een kwaliteitssysteem dat is gebaseerd op gestandaardiseerde verzameling en centrale verwerking van gegevens van individuele behandelingen, training van praktijkmedewerkers en terugkoppeling van vergelijkende informatie aan praktijken (Evans, Mellor- Clark, Barkham & Mothersole, 2006).

De CORE-OMheeft als voordeel dat het afnemen ervan weinig tijd kost. Het instrument is breed toepasbaar, met subschalen voor klachten/symptomen, sociaal functioneren, welbevinden en risicogedrag. In Britse populaties vertoonde de CORE-34 een hoge interne consistentie, een goede test-hertestbetrouwbaarheid en een goede criteriumvaliditeit (Evans e.a., 2002; Connell e.a., 2007). Ook de begripsvaliditeit was goed bij vergelijking met de SCL- 90-R (r = 0, 88), deBrief Symptom Inventory (BSI;r = 0, 81), deBeck Depression Inventory (BDI-II;r = 0, 75-0, 81), dePatient Health Questionnaire-9 (PHQ-9;r = 0, 63) en deClinical Interview Schedule-Revised (CIS-R;r = 0, 77). Een matig verband werd gevonden met deBeck’s Anxiety Inventory (BAI) en deInventory of Interpersonal Problems (IIP;r = 0, 55-0, 65) (Evans e.a., 2002; Barkham e.a., 2001). Verder vindt lopend onderzoek plaats in Noorwegen.

Dit is de eerste studie met de CORE-OMin Nederland, met als doel de bruikbaarheid, betrouwbaarheid, normscores en gevoeligheid voor verandering vast te stellen in een volwassen ambulante ggz-populatie.

Data en methoden

Patiëntenpopulaties

CORE-OM-gegevens werden verzameld in 141 praktijken van Mentaal Beter, een aanbieder van tweedelijns ambulante ggz, vanaf oktober 2008 tot september 2011. De praktijken waren verspreid over heel Nederland. Het betrof een mix van praktijken met psychologen, gz-psychologen, psychotherapeuten, klinisch psychologen en psychiaters, en met diverse theoretische oriëntaties, waaronder (cognitieve) gedragstherapie, psychodynamische therapie en eclectische benaderingen. Metingen met de CORE-OMhadden als doel het monitoren van het behandelresultaat en het genereren van feedback in de therapeutische werkrelatie.

De onderzoekspopulatie betreft 10.988 volwassen cliënten vanaf zeventien jaar, van wie de behandeling (of het zorgtraject) plaatsvond tussen oktober 2008 (start met ROMbij deze organisatie) en september 2011. De benodigde data voor het onderzoek werden geanonimiseerd uit het electronisch patiëntendossier (EPD) gehaald. Voor het huidige onderzoek worden alleen voor- en nametingen gebruikt, omdat wij het totaaleffect van de hele behandeling wilden onderzoeken. Metingen die zijn gedaan gedurende de behandeling (monitoring) zijn daarom niet in de analyses meegenomen.

Voor de normaalpopulatie werd een steekproef van TNS-NIPO uit december 2008 gebruikt. TNS-NIPO heeft bij 1.007 respondenten de CORE-34, SCL-90 en ORS(Outcome Rating Scale) afgenomen. Uiteindelijk hebben 613 (61%) respondenten alle vragenlijsten volledig ingevuld (geen missende waarden). In dit artikel worden alleen de CORE-34-gegevens gebruikt. Op basis van achtergrondkenmerken is voor elke respondent een wegingsfactor bepaald, waarmee de steekproef representatief kan worden gemaakt voor de Nederlandse bevolking.

Meetinstrument

De CORE-OMis een zelfbeoordelingsvragenlijst die ontwikkeld is om behandeluitkomsten te meten in de klinische praktijk. De items van de volledige CORE-34-vragenlijst hebben betrekking op vier dimensies: welbevinden (W; vier items), problemen/symptomen (P; twaalf items), functioneren (F; twaalf items) en risico (R; zes items). Deze dimensies zijn als zodanig gekozen, omdat zij congruent zijn met het fasenmodel van verandering (Howard, Leuger, Maling & Martinovich, 1993) dat een opeenvolgend effect van de therapie veronderstelt op achtereenvolgens subjectief welbevinden (vroeg in de therapie), symptoomniveau en ten slotte algemeen functioneren. De rationale en ontwikkeling van de CORE-OMzijn elders uitgebreider beschreven (Barkham e.a., 1998; Evans e.a., 2000).

Bij elk item wordt de cliënt gevraagd hoe hij zich gevoeld heeft gedurende de afgelopen week, waarbij de keuzemogelijkheden variëren van ‘nooit’ tot ‘(bijna) altijd’. De items op de subschaal problemen/symptomen zijn veel voorkomende angst en depressiesymptomen, fysieke klachten en klachten die met traumatische gebeurtenissen verband houden. De items op de subschaal functioneren betreffen het algemeen functioneren en het functioneren in intieme en sociale relaties. Er zijn zes vragen over suïciderisico en gebruik van geweld die extra aandacht vragen van de behandelaar als deze instemmend worden beantwoord.

Elk item wordt gescoord op een vijfpuntsschaal (0 = helemaal niet; 4 = altijd of bijna altijd). De totaalscore en de subschaalscores worden berekend door het gemiddelde van de items te vermenigvuldigen met 10. Dit resulteert in een score-range van 0-40 voor alle subschalen en de totaalscore. Als meer dan drie items niet zijn ingevuld, wordt de meting als niet-valide beschouwd.

Het invullen van de CORE-34 duurt circa vijf minuten. Naast de CORE-34 zijn er twee verkorte versies - CORE-10 en CORE-5 - ten behoeve van monitoring en feedback over behandelvoortgang.

De vertaling van de CORE-vragenlijst verliep als volgt. Ten eerste is aan twee onderzoekers, een clinicus, twee cliënten en een neerlandicus gevraagd de vragenlijst in het Nederlands te vertalen. Daarna is in een consensusbespreking met de twee onderzoekers, de clinicus en een onderzoeker uit Engeland (betrokken bij de ontwikkeling van CORE) elk item bekeken. De verschillende vertalingen die beschikbaar waren, zijn naast elkaar gelegd en besproken. Belangrijk was te komen tot een vertaling die wellicht niet letterlijk identiek is aan het oorspronkelijke Engelse item, maar die wat betreft betekenis en idioom het dichtst bij de oorspronkelijke betekenis komt. Elk item werd zo besproken en pas wanneer alle deelnemers tevreden waren werd de vertaling vastgesteld. Vervolgens is de vragenlijst voorgelegd aan twee Vlaamstaligen, om na te gaan of zij het Nederlandse idioom begrijpen. Ten slotte is de vertaling aangeboden aan 250 studenten psychologie. De opmerkingen die zij bij de vertaling gemaakt hebben, zijn geëvalueerd en waar nodig is de vertaling nog bijgesteld.

Dataverzameling

Beginmetingen in de klinische populatie vonden plaats voor, tijdens of zo snel mogelijk na het eerste intakegesprek. Eindmetingen vonden plaats bij de voorlaatste of laatste behandelsessie. Optioneel was het gebruik van tussentijdse metingen met de CORE-10. Overigens werd aanvankelijk ook de CORE-10 als instrument voor begin- en eindmeting gebruikt, later steeds meer de CORE-34. De antwoorden werden direct door de cliënt ingevoerd in het EPD in aanwezigheid van de therapeut of schriftelijk verzameld waarna deze door de therapeut of praktijkassistent werden ingevoerd in het EPD. Het is mogelijk dat in een aantal gevallen de geregistreerde meetdatum niet gelijk is aan de dag van afname, als de data-invoer niet op dezelfde dag plaatsvond. Alle medewerkers hebben vooraf een training ontvangen over doel en praktisch gebruik van ROM, en er was een interne handleiding beschikbaar.

Het vragenlijstonderzoek van TNS-NIPO onder een steekproef van de normaalpopulatie vond volledig via internet plaats in november en december 2008.

Data-analyse

In de analyse is onderzocht in hoeverre sprake was van valide metingen en in welke mate begin- en eindmetingen aanwezig waren in de klinische populatie. Alleen als ten minste 32 items zijn beantwoord kan een CORE-34-meting als valide worden beschouwd. Of een meting kan worden gezien als een begin- of eindmeting is afhankelijk van het tijdsinterval tussen de datum van de begin- en eindmeting en de start- en einddatum van de behandeling. Volgens de specificaties van de Stichting Benchmark GZZ (SBG) moet de datum van de beginmeting liggen binnen 92 dagen ten opzichte van de DBC-startdatum, en de datum van de eindmeting binnen 92 dagen ten opzichte van de DBC-sluitdatum. In de analyse is onderzocht wat het effect is van de lengte van het tijdsinterval op de scoring, en ook wat het effect is als in plaats van de DBC-startdatum en DBC-sluitdatum de datum van de eerste respectievelijk laatste sessie wordt gebruikt.

De interne consistentie is onderzocht met Cronbachs alfa (Cronbach, 1951), een gebruikelijke maat die de covariantie tussen de items aangeeft als proportie van de variantie.

Verschillen in totaal- en subschaalscores tussen mannen en vrouwen en tussen begin- en eindmetingen werden tweezijdig getoetst met betrouwbaarheidsintervallen (p <0, 05; Gardner & Altman, 1986), verandering in de T-scores (McCall, 1922) en Cohensd (Cohen, 1988). De ΔT-score is gelijk aan het verschil tussen de gemiddelde begin- en eindscore, gedeeld door de standaarddeviatie (s) van de beginscore en vermenigvuldigd met 10.

Vervolgens is onderzocht in hoeverre sprake is van betrouwbare en van klinisch significante verandering bij vergelijking van begin- en eindscores. Een betrouwbare verandering is een verbetering of verslechtering die niet slechts door toeval of meetfouten kan zijn veroorzaakt. Bij een kans kleiner dan 5 procent dat een gemeten verandering wordt veroorzaakt door toeval, is deze gelijk aan 1, 96 × sbeginscore × √2 × √(1-α). Van een klinisch significante verandering (verbetering of verslechtering) is sprake als de ernst van de problematiek verschuift van een klinische score naar een normale score of andersom (Jacobson & Truax, 1991). De afkapscore die een klinische van een niet-klinische populatie onderscheidt, is gelijk aan x̄_klin × s_norm + x̄ × s_klin) / (s_klin + s_norm).

Tabel 1 Populatiekenmerken.

	Klinische populatie N=10.988	Niet-klinische populatie N=613
Leeftijd
Range(jaren)	17-87	18-98
Gemiddelde(s)	38,4(13,0)	47,7(17,7)
Geslacht • man • vrouw • onbekend	3.868(35%) 7.119(65%) 1(0%)	298(49%) 314(51%) 1(0%)
Eén zorgtraject	10.850	n.v.t.
Twee zorgtrajecten	137
Drie zorgtrajecten	1
Totaal aantal zorgtrajecten	11.127

s = standaarddeviatie.

Resultaten

De samenstelling van beide populaties naar leeftijd en geslacht zijn weergegeven in tabel1. Bij iets meer dan 1 procent van de cliënten is sprake van meerdere parallelle zorgtrajecten vanwege meervoudige problematiek. Een zorgtraject bestaat uit een initiële DBC met een of meer vervolg-DBC’s.

Verreweg de meeste vragenlijsten werden volledig ingevuld (zie tabel2). Slechts 1 procent van de vragenlijsten moest als niet-valide worden beschouwd, omdat de cliënt minder dan 32 items had beantwoord. De interne consistentie is voldoende bij een Cronbachs alfa van 0, 75-0, 95 (Evans e.a., 2002). Deze lag voor de totaalscore en de subschaalscores binnen dit interval, uitgezonderd het risicodomein en in de niet-klinische populatie ook het domein welbevinden. In het algemeen was de interne consistentie iets lager in de niet-klinische populatie.

Tabel 2 Itemcompleetheid en interne betrouwbaarheid (Cronbachs alfa).

Aantal items beantwoord	Klinische populatie N=7.367	Niet-klinische populatie N=613
<32	67 (0,9%)	0 (0%)
32-34	7.300 (99,1%)	613(100%)
Interne betrouwbaarheid	N=6.828*	N=613*
Klachten, symptomen (12items)	0,882	0,885
Functioneren (12items)	0,835	0,788
Welbevinden (4items)	0,751	0,667
Risico(6items)	0,722	0,625
Non-risico-items (28items)	0,933	0,914
Alle items (34items)	0,935	0,915

* Alleen metingen met 34 beantwoorde items.

Bij 63 procent van de cliënten was sprake van een beginmeting binnen 92 dagen ten opzichte van de DBC-startdatum of datum eerste sessie (zie tabel3). Bij 21 procent respectievelijk 23 procent van de cliënten was sprake van een eindmeting binnen 92 dagen ten opzichte van de DBC-einddatum respectievelijk laatste sessiedatum. Uit de tabel is te lezen dat bij een strenger tijdsinterval de volledigheid van metingen minder is.

Tabel 3 Compleetheid van begin- en eindmetingen per zorgtraject, klinische populatie.*

Beginmeting	Aantal (%)	Eindmeting indien beginmeting aanwezig	Aantal (%)
≤ 28 dagen voor/na start DBC	5.418 (48,7%)	≤ 28 dagen voor/na eind laatste DBC	1.382 (12,5%)
≤ 92 dagen voor/na start DBC	6.990 (62,8%)	≤ 92 dagen voor/na eind laatste DBC	2.335 (21,0%)
≤ 28 dagen voor/na eerste sessie	6.152 (55,3%)	≤ 28 dagen voor/na eind laatste sessie	1.701 (15,3%)
≤ 92 dagen voor/na eerste sessie	7.041 (63,3%)	≤ 92 dagen voor/na eind laatste sessie	2.528 (22,7%)

* Metingen met 32 of meer items beantwoord.

Tabel4 toont de scores van de begin- en eindmetingen. De beginscores van de cliënten met een eindmeting zijn een fractie lager dan bij de totale cliëntenpopulatie. De responsiviteit van de CORE-34 is hoog, gezien de aanzienlijke en significante verandering in de totaal- en subschaalscores.

Tabel 4 Scores begin- en eindmetingen (begin- en eindmeting ≤ 28 dagen voor/na start, respectievelijk eind DBC), klinische populatie.

	Alle beginmetingen (N=5.418)		Beginmeting, alleen volledige meettrajecten(N=1.382)		Eindmeting, alleen volledige meettrajecten(N=1.382)		95%CI*	95% CI
	m	s	m	s	m	s	Verschil	ΔT	Cohensd
Klachten, symptomen	19,0	7,5	18,8	7,4	10,0	6,8	8,5-9,3	11,5- 12,6	1,3
Functioneren	14,9	6,0	14,5	5,8	8,6	5,6	5,5-6,2	9,5- 10,6	1,0
Welbevinden	19,9	7,8	19,7	7,6	10,2	7,1	9,0-9,9	11,8- 12,9	1,3
Risico	2,5	4,2	2,3	4,0	0,8	2,4	1,3-1,7	3,3-4,3	0,5
Non-risico- items	17,4	6,3	17,1	6,2	9,4	6,0	7,3-8,0	11,7- 12,8	1,3
Alle items	14,8	5,6	14,5	5,5	7,9	5,2	6,3-6,9	11,3-12,4	1,2

m = gemiddeld, s = standaarddeviatie, CI = confidence-interval.

* Als het confidence-interval het getal nul kruist, is het verschil niet-significant.

De totaal- en subschaalscores van de beginmeting zijn significant hoger bij vrouwen dan bij mannen, uitgezonderd de scores voor het risicodomein en bij de niet-klinische populatie ook uitgezonderd de scores voor het domein functioneren (zie tabel5).

Tabel 5 Verschillen in scores tussen mannen en vrouwen (beginmeting ≤ 28 dagen voor/na start DBC).

	Klinische populatie					Niet-klinischepopulatie
	Mannen (N=1826)		Vrouwen (N=3591)		95%CI*	Mannen (N=298)		Vrouwen (N=314)		95%CI*
	m	s	m	s	Verschil	m	s	m	s	Verschil
Klachten, symptomen	17,6	7,5	19,7	7,4	1,7-2,5	6,5	5,8	8,0	6,4	0,6-2,5
Functioneren	14,2	5,9	15,3	6,0	0,7-1,4	8,8	5,3	8,9	5,2	-0,8-0,9
Welbevinden	17,9	7,8	21,0	7,6	2,6-3,5	8,0	6,0	10,2	7,2	1,1-3,2
Risico	2,6	4,2	2,5	4,2	-0,3-0,2	0,9	2,6	0,9	2,3	-0,5-0,3
Non-risico- items	16,2	6,3	18,0	6,3	1,5-2,2	7,7	4,9	8,7	5,4	0,2-1,8
Alle items	13,8	5,6	15,3	5,6	1,2-1,8	6,5	4,2	7,3	4,7	0,1-1,5

X = gemiddeld, s = standaarddeviatie, CI = confidence-interval.

* Als het confidence-interval het getal nul kruist, is het verschil niet-significant.

Tabel 6 Verschillen in scores beginmeting naar meetmoment, klinische populatie.

	m	S	N
28-1 dagen voor start DBC	15,4	6,1	51
0-7 dagen vanaf start DBC	15,1	5,7	3.000
8-28 dagen vanaf start DBC	14,3	5,5	2.367
29-92 dagen vanaf start DBC	13,8	5,6	1.546
28-1 dagen voor eerste sessie	14,7	5,9	201
0-7 dagen vanaf eerste sessie	15,0	5,7	4.090
8-28 dagen vanaf eerste sessie	14,1	5,4	1.861
29-92 dagen vanaf eerste sessie	13,1	5,5	843

X = gemiddeld, s = standaarddeviatie.

Het tijdstip van de beginmeting is van invloed op de scoring (zie tabel6). Bij een interval langer dan een week na de DBC-startdatum of na de eerste sessie (intake) is al sprake van een aanzienlijke daling. Ook is opvallend dat de spreiding van het tijdsinterval minder groot is als deze wordt berekend ten opzichte van de eerste sessie in plaats van de DBC-startdatum.

De afkapscores die een klinische van een niet-klinische populatie onderscheiden zijn gegeven in tabel7. Vanwege de scoreverschillen tussen mannen en vrouwen zijn aparte afkapscores berekend. Op basis hiervan en de Cronbachs alfa van 0, 94 is het mogelijk aan te geven bij welk deel van de cliënten sprake is van een betrouwbare en/of klinisch significante verandering (zie tabel8). Bij 67 procent van de cliënten is sprake van een betrouwbare verbetering (scoreverandering van ten minste 4 punten) en bij 48 procent van een betrouwbare en klinisch significante verbetering. Bij een kleine minderheid van 3 procent van de cliënten is sprake van een duidelijke en/of klinisch significante verslechtering.

Tabel 7 Afkapscores tussen subklinische en klinische populatie.

	Mannen	Vrouwen
Klachten,symptomen	11,3	13,4
Functioneren	11,4	11,9
Welbevinden	12,3	15,4
Risico	1,6	1,5
Non-risico-items	11,4	13,0
Alle items	9,6	10,9

Tabel 8 Betrouwbare en klinisch significante verandering.

	Betrouwbare verandering
Klinische verandering	Betrouwbare verslechtering	Geen betrouwbare verandering	Betrouwbare verbetering	Totaal
Klinisch significante verslechtering	9 (0,7%)	11 (0,9%)	0 (0,0%)	20 (1,4%)
Geen klinisch significante verandering	25 (1,8%)	373 (27,0%)	262 (19,0%)	660 (47,8%)
Klinisch significante verbetering	0 (0,0%)	38 (2,7%)	664 (48,0%)	702 (50,8%)
Totaal	34 (2,5%)	422 (30,5%)	927 (67,0%)	1.382 (100%)

Conclusies en discussie

De CORE-34 is een bruikbaar instrument voor ROMin de ambulante ggz, afgaand op de beperkte invultijd, het zeer hoge percentage (nagenoeg) volledig ingevulde vragenlijsten en de hoge interne consistentie. De grote aantallen cliënten met een betrouwbare en/of klinisch significante verandering, duiden op een hoge gevoeligheid voor verandering van het meetinstrument.

Dit onderzoek had als voordeel dat we beschikten over een grote dataset van een volwassen ggz-populatie die representatief is voor de curatieve ambulante tweedelijnszorg. Hierdoor waren er geen a priori-beperkingen voor het aantonen van statistische significanties.

Een beperking van het onderzoek is dat verreweg de meeste beginmetingen tijdens of na de eerste sessie (intake) plaatsvonden, in plaats van ervoor. Dit zal ongetwijfeld te maken hebben met een zekere praktijkroutine. Ook geven veel therapeuten aan het bezwaarlijk te vinden voor het intakegesprek een cliënt te belasten met een vragenlijst, waardoor een ongewenste drempel wordt opgeworpen. Omdat de scores snel kunnen veranderen bij het begin van de therapie, verdient het de voorkeur om een ROM-instrument voorafgaand aan het intakegesprek af te nemen en bijvoorbeeld mee te sturen met een afspraakbevestiging.

Er vonden iets minder eindmetingen plaats naarmate de beginscore op de CORE-34 hoger was. De gemeten behandeleffectiviteit is door dit selectieeffect iets onderschat, hoewel in zeer geringe mate.

Het bepalen van het aandeel cliënten met een betrouwbare verandering in de klinische toestand is gebaseerd op de interne consistentie van de COREOMzoals gemeten in de klinische populatie. De interne consistentie van de totaalscore was maar iets ongunstiger in de niet-klinische populatie en zou niet tot andere conclusies hebben geleid. Een alternatief is om de hertestbetrouwbaarheid te gebruiken, die doorgaans ongunstiger is dan de interne consistentie. Omdat deze niet is gemeten, is het niet mogelijk om aan te geven in hoeverre dit tot andere conclusies zou hebben geleid.

Hoewel er geen objectieve gegevens zijn over het aantal cliënten die de CORE-vragenlijst weigerden in te vullen, zijn er geen anekdotische aanwijzingen dat dit vaak voorkomt. Als cliënten niet willen meewerken, geldt dit vooral het invullen van vragenlijsten in het algemeen en heeft het niet zo zeer te maken met het CORE-instrument.

De beginscores van de CORE-34 die wij vonden zijn lager dan in vergelijkbare populaties in het Verenigd Koninkrijk, waar gemiddelde totaalscores van 18, 1 (Barkham, Gilbert, Connell, Marshall & Twigg, 2005) en 18, 6 (Evans e.a., 2002) werden gevonden. Opvallend is wel dat de standaardafwijking van de beginscores in de twee Britse populaties aanzienlijk groter was dan hier gerapporteerd (s 7, 4-7, 5 versus 5, 8). Ondanks de lagere beginscores in ons onderzoek waren de verschillen tussen begin- en eindscores aanzienlijk groter dan in Evans e.a. (2002). De door ons gemeten scoreverschillen tussen mannen en vrouwen werden niet gevonden door Evans e.a. (2002). De interne consistentie (Cronbachs alfa) van de CORE-schalen in de Engelse studies was vergelijkbaar met de onze.

De afkapscores die een klinische van een niet-klinische populatie onderscheiden zijn bruikbaar als richtsnoer bij individuele behandelingen. Aangezien de ernst van psychische problematiek een glijdende schaal is en er verschillen kunnen zijn tussen cliënten in hoe zij items en antwoordschalen interpreteren als zij zichzelf beoordelen, houden afkapscores altijd iets arbitrairs en zijn deze op individueel niveau niet absoluut.

In ons onderzoek vertoont de score van de beginmeting een duidelijke relatie met het tijdstip ten opzichte van de aanvang van de therapie. Een deel van het behandeleffect wordt gemist als de beginmeting relatief laat plaatsvindt. Aangezien door SBG een ruime marge van 92 dagen wordt aangehouden (SBG, 2011), is het niet uitgesloten dat dit ook de vergelijkbaarheid van ROM-resultaten tussen aanbieders beïnvloedt. De effectiviteit van psychotherapie in een praktijksituatie kan alleen worden aangetoond als de start van de behandeling niet te ver afwijkt van de beginmeting van de ROM.

Voor de ROM-eindmeting geldt dat het responspercentage sterk afhankelijk is van de vraag of het interval wordt berekend ten opzichte van de DBCeinddatum (zoals bij SBG) of ten opzichte van de laatste behandelsessie. De praktijk is namelijk dat veel DBC’s niet onmiddellijk worden afgesloten na afsluiting van de behandeling, deels om behandelinhoudelijke redenen. Dit heeft als gevolg dat veel eindmetingen volgens de SBG-definitie ongeldig worden, terwijl ze wel representatief zijn voor de toestand van de cliënt aan het eind van de therapie. Ons advies is om de laatste meting zo dicht mogelijk te plannen bij de laatste behandelsessie en niet bij de sluitingsdatum van de DBC.

Uit dit onderzoek blijkt dat de CORE-34 gevoelig is voor verandering in de toestand van de cliënt, zoals ook beoogd met dit instrument. Als behandeleffectiviteit gemeten met de CORE wordt vergeleken met behandeleffectiviteit gemeten met een ander ROM-instrument, is van belang dat de mate van gevoeligheid voor verandering tussen beide instrumenten vergelijkbaar is of dat het mogelijk is voor eventuele verschillen in responsiviteit te corrigeren. In dit onderzoek is de CORE niet vergeleken met andere meetinstrumenten, zodat ander onderzoek nodig is om licht te werpen op de vraag of er verschillen in responsiviteit zijn.

Het gebruik van meetinstrumenten roept bij sommige therapeuten weerstand op, omdat het hun persoonlijke en empathische benadering zou ondermijnen. In onderzoek binnen en buiten Nederland zijn echter gunstige effecten aangetoond van monitoring op de behandeluitkomsten, vooral als hierover feedback wordt gegeven aan behandelaar en patiënt (Lambert, 2005; De Jong, 2012). Gezien de vraag om transparantie over behandelaanpak en behandeleffectiviteit die in toenemende mate aan behandelaars wordt gesteld, en waarvoor inmiddels diverse instrumenten beschikbaar zijn, lijkt de uitdaging te zijn om ROMop een persoonlijke en empathische wijze te integreren in de behandeling. Door enerzijds de effectiviteit van psychotherapie in de reguliere zorg zichtbaar te maken en anderzijds de persoonsgerichte aanpak te ondersteunen met ROM-metingen, kan het beste van twee werelden worden gecombineerd.

Dankbetuiging

Wij zijn Annemerle Beerthuizen, Kim de Jong, Chris Evans en twee anonieme cliënten zeer erkentelijk voor hun aandeel in de vertaling van de COREOM- vragenlijst. Van de auteurs was Adriaan van ’t Spijker bij het vertaalproces betrokken.

Openheid over belangen

Dit onderzoek is uitgevoerd in opdracht en met financiële ondersteuning van Mentaal Beter. Adriaan van ’t Spijker is franchisenemer bij Mentaal Beter, Marieke van Riessen is werkzaam bij Mentaal Beter. De gegevens van de klinische populatie zijn ter beschikking gesteld door Mentaal Beter. De auteurs hebben volledige vrijheid gehad bij de opzet en uitvoering van het onderzoek, het schrijven van het manuscript en publicatie daarvan. De verantwoordelijkheid voor de inhoud berust bij de auteurs.

Literatuur

Barkham, M., Evans, C., Margison, F., McGrath, G., Mellor-Clark, J., Milne, D. & Connell, J. (1998). The rationale for developing and implementing core batteries in service settings and psychotherapy outcome research.Journal of Mental Health, 7, 35–47.

Barkham, M., Gilbert, N., Connell, J., Marshall, C. & Twigg, E. (2005). Suitability and utility of the CORE-OMand CORE-A for assessing severity of presenting problems in psychological therapy services based in primary and secondary care settings.British Journal of Psychiatry, 186, 239–246.

Barkham, M., Margison, F., Leach, C., Lucock, M., Mellor-Clark, J., Evans, C., Benson, L., Connell, J., Audin, K. & McGrath, G. (2001). Service profiling and outcomes benchmarking using the CORE-OM: towards practice-based evidence in the psychological therapies.Journal of Consulting and Clinical Psychology, 69, 184–196.

Buwalda, V. J.A., Nugter, M.A., Swinkels, J.A. Mulder &, C.L. (red.) (2011).Praktijkboek ROM in de ggz. Utrecht: De Tijdstroom.

Cohen, J. (1988).Statistical power analysis for the behavioral sciences. Hillsdale: Lawrence Erlbaum Associates.

Connell, J., Barkham, M., Stiles, W.B., Twigg, E., Singleton, N., Evans, O. & Miles, J.N.V. (2007). Distribution of CORE-OMscores in a general population, clinical cut-off points, and comparison with the CIS-R.British Journal of Psychiatry, 190, 69–74.

Cronbach, L.J. (1951). Coefficient alpha and the internal structure of tests.Psychometrika, 16, 297–334.

Evans, C., Connell, J., Barkham, M., Margison, F., Mellor-Clark, J., McGrath, G. & Audin, K. (2002). Towards a standardised brief outcome measure: psychometric properties and utility of the CORE-OM.British Journal of Psychiatry, 180, 51–60.

Evans, C., Connell, J., Barkham, M., Marshall, C. & Mellor-Clark, J. (2003). Practice-based evidence: benchmarking NHS primary care counselling services at national and local levels.Clinical Psychology and Psychotherapy, 10, 374–388.

Evans, C., Mellor-Clark, J., Barkham, M. & Mothersole, G. (2006). Developing the resources and management support for routine evaluation in counseling and psychological therapy service provision: reflections on a decade of CORE development.European Journal of Psychotherapy and Counseling, 8, 141–161.

Evans, C., Mellor-Clark, J., Margison, F., Barkham, M., McGrath, G., Connell, J. & Audin, K. (2000). Clinical outcomes in routine evaluation: the CORE-OM.Journal of Mental Health, 9, 247–255.

Gardner, M.J. & Altman, D.G. (1986). Confidence intervals rather than P values: estimation rather than hypothesis testing.British Medical Journal, 292, 746–750.

Howard, K.I., Leuger, R., Maling, M. & Martinovich, Z. (1993). A phase model of psychotherapy: causal medication of outcome.Journal of Consulting and Clinical Psychology, 61, 678–685.

Jacobson, N. & Truax, P. (1991). Clinical significance: a statistical approach to defining meaningful change in psychotherapy research.Journal of Consulting and Clinical Psychology, 59, 12–19.

Jong, K. de (2012).A chance for change. Building an outcome monitoring feedback system for outpatient mental health care. Proefschrift. Leiden: Universiteit Leiden.

Lambert, M.J., Harmon, C., Slade, K., Whipple, J.L. & Hawkins, E.J. (2005). Providing feedback to psychotherapists on their patients’ progress: clinical results and practice suggestions.Journal of Clinical Psychology, 61, 165–174.

Lambert, M.J., Whipple, J. L., Vermeersch, D.A., Smart, D.W., Hawkins, E.J., Nielsen, S.L. & Goates, M. (2002). Enhancing psychotherapy outcomes via providing feedback on client progress: a replication.Clinical Psychology and Psychotherapy, 9, 91–103.

McCall, W. A. (1922).How to measure in education. New York: MacMillan.

Raad voor de Volksgezondheid en Zorg (2011).Sturen op gezondheidsdoelen. Interne publicatie. Den Haag: RVZ.

SBG, Stichting Benchmark GGZ (2011).SBG zorgdomeinen, meetdomeinen, meetinstrumenten. Interne publicatie. Bilthoven: SBG, Stichting Benchmark GGZ.

Stuurgroep Zichtbare Zorg GGZ (2011).Eindrapportage Kernset prestatie-indicatoren GGZ en VZ verslagjaar 2010. Interne publicatie. Den Haag: Stuurgroep Zichtbare Zorg GGZ.

Tijdschrift voor Psychiatrie (2012). Themanummer ROM.Tijdschrift voor Psychiatrie, 54 (2).

Naar boven