Albert Boon, Sjoukje de Boer, Melissa van Dorp, Yolanda Nijssen
Samenvatting
Bij het meten van behandeluitkomsten is het belangrijk dat de gebruikte instrumenten de werkelijkheid zo goed mogelijk benaderen. De gemeten veranderingen moeten echt hebben plaatsgevonden en de veranderingen die hebben plaatsgevonden moeten gemeten worden. De gebruikelijke methode van Jacobson en Truax (1991) om op individuspecifiek niveau betrouwbaar therapeutische verandering te meten, wordt sterk beïnvloed door de ernst van de problemen bij aanvang van de behandeling. Bij heterogene populaties is daardoor de sensitiviteit (het vermogen om te meten of cliënten zijn verbeterd) en de specificiteit (het vermogen om cliënten te identificeren die onvoldoende zijn hersteld) van de methode zeer pover. Getoetst werd of de methode sensitiever wordt door de cliëntengroep in subgroepen te verdelen op basis van de ernst van hun aanvangsscores. Op basis van de Health of the Nation Outcome Scales for Children and Adolescents (HoNOSCA) van 12.547 cliënten werden uitkomsten berekend voor drie groepen (‘zeer ernstige problemen’, ‘ernstige problemen’ en ‘geringe problemen’). Met de ongecorrigeerde methode zou minder dan een kwart (22,0 procent) van de steekproef als verbeterd worden beschouwd. Met de aangepaste methode blijkt dit percentage bijna te verdubbelen (37,9 procent). Ook werd er een alternatief gepresenteerd voor de ontbrekende data van een functionele populatie op grond waarvan bepaald kan worden of een cliënt hersteld is. De voorgestelde methode om klinische significante verandering te berekenen voorkomt ook dat cliënten die nog steeds ernstige problemen hebben aan het eind van de behandeling als hersteld worden beschouwd. De implicaties van de methode en de aanpassing ervan worden besproken.
The measurement of individual change in heterogeneous patient populations
Abstract
When measuring treatment outcomes, it is important that the instruments used approach reality as closely as possible. The measured changes must have really taken place and the changes that have taken place must be measured. The accustomed method by Jacobson and Truax (1991) to evaluate the treatment of individual patients does not take the severity of the problems into account. Hence the sensitivity of this method is very poor in heterogeneous samples. It was tested whether the sensitivity could be heightened by a stratification of the population into subsamples based on the severity of their initial scores. Based on the data (N =12,547) of the Health of the Nation Outcome Scales for Children and Adolescents (HoNOSCA), outcomes were calculated for three groups (‘very severe problems’, ‘moderately severe problems’, and ‘mild problems’). Using the traditional method, less than a quarter (22.0 per cent) of the sample would be considered improved, whereas the adjusted method almost doubles this percentage (37.9 per cent). Furthermore, an alternative for non-available data of a functional population was presented. The proposed method of calculating clinical significant change prevents that clients that still have serious problems at the end of treatment are considered as recovered. The implications of the method and the adjustment are discussed.
Inleiding
De belangrijkste doelstelling van routine outcome monitoring (rom) is het bijhouden van de vorderingen van de cliënt gedurende de behandeling. Hiervoor worden vragenlijsten gebruikt die bij herhaalde afname geschikt zijn om verandering te meten. We willen graag weten of de cliënt verbetert (of verslechtert) en of de verbetering uiteindelijk voldoende is om van herstel te kunnen spreken. Een veelgebruikte statistische methode om op individuspecifiek niveau betrouwbare therapeutische verandering te meten is die van Jacobson en Truax (1991). De index voor betrouwbare verandering (Reliable Change Index: rci) geeft aan hoeveel punten de score van een cliënt veranderd moet zijn tussen het begin en het eind van de behandeling om de onbetrouwbaarheidsmarges van de uitkomstmaat te overstijgen. Als dit aantal punten gehaald is dan wordt de casus als betrouwbaar veranderd (verbeterd of verslechterd) beschouwd.
Deze index voor betrouwbare verandering houdt echter geen rekening met de ernstscores van cliënten bij de aanvang van hun behandeling. Dit heeft tot nadelig effect dat de index te zwaar kan uitpakken en daardoor een buitengewoon lage sensitiviteit kan hebben wanneer deze wordt toegepast bij heterogene groepen cliënten.
Omdat bij de berekening van de betrouwbare verandering de individuele cliënt wordt vergeleken met de populatie waartoe hij of zij behoort, is de ernst van de klachten van alle andere cliënten in de populatie (bijvoorbeeld bij dezelfde instelling) van sterke invloed bij het bepalen van de behandeluitkomst. Als het een heterogene cliëntengroep betreft waar cliënten met lichte, gemiddelde en ernstige klachten deel van uitmaken en de scores dus een hoge spreiding hebben, levert dit een statistisch probleem op dat op individueel niveau kan leiden tot uitkomsten die geen recht doen aan de werkelijke verandering die heeft plaatsgevonden. Uitkomsten die op groepsniveau evident statistisch significant zijn (blijkend uit bijvoorbeeld een grote effect size) kunnen bij uitsplitsing per individuele cliënt tegenvallen. Veranderingen die de behandelaar op individueel niveau waarneemt blijken dan statistisch niet betrouwbaar te zijn. Deze tegenvallende resultaten zullen echter vaak een artefact zijn van de gebruikte methode (Hiller, Schindler & Lambert, 2012).
Maar omgekeerd is er ook een probleem. Cliënten die betrouwbaar verbeterd zijn, kunnen nog steeds heel veel klachten hebben. Neem bijvoorbeeld twee patiënten met hoge bloeddruk: patiënt A met een bovendruk van 200, patiënt B met een bovendruk van 150. Na twee weken gebruik van een bloeddrukverlagend middel is de bovendruk van patiënt A verlaagd naar 170 en van patiënt B naar 120. Bij beide patiënten zegt de huisarts: prima de bloeddruk is betrouwbaar verbeterd. Echter patiënt A bevindt zich nog steeds in de gevarenzone, maar om dit te bepalen moeten we weten wat de waarden van de gezonde bevolking (functionele groep) zijn.
In dit artikel toetsen we of een aanpassing van de methode een grotere sensitiviteit en specificiteit oplevert. We hopen hiermee de kloof, tussen wat de clinicus (en de cliënt) als betekenisvolle verandering ziet en wat bij statistische toetsing significant is, te overbruggen. We illustreren de aangepaste methode aan de hand van de Health of the Nation Outcome Scales for Children and Adolescents (HoNOSCA): een veelgebruikt instrument in de kinder- en jeugdpsychiatrie. Naast de index voor betrouwbare verandering (rci) is de eveneens door Jacobson en Truax (1991) voorgestelde index voor klinisch significantie (Clinical Significance: cs) inmiddels gemeengoed. Deze index is gebaseerd op scoreverdelingen op een meetinstrument voor cliënten (klinische normgroep) en mensen uit de gewone bevolking (functionele groep). Wanneer de score op de uitkomstmaat na behandeling meer representatief is voor de scoreverdeling van de normale bevolking dan voor die van de klinische normgroep, wordt de eindscore als klinisch significant beschouwd (Hafkenscheid & Van Os, 2016). De rc- en cs-indexen kunnen apart worden gebruikt, maar horen feitelijk bij elkaar. In combinatie leiden zij tot krachtiger uitspraken over de effectiviteit van behandeling op individueel niveau: ‘betrouwbare verandering zonder klinische significantie’ of ‘klinische significantie zonder betrouwbare verandering’ hebben minder zeggingskracht dan de combinatie van beiden. Als de score van een cliënt meer in de gewenste richting is veranderd dan de rci, kunnen we stellen dat deze betrouwbaar verbeterd is. Als de score aan het eind van de behandeling bovendien binnen het domein van de gewone bevolking valt, dan kunnen we zeggen dat de cliënt is hersteld.
De HoNOSCA (ook wel honos-jeugd) behoort tot een groep instrumenten die verder bestaat uit de honos (volwassenen), de HoNOS 65+ (ouderen), de HoNOS-Secure (forensische zorg), de HoNOS-ld (leerproblemen) en de HoNOS abi (niet aangeboren hersenletsel). Het zijn observatielijsten die de geestelijke gezondheidstoestand en het sociaal functioneren in kaart brengen van cliënten met psychische problematiek. Ze zijn beschikbaar in vele talen en maken in veel landen deel uit van de verplichte rom. Door op vaste momenten tijdens het behandelproces deze vragenlijsten af te nemen, kunnen behandelaren de veranderingen in het functioneren van hun cliënten volgen en krijgen de betrokken instellingen inzicht in hoe hun cliëntenbestand er uit ziet en wat de uitkomsten van de behandelingen zijn. Voor de HoNOS-instrumenten geldt dat normgegevens van de algemene bevolking ontbreken, waardoor het niet mogelijk is om vast te stellen wanneer de score van een cliënt binnen het domein van de gewone bevolking valt en dus een klinische significantie bereikt. We doen daarom een voorstel om op een alternatieve manier te kunnen bepalen of een cliënt hersteld is.
Omdat de HoNOS-instrumenten bij zeer gevarieerde groepen (bijvoorbeeld grote ggz-instellingen of landelijke samenwerkingen) worden toegepast met een grote spreiding in de scores, blijkt het aantal punten dat een cliënt moet veranderen vaak onrealistisch hoog. Met andere woorden, hoe heterogener de cliëntpopulatie waartoe een individu behoort, hoe groter het aantal punten dat zijn of haar score moet veranderen en dus hoe kleiner de kans dat de cliënt significant verandert. Voor instellingen met een heterogene cliëntenkring betekent dit dat slechts een beperkt aantal cliënten significant zal opknappen. Voorbeelden hiervan zijn terug te vinden in onderzoeken die gebruikmaken van de HoNOS-lijsten waarbij 70 procent (Brann & Coleman, 2010), 80 procent (Nugter e.a., 2012) of zelfs 91.6 procent (Parabiaghi e.a., 2005) van de cliënten als onveranderd moest worden beschouwd.
Het spreekt vanzelf dat een hoog percentage cliënten dat na behandeling onveranderd blijft, kan leiden tot onbegrip en ontmoediging bij professionals en dat het enthousiasme om aan rom mee te werken sterk zal verminderen. Door de hoge standaard kan maar een klein deel van de cliënten als verbeterd worden beschouwd en sommige auteurs signaleren dat de statistische criteria vaak strenger zijn dan die op grond waarvan in de klinische praktijk beslissingen worden genomen (Brann & Coleman, 2010) en dat de kloof tussen statistische significantie en het klinische oordeel kan leiden tot niet-valide beslissingen (Hiller, Schindler & Lambert, 2012) . Om een oplossing te vinden voor in de ogen van de clinici vaak te strenge criteria van de rci, hebben wij onlangs een voorstel gedaan voor een alternatieve toepassing van deze methode (Boon e.a., 2019).
In dit artikel worden aan de hand van empirisch materiaal suggesties gedaan om de sensitiviteit van de index voor betrouwbare verandering te verhogen. Ook worden suggesties gedaan om, ondanks het gemis van een empirische scoreverdeling voor een vergelijkingsgroep uit de algemene bevolking, de specificiteit van klinische significantie te verhogen. Op basis van HoNOSCA’s van 12.547 cliënten uit de jeugd-ggz werd onder meer getoetst of de methode voor betrouwbare verandering daadwerkelijk sensitiever wordt door de cliëntengroep te verdelen in subgroepen op basis van de ernst van hun scores bij aanvang van de behandeling.
HoNOSCA
De HoNOSCA bestaat uit dertien items over gedrag en symptomen van kinderen en jeugdigen en twee aanvullende items over kennis die ouders/verzorgers hebben over de zorg en de problemen van hun kind. Betrokken behandelaren zijn getraind in het invullen van de HoNOSCA, zodat het instrument betrouwbaar kan worden ingevuld. Behandelaren kennen per item een score toe. In de oorspronkelijke Engelstalige versie zijn de antwoordcategorieën voor alle items identiek, maar in de Nederlandse versie verschillen ze enigszins per item. Globaal kunnen de Nederlandse antwoordcategorieën als volgt worden ingedeeld: 0 ‘Geen probleem’, 1 ‘Gering probleem’, 2 ‘Mild probleem’, 3 ‘Enigszins ernstig probleem’ en 4 ‘Ernstig tot zeer ernstig probleem’. Uitgangspunt is dat als een itemscore van 3 of 4 wordt toegekend, de problematiek zo ernstig is dat behandeling voor dat probleem geïndiceerd is. De totaalscore is de som van de eerste 13 items (range 0-52) en wordt omschreven als ‘algemene ernst van fysieke, persoonlijke en sociale problemen in relatie tot de geestelijke gezondheid’ (Gowers e.a., 1999).
Toen de HoNOSCA in het rom-pakket voor de kinder- en jeugdpsychiatrie werd opgenomen, werd het instrument nadrukkelijk ‘experimenteel’ genoemd, omdat niet duidelijk was wat gemeten werd en wat de verschilscore tussen het begin en het einde van de behandeling betekende (Boer, Markus & Vermeiren, 2012). Ook de Commissie Testaangelegenheden Nederland (cotan) heeft, bij gebrek aan onderzoek, tot op de dag van vandaag nog geen oordeel over de HoNOSCA uitgesproken, waardoor onduidelijk blijft wat precies gemeten wordt bij gebruik van deze lijst. We moeten dus maar aannemen dat de redelijk goede psychometrische eigenschappen van de HoNOSCA, zoals die uit buitenlands onderzoek blijken, ook voor de Nederlandse versie zullen opgaan. De validiteit, betrouwbaarheid, en gevoeligheid voor verandering van de Engelstalige versie zijn acceptabel (Bilenberg, 2003; Brann & Coleman, 2010; Garralda, Yates & Higgison, 2000; Gowers e.a., 1999), en de interbeoordelaarsbetrouwbaarheid is goed (Hunt & Wheatley, 2009; Hanssen-Bauer e.a., 2007; Yates, Kramer & Garralda, 2006). De test-hertestbetrouwbaarheid is gemiddeld evenals de gevoeligheid voor verandering (Garralda, Yates & Higgison, 2000, Gowers e.a., 2002, Pirkis e.a., 2005).
De items van de HoNOS-lijsten worden weliswaar schalen genoemd maar voldoen niet aan de omschrijving (‘een groep gerelateerde items’) van een schaal die de testpsychologie hanteert. Zo is de depressieschaal van een veelgebruikt instrument als de scl-90 (Arrindell & Ettema, 2003) samengesteld uit vragen over ‘suïcidegedachten’, ‘gevoel in de put te zitten’, ‘piekeren’, et cetera. In een factoranalyse blijken deze items de onderliggende component depressie te vertegenwoordigen. De makers van de HoNOS-lijsten hebben er echter voor gekozen om ieder item een schaal te noemen. Omdat in de handleiding nadrukkelijk de eis wordt gesteld dat een probleem maar bij één item gescoord mag worden, zijn de correlaties tussen de items laag, levert een factoranalyse geen onderliggende componenten op en blijkt de interne consistentie vrij laag (0,69). De totaalscore kan dus eigenlijk niet als een schaalscore worden beschouwd.
De totaalscore van de HoNOS-lijsten is dus geen eenduidige maat voor geestelijke gezondheid (Trauer, 1999) en er is daarom ook wel gesuggereerd om over behandeluitkomsten te rapporteren door de begin- en eindscores van elk item afzonderlijk met elkaar te vergelijken (Brann & Coleman, 2010). Hierdoor ontstaat een genuanceerd beeld van de vorderingen van de cliënt. Clinici, beleidsmakers en financiers geven echter vaak de voorkeur aan één simpele indicator voor de uitkomst van de therapie. Dit is waarschijnlijk de reden dat de meeste onderzoekers zich toch concentreren op de totaalscore als maat van verandering (Gowers e.a., 1999; Gowers e.a., 2000; Harnett e.a., 2005; Manderson & McCune, 2003).
Een serieus probleem bij het gebruik van de totaalscore van de HoNOS-lijsten is echter dat de ernst van de problematiek er slecht uit af te lezen is. Het is onduidelijk of een score van 7 bepaald wordt door scores 3 of 4 op twee items of dat er sprake is van een aantal geringe problemen (scores 1 of 2) in verschillende gebieden. Daarom is er een meer geavanceerde methode nodig om de ernst van de problemen te classificeren. Deze methode werd voorgesteld voor de HoNOS (Lelliott, 1999) en de HoNOSCA (Gowers e.a., 2000) en later verfijnd voor de HoNOS (Parabiaghi e.a., 2005). De ernst van de problematiek wordt als volgt gedefinieerd: ‘Zeer ernstige problemen’; cliënten met een score van 3 of hoger op twee of meer items (zonder item 6 ‘Lichamelijke aandoening of handicap’), ‘Ernstige problemen’; cliënten met een score van 3 of hoger op één item (zonder item 6), ‘Geringe problemen’; cliënten met score 2 op een of meerdere items en ‘Subklinisch’; cliënten met alleen scores onder de 2.
Een ander probleem is dat data van een functionele populatie (scoreverdeling algemene bevolking) ontbreken. Het is moeilijk om deze data te verzamelen, omdat dit alleen mogelijk is als getrainde professionals de HoNOSCA over een grote groep uit de algemene bevolking zouden invullen, wat een zeer kostbare onderneming zou zijn. Jacobson en Truax (1991) suggereerden om, als data van een functionele populatie ontbreken, cliënten met een eindscore van meer dan twee standaardafwijkingen onder het gemiddelde van de klinische normgroep als hersteld te beschouwen. Bij heterogene populaties is deze eis (net als bij het berekenen van betrouwbare verandering) echter onrealistisch streng, omdat de spreiding in scores zo groot is dat alleen zeer grote scoredalingen dan als klinisch significant in aanmerking komen. In plaats daarvan stellen we voor om bij gebrek aan data van een functionele populatie een ad hoc methode te gebruiken op basis van een rationele (in plaats van empirische) keuze: alleen als de cliënt betrouwbaar is veranderd en de totaalscore bij de nameting in het ‘subklinisch’ gebied valt (alle items lager dan 2), geldt het resultaat als klinisch significant en wordt de patiënt als hersteld beschouwd.
Procedure
Voor het huidige onderzoek werd gebruikgemaakt van HoNOSCA-gegevens die verzameld zijn in tien Nederlandse instellingen voor de jeugd-ggz. Behandelaren waren getraind in het afnemen van de geautoriseerde Nederlandse versie van de HoNOSCA (Staring, Hofman & Mulder, 2003), zodat zij het instrument betrouwbaar konden invullen. Om aan de voorwaarden van de Stichting Benchmark ggz (sbg) te voldoen, moest de HoNOSCA worden ingevuld aan het begin en het einde van een Diagnose Behandel Combinatie (dbc). Ten behoeve van het onderzoek werden de lijsten die aan het begin en aan het einde van de behandeling werden ingevuld geselecteerd, zodat de veranderingen die gedurende de gehele behandelperiode plaatsvonden, gemeten konden worden. In de praktijk bleek dat de HoNOSCA in sommige gevallen meerdere keren tussentijds was ingevuld. Dit maakte het mogelijk een subgroep cliënten te selecteren waarbij de lijst tweemaal binnen een periode van vijf tot tien dagen was ingevuld. Omdat kan worden aangenomen dat in die korte periode geen of geringe veranderingen hebben plaatsgevonden in de toestand van de cliënt, is deze conditie ideaal voor test-hertestonderzoek. Verschillen tussen de twee metingen kunnen bijna zeker worden toegeschreven aan een zekere onbetrouwbaarheid van het instrument. De gegevens van deze subgroep (n = 397) zijn gebruikt om de test-hertestbetrouwbaarheid van de HoNOSCA te berekenen.
Resultaten
In de periode 2010-2016 werden door behandelaars 66.526 HoNOSCA’s ingevuld, waarvan 17.761 lijsten beginmetingen (T1) waren. Deze lijsten werden ingevuld bij de start van een behandeling. Van de cliënten waarvan een beginmeting beschikbaar was, bleken 12.547 (70,6 procent) ook een meting te hebben bij het afsluiten van de behandeling (T2). De groep met zowel een begin- als eindmeting (T1+T2) bestond uit 7700 jongens (61,4 procent) en 4847 meisjes (38,6 procent). De gemiddelde leeftijd bij het begin van de behandeling was 11,35 jaar (sd = 3,57, range 6-18 jaar) en de gemiddelde behandelduur 273 dagen (sd = 162,08, range 7-1378 dagen). De meestvoorkomende hoofddiagnosen waren: attention deficit hyperactivity disorder (adhd) (30,2 procent), stoornissen van de kindertijd en adolescentie nao (19,6 procent), autismespectrumstoornissen (ass) (18,5 procent), angststoornissen (11,6 procent), stemmingsstoornissen (7,4 procent) en gedragsstoornissen (4,0 procent).
Verandering op groepsniveau
Er vond een daling plaats van de totaalscore van de HoNOSCA tussen het begin van de behandeling (M = 12,37, sd = 5,86) en het eind van de behandeling (M = 8,84, sd = 6,21).Dit verschil was significant (t = 66,96, p <0,001) de effect size was d = 0,59, een matig effect.
Individuele betrouwbare verandering
Gebaseerd op de standaarddeviatie van de beginmeting (5,86) en de test-hertestbetrouwbaarheid van de subgroep (0,812) kwam de rci uit op 8 punten1. Op basis van deze rci moesten cliënten met een daling of stijging van zeven punten of minder als onveranderd worden beschouwd, wat inhield dat 22,0 procent was verbeterd, 75,1 procent onveranderd bleef en 2,9 procent was verslechterd.
Alternatieve berekening voor heterogene populaties
Het bestand werd op basis van de ernst van de klachten bij het begin van de behandeling opgedeeld in drie groepen. Van deze drie groepen werden de gemiddelden en de spreiding berekend: een groep met subklinische of geringe problemen (geen scores hoger dan 2) (M = 6,86, sd = 3,31), een groep met één ernstig probleem (met hooguit één score van 3 of hoger) (M = 9,47, sd = 3,20) en een groep met meerdere ernstige problemen (met meerdere items met een score van 3 of hoger) (M = 16,23, sd = 5,47). Dit leverde een rci van respectievelijk 4, 4 en 7 op. Cliënten met geringe problemen of één ernstig probleem moesten vier punten veranderen om van een betrouwbare verandering te kunnen spreken, cliënten met meerdere ernstige problemen zeven scorepunten. Op basis van deze indeling verbeterde 37,9 procent, liet 54,6 procent geen betrouwbare verandering zien en verslechterde 7,5 procent.
Om bij gebrek aan normgegevens van een functionele populatie te kunnen bepalen welke cliënten die verbeterd waren ook daadwerkelijk als ‘hersteld’ konden worden beschouwd, waren er twee berekeningen mogelijk. De methode van Jacobson en Truax (1991) definieert klinische significantie als een eindscore die ten minste tot twee standaarddeviaties onder het gemiddelde voor de klinische groep (de cliëntengroep bij het begin van de behandeling) is gedaald. Bij ontstentenis van een normgroep uit de algemene bevolking zou uitsluitend dit criterium voor onze dataset in aanmerking komen. Dat criterium is eigenlijk onhanteerbaar, omdat bij de ongedeelde populatie de toepassing ervan zou betekenen dat alleen cliënten met een eindscore van nul (12,37-11,72) als klinisch significant verbeterd (‘hersteld’) kunnen worden beschouwd. Dat kwam neer op slechts 4,4 procent van de cliënten. Voor de drie groepen op basis van de ernst van de problemen, waarbij de standaarddeviaties voor de groepen met minder ernstige problemen lager liggen, zou 17,0 procent als ‘hersteld’ worden beschouwd. Wij deden een arbitrair maar inhoudelijk verdedigbaar alternatief voorstel, dat niet afhankelijk is van de scoreverdeling voor de klinische groep, door eenvoudigweg iedereen die aan het eind van de behandeling tot de subklinische groep (geen scores van 2 of hoger) behoort als ‘hersteld’ te classificeren. Met dit alternatieve voorstel viel 16,3 procent van de cliënten in de categorie ‘hersteld’. Dit percentage kwam nagenoeg overeen met het percentage (17,0 procent) dat met de methode van Jacobson en Truax werd gevonden als de dataset op basis van de ernst van de problemen werd opgesplitst.
Discussie
De doelstelling van dit onderzoek was het uitproberen van aanpassingen van de state of the art-methode om betrouwbare en klinisch significante verandering te meten, zodat de methode meer recht doet aan de praktijk van instellingen met een heterogeen cliëntenbestand. Dit is mogelijk door de cliënten in te delen in drie groepen gebaseerd op de ernst van hun problemen aan het begin van de behandeling. Volgens de gebruikelijke methode om betrouwbare verandering te berekenen, worden zelfs de somberste verwachtingen over de resultaten van de jeugd-ggz overtroffen, omdat slechts 22,0 procent van de cliënten verbetert en ongeveer driekwart van de cliënten als onveranderd moet worden beschouwd. Bij de methode in de huidige studie, waarbij de ernst van de problemen in aanmerking worden genomen, stijgt het percentage dat verbetert naar 37,9 en daalt het percentage cliënten dat als onveranderd dient te worden beschouwd tot 54,6. Deze resultaten lijken iets meer recht te doen aan de realiteit van de behandeling in de kinder- en jeugdpsychiatrie. Toch blijven de percentages succesvol behandelde (betrouwbaar of klinisch significant verbeterde) cliënten ook na onze aanpassingen aan de lage kant.
Vanwege het ontbreken van een functionele normgroep, zijn twee benaderingen vergeleken om te bepalen wanneer behandeluitkomsten klinisch significant zijn en dus als ‘hersteld’ kunnen worden beschouwd. De eerste benadering van Jacobson en Truax (1991), waarbij een cliënt een klinisch significante behandeluitkomst bereikt wanneer de eindscore tot twee standaarddeviaties onder het gemiddelde van de klinische groep daalt. De tweede benadering is een arbitraire, maar rationele: elke cliënt wordt als klinisch significante casus (‘hersteld’) beschouwd als de nameting op subklinisch niveau ligt. De percentages (17,0 en 16,3) ‘herstelde’ cliënten bij de eerste en de tweede benadering ontlopen elkaar nauwelijks. Echter cliënten die volgens de eerste methode als hersteld worden beschouwd kunnen nog steeds hoge scores op de items van de HoNOSCA behalen. Van de groep die volgens het Jacobson & Truax-criterium (N = 2.138) als hersteld worden beschouwd, blijkt 23,8 procent nog steeds geringe problemen te hebben (score 2 op 1 of meerder items) en heeft 4,3 procent zelfs nog een ernstig probleem (score 3 op 1 item). De specificiteit van deze methode houdt dus te wensen over omdat in de herstelde groep cliënten met ernstige problemen zitten. Het heeft zodoende de voorkeur om alleen cliënten met een subklinische totaalscore als hersteld te beschouwen.
Het creëren van subgroepen op basis van de ernst van de problematiek is door de antwoordcategorieën van de HoNOS-lijsten, waarbij duidelijk wordt aangegeven wanneer een probleem in aanmerking komt voor behandeling, een logische stap. Voor andere vragenlijsten waarmee psychosociale problemen worden gemeten is het vaak niet zo voor de hand liggend om groepen te maken op basis van de ernst van de problematiek. Dit zou kunnen worden opgelost door uit te gaan van homogene groepen binnen de populatie. Zo wordt het ook met andere instrumenten mogelijk om op een realistischer manier betrouwbare verandering te meten.
De HoNOSCA wordt door behandelaren ingevuld over behandelingen die zij zelf hebben gegeven. Het is daarmee de vraag hoe valide deze wordt ingevuld. Wellicht bestaat de (onbewuste) neiging om aan het begin van de behandeling de problematiek zwaarder, en aan het eind lichter in te schatten (Boon, 2017). Daarom is de effect size van het gebruikte databestand vergeleken met meta-analyses van onderzoek in de kinder- en jeugdpsychiatrie waarbij de cliënten of hun ouders het resultaat van de behandeling beoordeelden. De gepaarde t-toets van de HoNOSCA laat een matig effect zien (d = 0,59). Dit is vergelijkbaar met, of zelfs lager dan de effecten in meta-analyses die lopen van 0,69 (Weisz, McCarty & Valeri, 2006) tot 0,88 (amhocn, 2005). We mogen daaruit afleiden dat behandelaren realistisch of wellicht zelfs te somber zijn in hun inschatting van de veranderingen die zich voordoen tijdens de behandeling en behandeleffecten niet flatteren.
Het onderzoek laat zien dat het een zinvolle stap is om betrouwbare verandering te berekenen door aanvangsscores in te delen naar groepen met ongeveer gelijke ernst van problematiek. Het is eveneens goed verdedigbaar om alleen cliënten die betrouwbaar veranderd zijn en aan het eind van de behandeling geen klinische problemen meer hebben (geen scores groter of gelijk aan 2) als hersteld te beschouwen. Beide aanpassingen geven de mogelijkheid om tussen instellingen of afdelingen te benchmarken. Instellingen met groepen die sterk verschillen in het soort problematiek kunnen worden vergeleken door aan de hand van de beginscore op de HoNOS-lijsten een indeling te maken op de ernst van de problematiek, zodat een eerlijker vergelijking mogelijk is wat betreft de percentages cliënten die verslechteren, gelijk blijven, verbeteren of herstellen.
Een beperking van dit onderzoek is dat de bevindingen niet kunnen worden getoetst aan de resultaten van vragenlijsten die door de cliënten of hun ouders zijn ingevuld. Dit was een van de aanvankelijke doelstellingen van het in 2008 door zestien ggz-instellingen voor kinderen en adolescenten opgerichte Routine Outcome Monitoring Consortium Kinder- en Adolescenten Psychiatrie (romckap). Het duurde echter tot 2011 voordat er op grote schaal vragenlijsten werden afgenomen, omdat de zorgverzekeraars toen met een stevige (financiële) stok achter de deur eisten dat er aan het begin en het eind van een dbc metingen moesten komen. Aanvankelijk was de eis dat van twintig procent van de cliënten een voor- en een nameting beschikbaar zou zijn. In de jaren daarop werd dit percentage telkens met tien procent verhoogd. sbg verzamelde namens de zorgverzekeraars de gegevens van alle ggz-instellingen, met het doel om de prestaties van de verschillende instellingen te vergelijken (benchmarken)2. Om dit percentage te halen concentreerden veel instellingen zich op de HoNOSCA, omdat het eenvoudiger bleek om behandelaren te dwingen vragenlijsten in te vullen dan cliënten of hun ouders daartoe te motiveren. Het gevolg is dat er groot bestand met HoNOSCA-metingen is, maar dat er maar weinig data beschikbaar zijn om veranderingen die behandelaars signaleren te vergelijken met de veranderingen die cliënten op een zelfrapportagelijst aangeven. Onze aanbeveling is dan ook om bij toekomstig onderzoek systematisch behandelevaluatiegegevens uit meerdere bronnen (ouders, kind, behandelaar) te verzamelen, zodat een beter beeld ontstaat in hoeverre de uitkomsten van de HoNOSCA overeenkomen met die van de cliënt.
Dankwoord
We willen het Routine Outcome Monitoring Consortium Kinder- en Adolescenten Psychiatrie (romcap) van het Kenniscentrum Kinder- en Jeugdpsychiatrie bedanken voor het ter beschikking stellen van de data van hun leden ten behoeve van dit onderzoek. In het bijzonder de informatieanalisten Pieter Koppelaar en Jan Berend Dusink die de data van de verschillende instellingen hebben samengebracht en toegankelijk hebben gemaakt voor onderzoek.
Noten
1 De RCI wordt berekend op basis van de test-hertestbetrouwbaarheid (rxx) van het instrument en de standaarddeviatie (S1) van de beginscores gebaseerde standaardmeetfout (S1√1-rxx). Het gevolg hiervan is dat hoe heterogener de populatie (grote S1) hoe groter het verschil tussen begin- en eindscores moet zijn om van betrouwbare verandering te kunnen spreken.
2 Na verloop van tijd werd SBG herdoopt tot ‘Alliantie Kwaliteit in de Geestelijke Gezondheidszorg’ (AKWA) zodat de pretentie om te benchmarken uit de naam verdween.
Literatuur
Australian Mental Health Outcome and Classification Network (2005). Child & adolescent national outcomes & casemix collection standard reports, 1st edition, version 1.1. Brisbane: AMHOCN.
Arrindell, W.A., & Ettema, J.H.M. (2003). SCL-90. Symptom Checklist. Lisse: Swets Test Publishers.
Bilenberg, N. (2003). Health of the Nation Outcome Scales for Children and Adolescents (HoNOSCA). Results of a Danish field trial. European Child & Adolescent Psychiatry, 12, 298-302.
Boer, F., Markus, M., & Vermeiren, R. (2012). Zeg niet: ‘Sta stil, anders kan ik je niet meten!’. ROM in de kinder- en jeugdpsychiatrie. Tijdschrift voor Psychiatrie, 54, 167-171.
Boon, A.E. (2017). De ROM-slager keurt zijn eigen vlees. Kind & Adolescent Praktijk, 16, 26-28.
Boon, A.E., Boer, S.B.B. de, Dorp, M. van, & Nijsssen, Y.A.M. (2019). Reliable and clinically significant change based on the Health of the Nation Outcome Scales. Psychiatry Research, 281, 112587.
Brann, P., & Coleman, G. (2010). On the meaning of change in a clinician’s routine measure of outcome: HoNOSCA. Australian & New Zealand Journal of Psychiatry, 44, 1097-1104.
Garralda, M., Yates, P., & Higgison, I. (2000). Child and adolescent mental health service use. HoNOSCAas an outcome measure. British Journal of Psychiatry, 177, 52-58.
Gowers, S., Bailey-Rogers, S, Shore, A., & Levine, W. (2000). The Health of the Nation Outcome Scales for Child & Adolescent Mental Health (HoNOSCA). Child Psychology & Psychiatry Review, 5, 50-56.
Gowers, S., Harrington, R., Whitton, A., Lelliott, P., Beevor, A., Wing, J., e.a. (1999). Brief scale for measuring the outcomes of emotional and behavioural disorders in children. Health of the Nation Outcome Scales for Children and Adolescents (HoNOSCA). British Journal of Psychiatry, 174, 413-416.
Gowers, S., Levine, W., Bailey-Rogers, S., Shore, A., & Burhouse, E. (2002). Use of a routine, self-report outcome measure (HoNOSCA-SR) in two adolescent mental health services. Health of the Nation Outcome Scale for Children and Adolescents. British Journal of Psychiatry, 180, 266-269.
Hafkenscheid, A., & van Os, J. (2016). Wat ieder die betrokken is bij ROM zich over de metingen moet realiseren. Tijdschrift voor Psychiatrie, 58, 388-396.
Hanssen-Bauer, K., Aalen, O., Ruud, T., & Heyerdahl, S. (2007). Inter-rater reliability of clinician-rated outcome measures in child and adolescent mental health services. Administration and Policy in Mental Health and Mental Health Services Research, 34, 504-512.
Harnett, P.H., Loxton, N.J., Sadler, T. , Hides, L., & Baldwin, A. (2005). The Health of the Nation Outcome Scales for Children and Adolescents in an adolescent in-patient sample. Australian & New Zealand Journal of Psychiatry, 39, 129-135.
Hiller, W., Schindler, A.C., & Lambert, M.J. (2012). Defining response and remission in psychotherapy research: a comparison of the RCI and the method of percent improvement. Psychotherapy Research 22, 1-11.
Hunt, J., & Wheatley, M. (2009). Preliminary findings on the health of the nation outcome scales for children and adolescents in an inpatient secure adolescent unit. Child Care in Practice, 15, 49-56.
Jacobson, N., & Truax, P. (1991). Clinical significance: A statistical approach to defining meaningful change in psychotherapy research. Journal of Consulting and Clinical Psychology, 59, 12-19.
Lelliott, P. (1999). Definition of severe mental illness. In P. Charlwood, A. Mason, M. Goldacre, R. Cleary & E. Wilkonson (Eds.), Health outcome indicators: severe mental illness. Report of a working group to the department of health (pp. 87-93). Oxford: National Centre for Health Outcomes Development.
Manderson, J., & McCunune, N. (2003). The use of HoNOSCAin a child and adolescent mental health service. Irish Journal of Psychological Medicine, 20, 52-55.
Nugter, M.A., Buwalda, V.J.A., dHondt, A.D.F., & Draisma, S. (2012). The use of HoNOS in the treatment of patients. Tijdschrift voor Psychiatrie, 54, 153-159.
Parabiaghi, A., Barbato, A., d’Avanzo, B., Erlicher, A., & Lora, S. (2005). Assessing reliable and clinically significant change on Health of the Nation Outcome Scales: method for displaying longitudinal data. Australian and New Zealand Journal of Psychiatry, 39, 719-724.
Pirkis, J., Burgess, P., Kirk, P., Dodson, S., Coombs, T., & Williamson, M.( 2005). A review of the psychometric properties of the Health of the Nation Outcome Scales (HoNOS) family of measures. Health and Quality of Life Outcomes, 3, 1-12.
Staring, T., Hofman, E., & Mulder, N. (2003). Health of the Nation Outcome Scales for Children and Adolescents (Dutch version). Utrecht: Trimbos instituut.
Trauer, T. (1999). The subscale structure of the Health of the Nation Outcome Scales (HoNOS). Journal of Mental Health, 8, 499-509.
Weisz, J., McCarty, C., & Valeri,S. (2006). Effects of psychotherapy for depression in children and adolescents: A meta-analysis. Psychological Bulletin, 132, 132-149.
Yates, P., Kramer, T., & Garralda, M. (2006). Use of a routine mental health measure in an adolescent secure unit. The British Journal of Psychiatry, 188, 583-584
Albert E. Boon a,b, E-mail ■ a.boon@parnassiagroep.nl
Sjoukje B.B. de Boer a,
Melissa van Dorp a,c,e,
Yolanda A.M. Nijssen a,d
a Parnassia Groep: specialist in geestelijke gezondheid. Youz: kinder- en jeugdpsychiatrie.
b Curium-LUMC: kinder- en jeugdpsychiatrie, Universiteit Leiden.
c Academische Werkplaats Risicojeugd/Intermetzo, Zutphen.
d Tranzo, Universiteit Tilburg.
e Afdeling Kinder- en Jeugd Psychiatrie, Amsterdam University Medical Center.