Suzanne C. van Bronswijk, Lotte H.J.M. Lemmens
Samenvatting
Verbeterde behandeltoewijzing kan succes van depressiebehandelingen vergroten. Doel van dit onderzoek was het vergelijken van klinische behandeladviezen met statistische behandeladviezen bij selectie van cognitieve therapie (ct) of interpersoonlijke psychotherapie (ipt) voor depressie. In een gerandomiseerde behandelstudie naar ct en ipt werd voor elke deelnemer een klinisch behandeladvies geformuleerd door behandelaren, en een statistisch behandeladvies gegeven met de Personalized Advantage Index (pai). Depressie-ernst werd bekeken aan het einde van de behandeling en gedurende zeventien maanden follow-up. Personen die door randomisatie waren toegewezen aan de behandeling volgens het statistische behandeladvies waren minder depressief in vergelijking met degenen die de niet-geadviseerde behandeling ontvingen. Dit effect werd niet waargenomen bij degenen die al dan niet behandeling ontvingen volgens klinische behandeladviezen. Wanneer behandelaren ipt adviseerden, hadden deelnemers zelfs een hogere depressiescore wanneer zij ook daadwerkelijk ipt ontvingen in vergelijking met degenen die ct kregen. Statistische behandeladviezen presteren beter dan klinische behandeladviezen bij selectie van depressiebehandelingen.
Suzanne van Boswijk is psychiater en universitair docent en werkzaam bij de vakgroep
Psychiatrie & Neuropsychologie, School for Mental Health and Neuroscience, Maastricht UMC+. E-mail n suzanne.van.bronswijk@mumc.nl
Lotte Lemmens is unversitair docent en gedragswetenschapper en werkt bij de vakgroep Klinisch Psychologische Wetenschappen, Faculty of Psychology and Neuroscience, Maastricht University.
Leerdoelen
Inleiding
Met een gemiddeld responspercentage van rond de 50% hebben depressiebehandelingen slechts een bescheiden effect (Rush e.a., 2006). Hoewel de diverse behandelopties voor depressie gemiddeld gezien even effectief zijn (Cipriani e.a., 2018; Cuijpers e.a., 2021), zijn er op individueel niveau aanzienlijke verschillen: zo kan de ene behandeling helemaal niet aanslaan, terwijl een andere tot duidelijke verbetering leidt (Simon & Perlis, 2010). Deze individuele variabiliteit heeft onder andere tot gevolg dat er vaak meerdere depressiebehandelingen geprobeerd moeten worden voordat de juiste match gevonden is (Rush e.a., 2006). Bovendien bestaat het risico op vroegtijdige uitval wanneer een behandeling onvoldoende effectief is, iets wat in ongeveer 20% van de gevallen voorkomt (Cooper & Conklin, 2015; Swift e.a., 2017). Het is daarom cruciaal om al vóór de start van de behandeling de juiste match te vinden tussen de persoon en het type depressiebehandeling. Hierbij wordt afgestapt van de one size fits all-benadering en wordt de focus verlegd naar een meer gepersonaliseerde of preciezere aanpak om antwoord te geven op de vraag ‘wat werkt voor wie?’ (Cohen & DeRubeis, 2018; DeRubeis, 2019).
Klinische behandeladviezen
In de klinische praktijk is het beantwoorden van de vraag ‘wat werkt voor wie?’ een dagelijkse bezigheid. Klinische behandeladviezen worden vaak gebaseerd op klinische inschattingen van de verwachte effecten van de diverse behandelopties. Een klinische inschatting kan worden gezien als een informeel of intuïtief proces dat wordt doorlopen door één of meerdere behandelaren, vaak tijdens een multidisciplinaire (intake)vergadering. Hierbij spelen verschillende factoren een rol, waaronder de opleidingsachtergrond, overtuigingen, en theoretische perspectieven van de behandelaren, hun bekendheid met wetenschappelijke literatuur en (inter)nationale richtlijnen, en eerdere ervaringen met vergelijkbare casuïstiek (Delgadillo, Gellatly & Stephenson-Bellwood, 2015; Lorenzo-Luaces, DeRubeis & Bennett, 2015). Ook de voorkeur van de patiënt zelf wordt hierin vaak meegenomen.
Ondanks hun flexibiliteit zijn er diverse kanttekeningen te plaatsen bij de betrouwbaarheid van klinische inschattingen (Bell & Mellor, 2009; Garb, 2005; Grove e.a., 2000; Richards, Geiger & Tussey, 2015). Zo hebben verschillende behandelaren vaak andere inschattingen (Bell & Mellor, 2009), bijvoorbeeld omdat ze verschillende (theoretische) kaders gebruiken bij het komen tot een inschatting, en veranderen klinische inschattingen vaak in de loop van de tijd (Bell & Mellor, 2009). Voorwaarde voor betrouwbare klinische behandeladviezen is dat factoren en theorieën waarop deze gebaseerd zijn empirisch onderbouwd zijn en dat relevante factoren meetbaar zijn met betrouwbare instrumenten (Grove & Meehl, 1996). Helaas is dit op dit moment vaak niet het geval (Cuijpers, Reijnders & Huibers, 2019; Lemmens e.a., 2016). Daarbij worden klinische inschattingen minder betrouwbaar, doordat behandelaren vaak gebruikmaken van algemeenheden of vuistregels (‘In deze situatie is dit de beste behandeling’). Dit kan verschillende vormen van bias veroorzaken, waaronder bevestigingsbias (bias doordat de aandacht gericht wordt op informatie die een hypothese bevestigt en er minder aandacht besteed wordt aan tegenstrijdig bewijs), ankeringsbias (bias doordat aan initiële informatie meer waarde wordt toegekend dan andere informatie; de initiële informatie is hierbij een ‘anker’), beschikbaarheidsbias (bias doordat er meer aandacht gaat naar gemakkelijk beschikbare informatie ten opzichte van minder beschikbare informatie) en representativiteitsbias (bias doordat er aan een persoon of gebeurtenis die bij een bepaalde categorie horen direct alle eigenschappen van die categorie worden toegeschreven, waardoor er een hoge waarschijnlijkheid aan te weinig informatie wordt gegeven, denk hierbij aan vooroordelen en stereotyperingen) (Bell & Mellor, 2009; Furnham & Boo, 2011; Nickerson, 1998; Richards, Geiger & Tussey, 2015). Zelfs wanneer biases herkend en zoveel mogelijk vermeden worden, schieten menselijke informatieverwerkingscapaciteiten tekort om grote hoeveelheden complexe informatie op een correcte wijze te combineren (bijvoorbeeld bij meerdere conflicterende voorspellers; Bell & Mellor, 2009; Meehl, 1986). Ook dit is een beperking van de klinische inschattingen. Tot slot ontbreekt het in de klinische praktijk vaak aan adequate en systematische feedback om onjuiste klinische behandeladviezen op te merken en voor de toekomst te corrigeren (Grove e.a., 2000).
Statistische behandeladviezen
Een andere manier om de vraag ‘wat werkt voor wie?’ te beantwoorden, is door gebruik te maken van statistische behandeladviezen op basis van zogenaamde statistische voorspellingsmodellen of predictiemodellen. De nauwkeurigheid van deze statistische voorspellingen ten opzichte van klinische inschattingen is al bijna zeventig jaar onderwerp van onderzoek en discussie (Meehl, 1954, 1986). In een van de eerste publicaties op dit gebied concludeerde Meehl (1954) dat in negentien van de twintig studies die hij bekeek, statistische voorspellingen even nauwkeurig of zelfs nauwkeuriger waren dan voorspellingen gebaseerd op klinische inschattingen. En hoewel ook vervolgonderzoek sindsdien consequent heeft aangetoond dat statistische voorspellingen niet onderdoen voor klinische inschattingen, en gemiddeld zelfs een 10% tot 13% hogere nauwkeurigheid hebben (Ægisdóttir e.a., 2006; Grove e.a., 2000), worden statistische voorspellingen nog nauwelijks ingezet bij het formuleren van behandeladviezen in de klinische praktijk (Bell & Mellor, 2009). Er zijn diverse redenen beschreven om deze beperkte toepassing te verklaren (Garb, 2000; Grove & Meehl, 1996; Katsikopoulos e.a., 2008; Meehl, 1986), waaronder de verwachting dat statistische voorspellingen veel tijd zouden kosten. Ook kunnen ethische bezwaren een rol spelen, bijvoorbeeld omdat men het als moreel onjuist beschouwt om een sterke klinische inschatting die niet overeenkomt met een statistische voorspelling te negeren. Ethische bezwaren spelen ook een rol bij de angst voor dehumanisering van het zorgproces, en dan meer specifiek de angst dat statistische voorspellingen individuen zouden reduceren tot levenloze objecten (‘een nummer’). Een andere verklaring voor de beperkte toepassing van statistische voorspellingen is de vasthoudendheid van behandelaren aan specifieke theoretische achtergronden, en weerstand om deze los te laten, zeker wanneer een theoretische oriëntatie nauw verbonden is met de professionele identiteit (‘zo doe ik het en dat is wie ik ben’). Ook angst voor verlies van werk als gevolg van geautomatiseerde procedures kan meespelen. Een en ander kan versterkt worden door hiaten in klinische (vervolg-)opleidingen, waarin men onvoldoende geschoold wordt in wetenschappelijke technieken en menselijke biases, en/of wordt opgeleid door rolmodellen die de voorkeur geven aan klinische intuïtie boven wetenschappelijke bewijsvoering.
Vraagstelling
De recente ontwikkeling van geavanceerde statistische technieken (zoals machine learning) en technologische ontwikkelingen die het gemakkelijker hebben gemaakt om grote hoeveelheden data te verzamelen (zoals elektronische medische dossiers en smartphonegegevens) hebben geleid tot een hernieuwde aandacht voor statistische behandeladviezen bij het personaliseren van behandeladviezen voor depressie (Delgadillo & Lutz, 2020; DeRubeis, 2019; Perna e.a., 2018). Er zijn diverse veelbelovende multivariabele predictiemodellen voor statische behandeladviezen ontwikkeld (Cohen & DeRubeis, 2018), waaronder de Personalized Advantage Index (pai) (DeRubeis e.a., 2014), een gewogen statistisch algoritme waarmee voor individuele patiënten kan worden voorspeld welke therapie voor hen het beste resultaat zal geven. In de hieronder beschreven studie werden statistische behandeladviezen op basis van de pai vergeleken met klinische behandeladviezen in de context van twee veelgebruikte psychotherapieën voor depressie; cognitieve therapie (ct) en interpersoonlijke psychotherapie (ipt). Er werd verwacht dat statistische en klinische behandeladviezen weinig overlap zullen hebben en dat statistische behandeladviezen geassocieerd zijn met betere depressie-uitkomsten dan klinische behandeladviezen bij het beantwoorden van de vraag ‘wat werkt voor wie?.
Methoden
Opzet en deelnemers
De data werden verzameld in het kader van een gerandomiseerd onderzoek naar de effectiviteit en werkingsmechanismen van ct en ipt voor depressie (voor een gedetailleerde beschrijving van de studie zie Lemmens e.a., 2015; Lemmens e.a., 2011)1. Deelnemers werden geworven op de afdeling stemmingsstoornissen van de toenmalige riagg Maastricht. Bij alle deelnemers was een depressie vastgesteld als primaire classificatie. Exclusiecriteria waren een bipolaire of ernstig chronische depressie (episode duur > 5 jaar), acuut suïciderisico, (indicatie voor) farmacotherapie, gelijktijdige psychologische behandeling voor een ander probleem, drugs- en alcoholproblemen, en een iq lager dan 80. In totaal werden 182 poliklinische deelnemers gerandomiseerd ct (n = 76), ipt (n = 75), of een wachtlijstcontroleconditie van twee maanden, gevolgd door behandeling naar keuze (n = 31). In deze deelstudie gebruikten we alleen de gegevens van de deelnemers in de actieve groepen (ct/ipt). Deelnemers ontvingen zestien tot twintig wekelijkse sessies van 45 minuten (gemiddeld = 17,0 sessies; sd = 2,9), waarbij ct- en ipt-protocollen werden toegepast (Beck e.a., 1979; Klerman e.a., 1984). Behandelingen werden gegeven door tien behandelaren (gekwalificeerde psychologen, psychotherapeuten en psychiaters) met gemiddeld 9,1 jaar ervaring (sd = 5,4, range tussen de 4 en 21 jaar). Er was geen significant effect van individuele behandelaren op de behandelresultaten (Lemmens e.a., 2015). Om contaminatie van behandelcondities te voorkomen, gaven de deelnemende behandelaren binnen de studie ofwel ct ofwel ipt. De kwaliteit van de behandeling werd beoordeeld als goed tot uitstekend, met significante verschillen in therapiespecifiek gedrag tussen behandelingen. Schriftelijke toestemming werd verkregen vóór de start van de studie. De studie werd goedgekeurd door de Medisch-Ethische Toetsingscommissie van de Universiteit Maastricht en het onderzoek is geregistreerd in het Nederlands Trial Register (isrctnN67561918).
Uitkomstmaten
Primaire uitkomstmaat in de studie was depressie-ernst, gemeten met de Beck Depression Inventory II (bdi-II) tijdens de behandeling (maand 0 t/m 7) en follow-up (maand 7 t/m 24, Beck, Steer & Brown, 1996). Voor deze vragenlijst geldt: hoe hoger de score, hoe ernstiger de depressie. Voor deze deelstudie gebruikten we de bdi-II-scores aan het einde van de behandeling (maand 7) en tijdens de follow-upperiode (maand 7, 8, 9, 10, 11, 12 en 24, samengevoegd tot één score, zie van Van Bronswijk e.a., 2021b voor de precieze procedure).
Procedure klinische behandeladviezen
Klinische behandeladviezen werden geformuleerd tijdens reguliere multidisciplinaire intakevergaderingen op de afdeling stemmingsstoornissen. Na een casuspresentatie door behandelaren die betrokken waren bij de intake, vond een discussie plaats, waarna er een specifiek advies werd gegeven voor ct of ipt, of werd aangegeven dat er geen voorkeur was. Vergaderingen werden bijgewoond door vier tot vijf behandelaren (psychologen, psychotherapeuten en psychiaters) met kennis over zowel ct als ipt. De samenstelling van het aanwezige team verschilde per vergadering en was afhankelijk van wie er bij de intake betrokken was en van de agenda’s van de overige behandelaren. Sommige aanwezigen waren ook behandelaar in het onderzoek. De adviezen werden geformuleerd vóórdat deelnemers gerandomiseerd werden binnen het onderzoek. Behandelaren werden aangemoedigd een advies voor ct of ipt te geven. In totaal werd voor 110 deelnemers een behandeladvies geregistreerd: n = 55 voor ct; n = 52 voor ipt en n = 3 voor ‘geen voorkeur’. Deze laatste groep werd niet meegenomen in de verdere analyses. Na randomisatie werden deelnemers met een geregistreerd klinisch behandeladvies voor ct of ipt (n = 107) ingedeeld in twee groepen: ‘gerandomiseerd naar de behandeling conform het klinische behandeladvies’ of ‘gerandomiseerd naar de behandeling niet conform het klinisch behandeladvies’.
Procedure statistische behandeladviezen
Statistische behandeladviezen waren gebaseerd op de pai-methode (DeRubeis e.a., 2014) waarbij predictiemodellen werden ontwikkeld waarmee voor elke deelnemer (retrospectief) uitgerekend werd wat het voorspelde effect (in ons geval behandeluitkomst uitgedrukt in bdi-II-scores) was voor zowel ct als ipt. Het verschil in deze voorspellingen, de zogenaamde pai-score, werd als maat gebruikt om het voorspelde voordeel in de ene behandeling ten opzichte van de andere aan te geven. Hieronder volgt een korte samenvatting van de procedure. Meer gedetailleerde informatie is elders te vinden (Van Bronswijk e.a., 2021a; Van Bronswijk e.a, 2021b). In deze studie werden twee soorten pai-scores gebruikt: één pai gebaseerd op voorspellingen van bdi-II-scores vlak na de behandeling (post-interventie-pai; Van Bronswijk e.a., 2021a) en één pai gebaseerd op voorspellingen van bdi-II-scores tijdens follow-up (follow-up-pai; van Bronswijk e.a., 2021b). De predictiemodellen waarop de pai-scores gebaseerd waren, waren opgebouwd uit voorspellers (algemene prognostische factoren voor behandeluitkomsten ongeacht het type behandeling) en moderatoren (prescriptieve factoren voor behandeluitkomsten afhankelijk van het type behandeling) die werden gemeten vóór start behandeling (baseline). Relevante voorspellers en moderatoren werden geïdentificeerd met behulp van machine-learningtechnieken (Austin & Tu, 2004; Garge, Bobashev & Eggleston, 2013; Rizopoulos & Rizopoulos, 2009) en werden vervolgens gecombineerd in een lineair regressiemodel waarmee voor elk individu depressie-uitkomsten werden voorspeld voor ct en ipt met behulp van een vijfvoudige cross-validatietechniek (Picard & Cook, 1984). Doordat statistische behandeladviezen retrospectief berekend werden na beëindiging van de studie, waren de behandelaren niet op de hoogte van deze voorspellingen. Deelnemers werden gecodeerd als ‘gerandomiseerd naar de behandeling conform het statistisch behandeladvies’ of ‘gerandomiseerd naar de behandeling niet conform het statistisch behandeladvies’.
Statistische analyses
Allereerst vergeleken we baselinekenmerken van diegenen met en zonder een geregistreerd klinisch behandeladvies (n = 107 vs. n = 41) en tussen deelnemers met een klinisch behandeladvies voor ct en ipt (n = 55 vs. n = 52) (t-toetsen en chi-kwadraattoetsen). Vervolgens werd de overeenstemming tussen klinische en statistische behandeladviezen beoordeeld door 1) te bekijken in hoeverre de baselinekenmerken van deelnemers met een klinisch behandeladvies voor ct en ipt overeenkwamen met baseline, de voorspellers en moderatoren uit de pai-modellen (t-toetsen en chi-kwadraattoetsen) en 2) door de overeenstemming tussen de klinische en statistische behandeladviezen te berekenen door middel van kappa-coëfficiënten. Daarna werden de effecten van de klinische behandeladviezen bekeken door depressiescores (bdi-II) aan het einde van de behandeling en tijdens follow-up te vergelijken tussen deelnemers die gerandomiseerd waren naar de behandeling conform het klinische behandeladvies en diegenen die door randomisatie terecht waren gekomen in de behandeling niet conform het klinisch behandeladvies (t-toetsen). Eenzelfde procedure werd gevolgd om de effectiviteit van de statistische behandeladviezen te berekenen.
Resultaten
Baselinekenmerken geregistreerd vs. niet geregistreerd klinisch behandeladvies
Vergelijking van baselinekenmerken van degenen die een klinisch behandeladvies voor ct of ipt kregen van de intakestaf (n = 107; meegenomen in analyses) en diegenen waarvan geen behandeladvies geregistreerd werd (n = 41; niet meegenomen in de analyses) liet zien dat deelnemers met een geregistreerd klinisch behandeladvies gemiddeld gezien jonger waren, minder functionele beperkingen en cognitieve klachten rapporteerden en vaker last hadden van een recidiverende depressie (zie Van Bronswijk e.a., 2021c voor details).
Baselinekenmerken klinisch behandeladvies voor CT vs. IPT
Figuur 1 Vergelijkingen tussen geobserveerde depressie-ernst na behandeling (A) en tijdens follow-up (B) voor deelnemers gerandomiseerd naar de behandeling conform het klinische behandeladvies vs. deelnemers gerandomiseerd naar de behandeling niet conform het klinische behandeladvies
Tabel 1 Baselinekenmerken van deelnemers met een klinisch behandeladvies voor CT vs. IPT en voorspellers en moderatoren van de post-interventie en follow-up Personalized Advantage Index (PAI) waarop statistische behandeladviezen werden gebaseerd
Klinische behandeladviezen |
||
Klinisch behandel-advies voor CT |
Klinisch behandel- |
|
Demografische gegevens |
||
Leeftijd, in jaren, gemiddelde (SD) |
39,0 (12,7) |
40,2 (12,1) |
Vrouwelijk geslacht, n (%) |
36 (67,9%) |
34 (63,0) |
Partner, n (%) |
33 (62,3%) |
32 (59,3%) |
Werkend, n (%) |
34 (64,2%) |
33 (61,1%) |
Opleidingsniveau - Laag, n (%) - Medium, n (%) - Hoog, n (%) |
- 9 (17,0%) -35 (66,0%) - 9 (17,0%) |
- 13 (24,1%) - 31 (57,4%) - 10 (18,5%) |
Klinische gegevens |
||
Depressie-ernst (BDI-II), gemiddelde (SD) |
30,8 (6,6) |
29,1 (9,4) |
Recidiverende depressie, n (%) |
26 (49,1%) |
22 (40,7%) |
Comorbide persoonlijkheidsstoornis (SCID-II), n (%) |
21 (40,4)* |
12 (23,1)* |
Andere comorbide stoornissen (SCID-I), n (%) |
24 (45,3) |
31 (57,4) |
Psychologische nood (BSI), gemiddelde (SD) |
73,7 (23,4) |
67,6 (31,1) |
Angst symptomen (BSI), gemiddelde (SD) |
8,6 (4,6) |
8,1 (4,5) |
Cognitieve problemen (BSI), gemiddelde (SD) |
12,2 (4,5) |
11,7 (4,8) |
Paranoïde symptomen (BSI), gemiddelde (SD) |
7,2 (3,3) |
6,9 (4,9) |
Somatische klachten (BSI), gemiddelde (SD) |
8,8 (5,3)* |
6,9 (4,2)* |
Algemeen sociaal, beroepsmatig en psychologisch functioneren (GAF-scores) - 31- 40, n (%) - 41- 50, n (%) - 51- 60, n (%) - 61- 70, n (%) - 71- 80, n (%) |
2 (3,8%) 21 (39,6%) 27 (50,9%) 2 (3,8%) 0 (0%) |
1 (1,9%) 19 (35,2%) 32 (59,3%) 1 (1,9%) 1 (1,9%) |
Kwaliteit van leven (EQ-5D), gemiddelde (SD) |
0 ,6 (0,2) |
0 ,6 (0,2) |
Algemene gezondheid (RAND-36), gemiddelde (SD) |
14,1 (2,8) |
14,2 (3,1) |
Levensgebeurtenissen in het afgelopen jaar, gemiddelde (SD) |
1,5 (1,4)* |
2,0 (1,4)* |
Traumatische gebeurtenissen in de kindertijd (SD) |
0,9 (1,1) |
0,9 (1,2) |
Alcoholmisbruik van de ouders, n (%) |
12 (22,6) |
6 (11,1) |
Statistische behandeladviezen |
||
Statistische behandeladviezen gebaseerd op de post-interventie PAI |
||
Voorspellers |
Huidige werksituatie, angstsymptomen (BSI) |
|
Moderatoren |
Depressie-ernst (BDI-II), cognitieve problemen (BSI), paranoïde symptomen (BSI), algemeen sociaal, beroepsmatig en psychologisch functioneren (GAF-scores), levensgebeurtenissen in het afgelopen jaar |
|
Statistische behandeladviezen gebaseerd op de follow-up PAI |
||
Voorspellers |
Alcoholmisbruik van de ouders |
|
Moderatoren |
Levensgebeurtenissen in het afgelopen jaar, traumatische gebeurtenissen in de kindertijd |
*p < 0,10
Legenda: CT; cognitieve therapie; IPT, interpersoonlijke psychotherapie; BDI-II, Beck Depression Inventory, second edition; SCID-II, Structured Clinical Interview for DSM-IV Axis II disorders; SCID-I Structured Clinical Interview for DSM-IV Axis I disorders; BSI, Brief Symptom Inventory; GAF; Global Assessment of Functioning, DSM-IV-TR; EQ-5D, EuroQol 5D.
In tabel 1 worden de baselinekenmerken gepresenteerd van deelnemers die een klinisch behandeladvies voor ct en ipt kregen (n = 107). Statistische vergelijking tussen beide groepen liet zien dat het percentage deelnemers met een comorbide persoonlijkheidsstoornis hoger was in de groep met een klinisch behandeladvies voor ct ten opzichte van de groep die een IPT-advies kreeg (χ2 (1) = 3,60, p = 0,058). Ook hadden deelnemers met een klinisch behandeladvies voor ct gemiddeld gezien meer somatische klachten (t = 2,05, df = 105, p = 0,043). Het aantal levensgebeurtenissen in het afgelopen jaar was significant hoger in de groep met een klinisch behandeladvies voor ipt (t = -2,18, df = 105, p = 0,03).
Overeenstemming tussen klinische en statistische
behandeladviezen
Zoals te zien in tabel 1, was er weinig overlap tussen baselinekenmerken van deelnemers met een klinisch behandeladvies voor ct en ipt en voorspellers en moderatoren uit de pai-modellen. Zo kwam de aanwezigheid van een comorbide persoonlijkheidsstoornis en somatische klachten in beide pai-modellen (post-interventie en follow-up) niet naar voren als voorspeller of moderator. Een hoger aantal levensgebeurtenissen in het afgelopen jaar kwam wel terug als moderator in de pai, maar in tegenovergestelde richting als voor de klinische behandeladviezen (meer levensgebeurtenissen waren hier juist geassocieerd met een voordeel voor ct in plaats van ipt). Ook wanneer we kijken naar de overlap tussen de klinische en statistische behandeladviezen, uitgedrukt in kappa-coëfficiënten, zien we zeer weinig overeenstemming: overlap van 43,9 % (kappa-coëfficiënt = -0,12) en 43,0% (kappa-coëfficiënt = -0,14) tussen de klinische behandeladviezen enerzijds en respectievelijk de einde behandeling en follow-up-pai anderzijds.
Effectiviteit van klinische behandeladviezen
Ongeacht het type behandeling, hadden deelnemers die gerandomiseerd waren naar de behandeling conform het klinisch behandeladvies (n = 51) aan het einde van de behandeling significant hogere bdi-II scores (M = 17,6) dan degenen die door randomisatie waren toegewezen aan de behandeling niet conform klinisch behandeladvies (n = 56;
M = 13,0; t = -2.09, df = 105, p = 0,038). Zoals geïllustreerd in figuur 1a, werd dit vooral gedreven door het effect van het klinisch behandeladvies voor ipt: deelnemers met een klinisch behandeladvies voor ipt die ook ipt kregen (n = 25) rapporteerden aan het einde van de behandeling meer depressieve klachten (M bdi-II = 18,4) dan diegenen die waren toegewezen aan ct (n = 29; M = 11,6; t = -2,05, df = 52, p = 0,046; figuur 1a - rechts). Voor het ct-behandeladvies werd slechts een klein en niet-significant verschil gevonden tussen diegenen die het klinisch behandeladvies ontvingen (n = 26) versus niet ontvingen (n = 27, M = 16,7 vs. M = 14,5; t = 0,79, df = 51, p = 0,434; figuur 1a - links).
Gedurende de follow-up werden er niet-significant hogere bdi-II-scores gerapporteerd door deelnemers die gerandomiseerd waren naar de behandeling conform klinisch behandeladvies (n = 51; M = 16,3) versus degenen die in de andere conditie terecht waren gekomen (n = 56; M = 14,3; t = -0,95, df = 105, p = 0,347). Ook nu was een klinisch behandeladvies voor ipt nadelig, al was het verschil in depressie-ernst tussen beide groepen nu kleiner en slechts rand-significant (M = 18,5 (n = 25) vs. M = 12,8 (n = 29); t = -1,77, df = 55, p = 0,082; figuur 1b - rechts). Het verschil voor deelnemers met een klinisch behandeladvies voor ct was opnieuw niet significant (M = 14,2 (n = 26) vs. M = 15,8 (n = 27) voor respectievelijk de groep met die ct versus ipt kreeg; t = -0,57, df = 51, p = 0,574, figuur 1b - links).
Effectiviteit van statistische behandeladviezen
Figuur 2 Vergelijkingen tussen geobserveerde depressie-ernst na behandeling (A) en tijdens follow-up (B) voor deelnemers gerandomiseerd naar de behandeling conform het statistische behandeladvies vs. deelnemers gerandomiseerd naar de behandeling niet conform het statistische behandeladvies
Het tegenovergestelde patroon werd gevonden voor de statistische behandeladviezen. Individuen die gerandomiseerd waren naar de behandeling conform statistisch behandeladvies (n = 47) waren aan het einde van de behandeling juist significant minder depressief (M = 11,2) ten opzichte van degenen die de niet geadviseerde behandeling ontvingen
(n = 60; M = 18,3, t = 3,35, df = 105, p = 0,001). Dit kwam vooral ten gunste van de groep met een statistisch behandeladvies voor ct (n = 49), waarbij de deelnemers die ook gerandomiseerd waren naar de ct-conditie (n = 22) aan het einde van de behandeling significant lagere bdi-II-scores rapporteerden (M = 10,9) dan diegenen die waren gerandomiseerd naar de ipt-conditie (n = 27, M = 20,9, t = -3,09, df = 47, p = 0,003; figuur 2a - links). Voor diegenen met een statistisch behandeladvies voor ipt werd een niet-significant effect gevonden in dezelfde richting (M = 11,5 vs. M = 16,2) voor respectievelijk diegenen die ook ipt kregen (n = 25) versus diegenen die waren toegewezen aan ct (n = 33; t = 1,69, df = 56, p = 0,097; figuur 2a - rechts).
Het voordeel van het ontvangen van de behandeling conform het statistische behandeladvies was ook zichtbaar gedurende de follow-upperiode, met name voor ct. Onafhankelijk van behandeling, waren bdi-II-scores (niet-significant) lager voor diegenen die gerandomiseerd waren naar de behandeling die overeenkwam met het statistische behandeladvies (n = 50; M = 13,4) ten opzichte van deelnemers die de niet geadviseerde behandeling hadden ontvangen (n = 57; M 16,9; t = 1,63, df = 105, p = 0,105). Het effect voor een statistisch behandeladvies voor ct was aanzienlijk en statistisch significant (M bdi-II = 12,5 voor behandeling conform statistisch behandeladvies (n = 29) vs. M = 18,8 de andere behandeling (n = 31; t = -2,16; df = 58, p = 0,035; figuur 2b - links). Voor de groep met een statistisch behandeladvies voor ipt werd geen verschil gevonden (M = 14,5 voor beide groepen (n = 21 en n = 26; t = -0,003, df = 45, p = 0,997; figuur 2b - rechts).
Discussie
Het doel van deze studie was om de kenmerken en effectiviteit van klinische en statistische behandeladviezen te vergelijken bij het beantwoorden van de vraag ‘welke behandeling werkt voor wie?’ in de context van de keuze tussen ct en ipt voor depressie. Om dit te onderzoeken werd er allereerst gekeken naar de overeenstemming tussen klinische en statistische behandeladviezen. Meer specifiek, werd onder andere gekeken in hoeverre de baselinekenmerken van de deelnemers met een klinisch behandeladvies voor ct en ipt overeenkwamen met de voorspellers en moderatoren uit de pai-modellen die ten grondslag lagen aan de statistische behandeladviezen. Vervolgens werd de effectiviteit van de klinische en statistische behandeladviezen getoetst door de ernst van depressie aan het einde van de behandeling en tijdens follow-up te bekijken en te vergelijken tussen deelnemers die waren gerandomiseerd naar de behandeling conform klinisch/statistisch behandeladvies en degenen die werden gerandomiseerd naar de behandeling niet conform klinisch/statistisch behandeladvies.
Er was zeer weinig overeenstemming tussen de klinische en de statistische behandeladviezen. Ook was er geen overlap tussen baselinekenmerken van deelnemers die verband hielden met de klinische behandeladviezen en de voorspellers en moderatoren die onderdeel waren van de pai-modellen. In het algemeen waren behandelaren eerder geneigd om ct te adviseren aan deelnemers met een comorbide persoonlijkheidsstoornis (trendsignificant) en een hoger niveau van somatische klachten, terwijl een klinisch behandeladvies voor ipt vaker voorkwam bij deelnemers met een recente levensgebeurtenis. Echter, somatische klachten en de aanwezigheid van een comorbide persoonlijkheidsstoornis waren geen voorspellers of moderatoren in de pai-modellen. Bovendien waren recente levensgebeurtenissen – in tegenstelling tot de associatie met een klinisch behandeladvies voor ipt – in beide pai-modellen geïdentificeerd als moderator voor slechtere resultaten bij ipt.
Wat betreft de effectiviteit van de klinische behandeladviezen viel op dat deelnemers die gerandomiseerd waren naar de behandeling conform klinisch behandeladvies zowel aan het einde van de behandeling als tijdens follow-up hogere depressiescores rapporteerden dan degenen die de niet geadviseerde behandeling hadden gekregen. Deze verschillen kwamen met name naar voren bij deelnemers met klinisch behandeladvies voor ipt: deelnemers hadden een hogere depressiescore wanneer zij ook daadwerkelijk ipt ontvingen in vergelijking met degenen die ct kregen. Het tegengestelde patroon werd gevonden voor de effectiviteit van de statistische behandeladviezen, waarbij deelnemers – en dan met name deelnemers die een statistisch behandeladvies ontvingen voor ct – die de behandeling conform statistisch behandeladvies ontvingen, zowel aan het einde van de behandeling als tijdens de follow-up, minder depressief waren ten opzichte van degenen die de niet geadviseerde behandeling hadden gekregen.
De voorkeur van behandelaren voor ct bij deelnemers met een comorbide persoonlijkheidsstoornis zou verklaard kunnen worden doordat behandelaren kennis hebben van de (tegenstrijdige) literatuur die suggereert dat persoonlijkheidsstoorniskenmerken moderatoren zijn in ct en ipt voor depressie (Barber & Meunz, 1996; Carter e.a., 2011; Joyce e.a., 2007; Ryder e.a., 2010). Ook zou het zo kunnen zijn dat behandelaren het meer gestructureerde karakter van ct beter vonden passen bij deze doelgroep, of dat zij dachten dat het te moeilijk zou zijn om een focus te kiezen binnen ipt gezien de vaak zeer complexe interpersoonlijke problemen, geassocieerd met persoonlijkheidsproblematiek (Markowitz e.a., 2007). De voorkeur voor ct bij somatische klachten zou voort kunnen komen uit kennis van behandelaren over de rol van ct bij de behandeling van somatoforme stoornissen (Kroenke, 2007), of omdat zij dachten dat de (in-vivo) exposure-elementen in ct (zowel tijdens de sessie als in huiswerkopdrachten) beter aansloot bij personen met fysieke problemen. De bevinding dat recente levensgebeurtenissen geassocieerd werden met een klinisch behandeladvies voor ipt, is vanuit klinisch oogpunt niet verrassend, aangezien drie van de vier behandelfoci in ipt betrekking hebben op recente levensgebeurtenissen (gecompliceerde rouw, rolconflict en roltransitie; Klerman e.a., 1984).
Onze resultaten ondersteunen de bevinding dat statistische voorspellingen ten minste even betrouwbaar zijn als klinische inschattingen (Ægisdóttir e.a., 2006; Grove e.a., 2000).
De resultaten zijn ook in lijn met een recentere studie die aantoonde dat prognostische informatie, gebaseerd op machine-learningtechnieken klinische inschattingen overtreft bij het voorspellen van sociaal functioneren bij depressie en psychose (Koutsouleris e.a., 2018). Hoewel de bevinding dat een klinisch behandeladvies voor ipt geassocieerd was met slechtere behandelresultaten nog gerepliceerd moet worden, wijst deze bevinding op de grenzen en mogelijke gevaren van klinische behandeladviezen voor depressiebehandelingen. Er zijn verschillende redenen te bedenken waarom de klinische behandeladviezen in deze studie geassocieerd waren met negatieve uitkomsten. Zo werden de klinische behandeladviezen voor deelnemers gebaseerd op voorspellingen van behandelaren die werkzaam waren in dezelfde klinische praktijk als waar deze deelnemers hun behandeling ontvingen. Uit onderzoek blijkt dat voorspellingen over het algemeen nauwkeuriger zijn wanneer behandelaren voorspellingen doen over patiënten buiten hun eigen werkomgeving. Dit suggereert dat behandelaren meer precisie vertonen in hun voorspellingen wanneer ze werken met minder vertrouwde of nieuwe informatie. (Ægisdóttir e.a., 2006). Ook baseerden behandelaren hun adviezen voornamelijk op een ongestructureerde casuspresentatie, een andere factor die bekendstaat om zijn negatieve invloed op de voorspelling van behandeluitkomsten (Grove e.a., 2000).
Deze studie kent een aantal beperkingen. Ten eerste waren de klinische behandeladviezen gebaseerd op casuspresentaties door de intakers tijdens reguliere teamvergaderingen. Hoewel dit representatief is voor de klinische praktijk, zou men kunnen betogen dat de behandelaren minder (systematische) informatie tot hun beschikking hadden dan de pai-modellen waarop de statistische behandeladviezen waren gebaseerd. Onderzoek heeft echter aangetoond dat meer informatie (bijvoorbeeld toegang tot dezelfde variabelen als in statistische formules) de nauwkeurigheid van de inschatting van de clinicus niet ten goede komt, en in sommige gevallen zelfs juist vermindert (Ægisdóttir e.a., 2006). Ten tweede zou het feit dat het expertiseniveau van de leden van de intakestaf varieerde, aangedragen kunnen worden als factor die de nauwkeurigheid van de klinische behandeladviezen zou kunnen hebben beïnvloed (Ægisdóttir e.a., 2006). Het bewijs over de invloed van opleidingsniveau en ervaring op de juistheid van een klinische inschatting is echter tegenstrijdig (Grove e.a., 2000), waardoor de exacte invloed hiervan onduidelijk blijft. Ten derde werd er in deze studie niet gevraagd naar de precieze klinische redenering achter de behandeladviezen. Hoewel we de baselinekenmerken van deelnemers hebben kunnen koppelen aan de klinische behandeladviezen, blijven er vragen bestaan over het precieze proces bij behandelaren en is meer onderzoek noodzakelijk. Ten vierde werd voor een aanzienlijk deel van de deelnemers geen klinisch behandeladvies geregistreerd. Deze ontbrekende registraties waren echter gerelateerd aan tijdsbeperkingen die gebruikelijk zijn in de dagelijkse klinische praktijk, en kunnen daarom gezien worden als random missende informatie. Ten slotte dient er over de statistisch behandeladviezen te worden opgemerkt dat, hoewel er cross-validatietechnieken werden toegepast om het risico op overfitting van de predictiemodellen te minimaliseren, er geen toetsing van de modellen plaatsvond in een onafhankelijke dataset. Zonder dergelijke externe validatie blijft het onbekend hoe deze modellen generaliseren naar de klinische praktijk. Deze beperking is dan ook een veelvoorkomende beperking voor predictiemodellen in de geestelijke gezondheidszorg (Cohen & DeRubeis, 2018; DeRubeis, 2019; Salazar de Pablo e.a., 2021).
Samengevat kan gesteld worden dat het gebruik van statistische behandeladviezen voor de behandelselectie voor depressie veelbelovend is en steeds laagdrempeliger wordt gezien nieuwe dataverzamelingsmethoden en statistische technieken (Cohen & DeRubeis, 2018; Perna e.a., 2018; Salazar de Pablo e.a., 2021). De geschiedenis leert echter dat wetenschappelijk bewijs van de superioriteit van statistische voorspellingen ten opzichte van klinische inschattingen vooralsnog onvoldoende gewicht in de schaal heeft gelegd om de praktijk van de geestelijke gezondheidszorg te veranderen. Wat zou er nodig zijn voor innovatie en implementatie op dit vlak? Allereerst zouden we onze klinische opleidingen kritisch kunnen bekijken. Onderwijs over effectieve klinische besluitvorming moet een belangrijk onderdeel zijn van klinische training, inclusief terugkerend onderwijs over menselijke biases en (misvattingen) over het gebruik van statistiek (Ægisdóttir e.a., 2006). Verder zouden we in de klinische praktijk regelmatig en systematisch feedback moeten krijgen over behandelbeslissingen (Knaup e.a., 2009). Behandelaren met een wetenschappelijk profiel (scientist-practitioners) zouden deze feedback lokaal kunnen verzamelen en evalueren, en eventuele predictiemodellen kunnen aanpassen op de lokale populatie en setting (Spengler e.a., 1995). Ten slotte zouden predictiemodellen moeten worden vertaald in gebruiksvriendelijke software die de dialoog tussen de behandelaar en de patiënt stimuleren (Katsikopoulos e.a., 2008; Roshanov e.a., 2013). Op deze manier kunnen predictiemodellen gedeelde besluitvorming (samen beslissen) in de klinische praktijk faciliteren.
In afwachting op de hierboven voorgestelde veranderingen op het gebied van opleiding, systematische feedback en softwareontwikkeling vraagt een overgang van klinische behandeladviezen naar statistische behandeladviezen ook om een reflectie op onze professionele identiteit en gedragingen als (depressie)behandelaren. Erkennen dat we de toekomst niet volledig kunnen voorspellen en daarmee geen sluitend antwoord kunnen geven op de vraag ‘wat werkt bij wie’ bij de behandeling van depressie is een belangrijke eerste stap. Dit vraagt om een kritische blik op jezelf, maar ook op anderen. Wanneer een collega stellig beweert dat cognitieve therapie de enige goede behandeling is voor deze specifieke patiënt, dan is het aan ons om hier een kritische vraag bij te stellen. Zo zouden teamvergaderingen minder kunnen focussen op ‘wat werkt voor wie’ en meer op evaluaties van eerder genomen behandelbeslissingen; wat kunnen we hiervan leren? Ook is het signaleren van je eigen denkfouten en een bescheiden opstelling tijdens patiëntadviesgesprekken een randvoorwaarde voor verandering. Hierbij moeten we niet vergeten dat de voorkeur van patiënten voor een behandeling mogelijk niet de behandeling effectiever maakt, maar wel de kans dat een patiënt blijft aanhaken vergroot (Swift e.a., 2017). Tenslotte is een belangrijk besef dat het voorspellen van ‘wat voor wie werkt’ slechts een klein onderdeel van ons werk is, en het feit dat we dit niet kunnen niet betekent dat er geen ‘klinische expertise’ bestaat. Met de veranderingen in de huidige maatschappij en het zorglandschap bewijzen hulpverleners in de geestelijke gezondheidzorg dagelijks dat we veel kunnen met weinig, en zetten velen van ons de schouders onder complexe problematiek. Denk hierbij aan het succesvol toepassen van een depressiebehandeling, ondanks complexe comorbiditeit of het opbouwen van een therapeutische relatie bij patiënten waarbij vertrouwen ‘in instanties’ een groot struikelblok is. Kennis van je expertise, maar zeker ook van je tekortkomingen, maakt je niet alleen een goede behandelaar, maar ook een fijn mens.
Noot
1. Details over het studiedesign, kenmerken van de studiepopulatie, procedures, meetinstrumenten, (kwaliteit van de) interventies, statistische analysemethoden en een samenvatting van de hoofdbevindingen zijn ook terug te vinden in een Nederlandstalig overzichtsartikel dat werd gepubliceerd in het Tijdschrift voor Psychiatrie; Lemmens e.a., 2019.
Dankbetuiging/verantwoordingsnoot
Dit artikel is een bewerking en update van een eerdere Engelstalige publicatie in het Journal of Affective Disorders met de titel ‘Selecting the optimal treatment for a depressed individual: Clinical judgment or statistical prediction’ (Van Bronswijk e.a., 2021c). De studie werd gefinancierd door de Academische riagg Maastricht en het Onderzoeksinstituut Experimentele Psychopathologie (epp). Een speciaal woord van dank gaat uit naar de deelnemende patiënten en therapeuten van riagg Maastricht, betrokken onderzoekers, en onderzoeksassistenten Annie Raven en Annie Hendriks.
Literatuur
Ægisdóttir, S., White, M.J., Spengler, P.M., Maugherman, A.S., Anderson, L.A., Cook, R.S., e.a. (2006). The meta-analysis of clinical judgment project: Fifty-six years of accumulated research on clinical versus statistical prediction. The Counseling Psychologist, 34, 341-382.
Austin, P.C., & Tu, J.V. (2004). Bootstrap methods for developing predictive models. The American Statistician, 58, 131-137.
Barber, J.P., & Muenz, L.R. (1996). The role of avoidance and obsessiveness in matching patients to cognitive and interpersonal psychotherapy: empirical findings from the treatment for depression collaborative research program. Journal of Cconsulting & Clinical Psychology, 64, 951.
Beck, A.T., Rush, A.J., Shaw, B.F., & Emery, G. (1979). Cognitive therapy of depression. New York: Guilford Press.
Beck, A.T., Steer, R., & Brown, G.K. (1996). Beck Depression Inventory II: Manual. Boston: Harcourt Brace.
Bell, I., & Mellor, D. (2009). Clinical judgements: Research and practice. Australian Psychologist, 44, 112-121.
Bronswijk, S.C. van, Bruijniks, S.J., Lorenzo-Luaces, L., Derubeis, R.J., Lemmens, L H., Peeters, F.P., e.a. (2021a). Cross-trial prediction in psychotherapy: External validation of the Personalized Advantage Index using machine learning in two Dutch randomized trials comparing CBT versus IPT for depression. Psychotherapy Research, 31, 78-91.
Bronswijk, S.C. van , DeRubeis, R.J., Lemmens, L.H., Peeters, F.P., Keefe, J.R., Cohen, Z.D., e.a. (2021b). Precision medicine for long-term depression outcomes using the Personalized Advantage Index approach: cognitive therapy or interpersonal psychotherapy? Psychological Medicine, 51, 279-289.
Bronswijk, S.C. van, Lemmens, L.H., Huibers, M.J., & Peeters, F.P. (2021c). Selecting the optimal treatment for a depressed individual: Clinical judgment or statistical prediction? Journal of Affective Disorders, 279, 149-157.
Carter, J.D., Luty, S.E., McKenzie, J.M., Mulder, R.T., Frampton, C.M., & Joyce, P.R. (2011). Patient predictors of response to cognitive behaviour therapy and interpersonal psychotherapy in a randomised clinical trial for depression. Journal of Affective Disorders, 128, 252-261.
Cipriani, A., Furukawa, T.A., Salanti, G., Chaimani, A., Atkinson, L.Z., Ogawa, Y., e.a. (2018). Comparative efficacy and acceptability of 21 antidepressant drugs for the acute treatment of adults with major depressive disorder: a systematic review and network meta-analysis. Focus, 16, 420-429.
Cohen, Z.D., & DeRubeis, R.J. (2018). Treatment selection in depression. Annual Review of Clinical Psychology, 14, 209-236.
Cooper, A.A., & Conklin, L.R. (2015). Dropout from individual psychotherapy for major depression: A meta-analysis of randomized clinical trials. Clinical Psychology Review, 40, 57-65.
Cuijpers, P., Quero, S., Noma, H., Ciharova, M., Miguel, C., Karyotaki, E., e.a. (2021). Psychotherapies for depression: a network meta‐analysis covering efficacy, acceptability and long‐term outcomes of all main treatment types. World Psychiatry, 20, 283-293.
Cuijpers, P., Reijnders, M., & Huibers, M.J. (2019). The role of common factors in psychotherapy outcomes. Annual Review of Clinical Psychology, 15, 207-231.
Delgadillo, J., Gellatly, J., & Stephenson-Bellwood, S. (2015). Decision making in stepped care: how do therapists decide whether to prolong treatment or not? Behavioural and Cognitive Psychotherapy, 43, 328-341.
Delgadillo, J., & Lutz, W. (2020). A development pathway towards precision mental health care. JAMA Psychiatry, 77, 889-890.
DeRubeis, R.J. (2019). The history, current status, and possible future of precision mental health. Behaviour Research and Therapy, 123, 103506.
DeRubeis, R.J., Cohen, Z.D., Forand, N.R., Fournier, J.C., Gelfand, L.A., & Lorenzo-Luaces, L. (2014). The Personalized Advantage Index: translating research on prediction into individualized treatment recommendations. A demonstration. PLoS One, 9, e83875.
Furnham, A., & Boo, H.C. (2011). A literature review of the anchoring effect. The Journal of Socio-Economics, 40, 35-42.
Garb, H.N. (2000). Computers will become increasingly important for psychological assessment: Not that there’s anything wrong with that. Psychological Assessment, 12, 31.
Garb, H.N. (2005). Clinical judgment and decision making. Annual Review of Clinical Psychology, 1, 67-89.
Garge, N.R., Bobashev, G., & Eggleston, B. (2013). Random forest methodology for model-based recursive partitioning: the mobForest package for R. BMC Bioinformatics, 14, 1-8.
Grove, W.M., & Meehl, P.E. (1996). Comparative efficiency of informal (subjective, impressionistic) and formal (mechanical, algorithmic) prediction procedures: The clinical-statistical controversy. Psychology, Public Policy, and Law, 2, 293.
Grove, W.M., Zald, D.H., Lebow, B.S., Snitz, B.E., & Nelson, C. (2000). Clinical versus mechanical prediction: a meta-analysis. Psychological Assessment, 12, 19.
Joyce, P.R., McKenzie, J.M., Carter, J.D., Rae, A.M., Luty, S.E., Frampton, C.M. e.a. (2007). Temperament, character and personality disorders as predictors of response to interpersonal psychotherapy and cognitive behavioural therapy for depression. The British Journal of Psychiatry, 190, 503-508.
Katsikopoulos, K.V., Pachur, T., Machery, E., & Wallin, A. (2008). From Meehl to fast and frugal heuristics (and back): New insights into how to bridge the clinical actuarial divide. Theory & Psychology, 18, 443-464.
Klerman, G.L., Weissman, M.M., Rounsaville, B.J., & Chevron, E.S. (1984). Interpersonal psychotherapy for depression. Basis Books.
Knaup, C., Koesters, M., Schoefer, D., Becker, T., & Puschner, B. (2009). Effect of feedback of treatment outcome in specialist mental healthcare: meta-analysis. The British Journal of Psychiatry, 195, 15-22.
Koutsouleris, N., Kambeitz-Ilankovic, L., Ruhrmann, S., Rosen, M., Ruef, A., Dwyer, D.B., e.a. (2018). Prediction models of functional outcomes for individuals in the clinical high-risk state for psychosis or with recent-onset depression: a multimodal, multisite machine learning analysis. JAMA Psychiatry, 75, 1156-1172.
Kroenke, K. (2007). Efficacy of treatment for somatoform disorders: a review of randomized controlled trials. Psychosomatic medicine, 69, 881-888.
Lemmens, L., Arntz, A., Peeters, F., Hollon, S., Roefs, A., & Huibers, M. (2015). Clinical effectiveness of cognitive therapy v. interpersonal psychotherapy for depression: results of a randomized controlled trial. Psychological Medicine, 45, 2095-2110.
Lemmens, L., Bronswijk, S. van, Peeters, F., Arntz, A., Roefs, A., Hollon, S., e.a. (2019). Cognitieve therapie en interpersoonlijke psychotherapie voor depressie: hoe werken ze, hoelang, en voor wie? Tijdschrift Voor Psychiatrie, 61, 710-719.
Lemmens, L.H., Arntz, A., Peeters, F.P., Hollon, S.D., Roefs, A., & Huibers, M.J. (2011). Effectiveness, relapse prevention and mechanisms of change of cognitive therapy vs. interpersonal therapy for depression: study protocol for a randomised controlled trial. Trials, 12, 150.
Lemmens, L.H., Müller, V.N., Arntz, A., & Huibers, M.J. (2016). Mechanisms of change in psychotherapy for depression: An empirical update and evaluation of research aimed at identifying psychological mediators. Clinical Psychology Review, 50, 95-107.
Lorenzo-Luaces, L., DeRubeis, R.J., & Bennett, I.M. (2015). Primary care physicians’ selection of low-intensity treatments for patients with depression. Family Medicine, 47, 511-516.
Markowitz, J.C., Skodol, A.E., Petkova, E., Cheng, J., Sanislow, C.A., Grilo, C.M., e.a. (2007). Longitudinal effects of personality disorders on psychosocial functioning of patients with major depressive disorder. Journal of Clinical Psychiatry, 68, 186.
Meehl, P.E. (1954). Clinical versus statistical prediction: A theoretical analysis and a review of the evidence. Minneapolis: University of Minnesota.
Meehl, P.E. (1986). Causes and effects of my disturbing little book. Journal of Personality Assessment, 50, 370-375.
Nickerson, R.S. (1998). Confirmation bias: A ubiquitous phenomenon in many guises. Review of General Psychology, 2, 175-220.
Perna, G., Grassi, M., Caldirola, D., & Nemeroff, C. (2018). The revolution of personalized psychiatry: will technology make it happen sooner? Psychological Medicine, 48, 705-713.
Picard, R.R., & Cook, R.D. (1984). Cross-validation of regression models. Journal of the American Statistical Association, 79, 575-583.
Richards, P.M., Geiger, J.A., & Tussey, C.M. (2015). The dirty dozen: 12 sources of bias in forensic neuropsychology with ways to mitigate. Psychological Injury and Law, 8, 265-280.
Rizopoulos, D., & Rizopoulos, M.D. (2009). Package ‘bootStepAIC’.
Roshanov, P.S., Fernandes, N., Wilczynski, J.M., Hemens, B.J., You, J.J., Handler, S.M., e.a. (2013). Features of effective computerised clinical decision support systems: meta-regression of 162 randomised trials. BMJ, 346, f657.
Rush, A.J., Trivedi, M.H., Wisniewski, S.R., Nierenberg, A.A., Stewart, J.W., Warden, D., e.a. (2006). Acute and longer-term outcomes in depressed outpatients requiring one or several treatment steps: a STAR* D report. American Journal of Psychiatry, 163, 1905-1917.
Ryder, A.G., Quilty, L.C., Vachon, D., & Bagby, R.M. (2010). Depressive personality and treatment outcome in major depressive disorder. Journal of Personality Disorders, 24, 392-404.
Salazar de Pablo, G., Studerus, E., Vaquerizo-Serrano, J., Irving, J., Catalan, A., Oliver, D., e.a. (2021). Implementing precision psychiatry: a systematic review of individualized prediction models for clinical practice. Schizophrenia Bulletin, 47, 284-297.
Simon, G E., & Perlis, R.H. (2010). Personalized medicine for depression: can we match patients with treatments? American Journal of Psychiatry, 167, 1445-1455.
Spengler, P.M., Strohmer, D.C., Dixon, D.N., & Shivy, V.A. (1995). A scientist-practitioner model of psychological assessment: Implications for training, practice and research. The Counseling Psychologist, 23, 506-534.
Swift, J.K., Greenberg, R.P., Tompkins, K.A., & Parkin, S.R. (2017). Treatment refusal and premature termination in psychotherapy, pharmacotherapy, and their combination: A meta-analysis of head-to-head comparisons. Psychotherapy, 54, 47.
Abstract
Optimized treatment selection can enhance the success of depression treatments. The objective of this study was to compare clinical recommendations with statistical recommendations in the selection of cognitive therapy (ct) or interpersonal psychotherapy (ipt) for depression. In a randomized controlled trial comparing ct with ipt, a clinical treatment recommendation was formulated by clinicians for each participant, along with a statistical treatment recommendation using the Personalized Advantage Index (pai). Depression severity was assessed at the end of treatment and up to 17-months follow-up. Individuals randomized to treatment according to statistical recommendations reported lower depression severity scores than those receiving the not-recommended treatment by the statistical model. This effect was not observed for the clinical recommendations. In fact, when clinicians recommended ipt, participants showed even higher depression scores when they actually received ipt as compared to those randomized to ct. In conclusion, statistical treatment recommendations outperform clinical treatment recommendations in the selection of depression treatments.