In het artikel ‘Verhoogt Routine Process Monitoring (RPM) de effectiviteit van behandeling?’ van Yvonne Winkelhorst, Anton Hafkenscheid en Erik de Groot in nummer 3 van deze jaargang (p. 146-156) las ik al in de samenvatting twee regels die ik als contradictoir beleef: ‘Patiënten (…) verbeterden gemiddeld meer (…). De gevonden verschillen waren echter niet statistisch significant.’
Ik meen vrij zeker te weten dat de docent die mij statistiek bijbracht mij fors gecorrigeerd had als ik zoiets uit m’n pen had laten vloeien. In telegramstijl: onderzoek begint met het formuleren van een hypothese. Er wordt een experiment ontworpen waarbij, voor en na een te onderzoeken interventie, een effectmeting wordt gedaan. Er wordt afgesproken welk significantieniveau bij de statistische analyse aangehouden zal worden. Dit laatste om de rol van toeval c.q. de vertekenende blik van de te enthousiaste onderzoeker te elimineren. Zijn de cijfers voor en na niet significant verschillend, dan moet de conclusie luiden: volgens de wetenschappelijke norm die we hadden afgesproken is er geen verschil; de hypothese wordt verworpen.
Ik heb deze normvervaging al veel vaker gesignaleerd, maar omdat het in dit artikel al vrij pontificaal in de samenvatting staat, ben ik deze keer achter mijn toetsenbord gekropen. Ik wil wel aannemen dat er methodologisch iets veranderd is wat aan mij voorbijgegaan is, maar daarin ben ik vast niet de enige. Zou de redactie een kleine beschouwing willen wijden aan deze kwestie?
Jelto Drenth maakt bezwaar tegen de wijze waarop wij de resultaten van ons onderzoek presenteren. Hij heeft gelijk dat de spelregels voor het interpreteren van verschillen (tussen groepen) of veranderingen (binnen of tussen groepen) niet behoren te worden opgerekt, door aan niet-statistisch significante veranderingen of verschillen toch betekenis toe te kennen. Wij menen dat wij ons in het artikel aan dit misbruik van de toetsende statistiek op geen enkele manier bezondigen.
De hoofdconclusie uit onze analyses luidt dat RPM in dit onderzoek weinig blijkt toe te voegen aan de behandeleffectiviteit (p. 154). De beperkte steekproefomvang - en derhalve het bescheiden statistisch onderscheidingsvermogen - is voor ons desondanks reden om niet-statistisch significante verschillen expliciet te signaleren. Zouden wij dat niet hebben gedaan, dan hadden wij de lezer en onszelf de mogelijkheid ontnomen om na te denken over mogelijke (statistische) verklaringen voor het niet vinden van de voorspelde verschillen. Onderzoek dient immers gerepliceerd te worden; zeker klein onderzoek als het onze, dat in Nederland niet eerder is uitgevoerd.
Dat wij de inhoudelijk pregnante verschillen tussen de aantallen betrouwbaar verbeterde patiënten (ten gunste van de feedback-groep) statistisch hebben getoetst (geen statistisch significante verschillen), kan achteraf beschouwd zelfs overdreven streng worden genoemd, omdat de index voor betrouwbare verandering als zodanig al een toetsend karakter heeft.