Vorige pagina

Wat is objectiviteit?

Jaargang 2022, uitgave 3

Beschouwingen naar aanleiding van het meetprobleem in de psychologie

Mattias Desmet

Samenvatting

De in 2005 losgebarsten replicatiecrisis bracht een reeks diepgaande methodologische problemen aan het licht in de psychologie. Bijna twee decennia later ziet het er niet naar uit dat deze problemen opgelost zijn. Psychologisch onderzoek kan zijn ambitie om objectief te zijn nog altijd maar heel beperkt waarmaken. Een fundamentele bevraging van de onderzoeksmethoden dringt zich op – Wat is objectiviteit? Dit artikel beargumenteert dat de psychologie in haar streven naar objectiviteit te eenzijdig inzet op metrische beschrijving van psychische kenmerken in steekproeven. Als de psychologie haar methodologische crisis echt te boven wil komen, zal ze anders moeten meten, zich meer moeten openstellen voor andere vormen van beschrijving (i.e. beschrijving aan de hand van woorden, beelden, formules), meer aandacht moeten hebben voor de single case als analyse-eenheid en objectiviteit ook moeten invullen als het vermogen om te resoneren met het object dat bestudeerd wordt (in plaats van objectiviteit enkel te zien als het streven om de invloed van het bestuderende subject te elimineren). De methodologische crisis wordt tenslotte in een ruimer perspectief geplaatst en beschouwd als een manifestatie van de limieten van de Verlichtingstraditie.

Inleiding: objectiviteit en replicatiecrisis

Wat is objectiviteit? – het is een vraag die het verdient om gesteld te worden in het huidige tijdsgewricht. Niets illustreert dit beter dan de crisis die in 2005 in de academische wereld losbarstte – de zogenaamde replicatiecrisis. Die crisis begon met een aantal zware gevallen van wetenschapsfraude die aan het licht kwamen. Wetenschappelijke scans en andere beeldvervorming bleken gemanipuleerd (Bik, Casadevall & Fang, 2016), archeologische artefacten nagemaakt (Jarus, 2018) en klonen van embryo’s verzonnen (Souza & Caitite, 2009). Er waren onderzoekers die beweerden succesvol huid van muizen getransplanteerd te hebben, maar eigenlijk werd de ingreep gewoon geïmiteerd door de huid van de testdieren te verven (Hixon, 1976). Nog anderen fabriceerden zelf de missing link uit stukjes schedel van mensen en apen (De Groote e.a., 2016). Ja, sommigen bleken hun onderzoek zelfs volledig verzonnen te hebben (Vogel, 2011).

Die regelrechte vormen van fraude waren relatief zeldzaam en als dusdanig niet het grootste probleem. Dat lag eerder bij mildere vormen van twijfelachtige onderzoekspraktijken die werkelijk epidemische proporties aannamen. Daniele Fanelli deed in 2009 een systematisch onderzoek en vond dat minstens 72% van de onderzoekers bereid waren om op een of andere manier hun onderzoeksresultaten te verdraaien (Fanelli, 2009). En daar kwam nog bovenop dat onderzoek ook wemelde van (onbedoelde) reken- en andere fouten. Een artikel in Nature maakte terecht melding van ‘een tragedie van fouten’ (Baker, 2016).

Dit alles vertaalde zich in een gebrek aan repliceerbaarheid en reproduceerbaarheid van wetenschappelijke bevindingen. Eenvoudig gesteld komt dit erop neer dat resultaten van wetenschappelijke experimenten niet stabiel bleken. Als verschillende onderzoekers hetzelfde experiment deden, kwamen ze tot verschillende bevindingen (de bevindingen zijn niet repliceerbaar), of erger, als verschillende onderzoekers dezelfde dataset analyseerden, kwamen ze tot verschillende besluiten (de bevindingen zijn niet reproduceerbaar). In economisch onderzoek, bijvoorbeeld, mislukte reproductie in ongeveer 50% van de gevallen (Chang & Li, 2015), in kankeronderzoek in ongeveer 60% (Begley & Ellis, 2012) en in biomedisch onderzoek in het algemeen in maar liefst 85% van de gevallen (Begley & Ioannides, 2015). Alles tezamen was de kwaliteit van onderzoek zo dramatisch dat de wereldvermaarde statisticus John Ioannides er een artikel over publiceerde met de veelzeggende titel ‘Why most published research findings are false’ (Ioannides, 2005). Ironisch genoeg kwamen ook de studies die de kwaliteit van onderzoek onderzochten tot uiteenlopende conclusies. Dat op zich toont misschien nog het best van al aan hoe fundamenteel het probleem was.

De psychologie behoorde tot de zwaarst getroffen domeinen (enkel de medische wetenschappen bleken er nog erger aan toe). Verschillende gevallen van verregaande fraude kwamen aan het licht, soms bleek bijvoorbeeld dat onderzoekers hun volledige onderzoek verzonnen hadden (Vogel, 2011). Tijdens de laatste twee decennia waarschuwden verschillende onderzoekers met wereldfaam, onder andere Nobelprijswinnaar Daniel Kahneman (2012), dat psychologische studies kampen met verbijsterende methodologische slordigheden (bijvoorbeeld Simonsohn, 2012; Toomela, 2007; Schwartz, 2009; Vogel, 2011; Wagoner, 2007) en met een veralgemeend gebrek aan repliceerbaarheid en reproduceerbaarheid (bijvoorbeeld Bartlett, 2014; Bohannon, 2014; Ritchie, Wiseman, & French, 2012; Roediger, 2012; Stevens, 2017; Open Science Collaboration, 2015). Rouder (2016, p. 1062) besloot dan ook dat de psychologie kampt met “widespread and systematic problems in the way researchers produce, evaluate, and report knowledge”.

Een belangrijke kanttekening is hierbij op zijn plaats: sommige auteurs (bijvoorbeeld Maniadis & Tufano, 2017, p. 200) hebben daarbij terecht opgemerkt dat geen enkele andere discipline de repliceerbaarheid van de bevindingen zo grondig heeft onderzocht als de psychologie. In zekere zin zou de publieke verontwaardiging omtrent de kwaliteit van wetenschappelijk onderzoek eerder op vooroordelen kunnen berusten dan op een werkelijke minderwaardigheid als wetenschap (Lilienfeld, 2017).

In de voorbije vijftien jaar probeerde de academische wereld door een aantal initiatieven en maatregelen de kwaliteit van onderzoek te verbeteren. Men stelde de publicatiedruk ter discussie, maande onderzoekers om hun onderzoeksgegevens publiek beschikbaar te maken, bracht de financiële belangen van onderzoek beter in kaart, enz. Maar al met al lijken die maatregelen niet veel effect te hebben. In 2021 deed men opnieuw een onderzoek naar de kwaliteit van onderzoek en 50% van de academici gaf anoniem toe dat ze hun bevindingen soms tendentieus voorstellen (Gopalakrishna e.a., 2021). Dit cijfer is sowieso al problematisch hoog, maar volgens Fanelli (zie Gopalakrishna e.a., 2021) is het vrijwel zeker nog een substantiële onderschatting. Want ook anoniem durft een aanzienlijk percentage van de onderzoekers niet toe te geven dat ze zich engageren in twijfelachtige onderzoekspraktijken. De genomen maatregelen – hoe goed ze in zekere zin ook bedoeld waren – hebben de kern van het probleem klaarblijkelijk niet aangepakt.

Epistemologische crisis en cijfers

Dit is cruciaal: de replicatiecrisis duidt niet zomaar op een gebrek aan ernst en eerlijkheid in onderzoek. Ze wijst in de eerste plaats op een fundamentele epistemologische crisis, een crisis in de manier waarop de mens probeert tot kennis te komen. Er hapert iets aan ons streven naar objectiviteit. We moeten ons die vraag op een frisse manier stellen: wat is objectiviteit? Historisch gezien zijn we goed en wel naar objectiviteit gaan streven sinds het begin van de Verlichtingstraditie. De mens zette toen zijn religieuze vooroordelen en dogma’s opzij en liet de wereld en de dingen zelf aan het woord. Dit was het wezen van de revolutie die toentertijd plaatsvond: men liet elke subjectieve overtuiging achterwege en liet de dingen voor zichzelf spreken. Sinds de Verlichtingstraditie slaat de term ‘objectiviteit’ aan op een discours dat door het geobserveerde object zelf bepaald wordt (en niet door het subject dat het uitspreekt).

In het streven naar objectiviteit neemt de actie van het meten een centrale plaats in. Meten is in principe een manier om een object te beschrijven. Naast metingen zijn er natuurlijk nog andere mogelijke beschrijvingen van objecten, zoals woordelijke beschrijvingen, beschrijvingen aan de hand van beelden (bijvoorbeeld de röntgenfoto, X-ray Kristallografie, anatomische tekeningen enzovoorts) en beschrijvingen aan de hand van formules (bijvoorbeeld de Fibonaccireeks voor spiraalvormen in de natuur). Maar de cijfermatige beschrijving heeft in psychologisch opzicht een geprivilegieerd statuut. Cijfers lijken samen te vallen met het object – ze lijken het object accuraat en rechtstreeks te representeren.

In sommige gevallen kunnen metingen inderdaad als (schijnbaar) objectief beschouwd worden. De voorwaarde daarvoor is dat het kenmerk dat men meet strikt unidimensioneel is (bijvoorbeeld de lengte van een stok) of in strikt unidimensionele kenmerken verdeeld kan worden. De reden is eenvoudig: meten is in principe altijd het vergelijken van een (kenmerk van een) object met de unidimensionele reeks van de reële getallen (lopend van plus tot min oneindig) vermenigvuldigd met een meeteenheid (bijvoorbeeld centimeter, liter enzovoorts).

Maar de meeste objecten laten zich niet herleiden tot unidimensionele kenmerken. Kijk eens naar figuur 1. Als je de lengte van de kust van Groot-Brittannië meet met een meeteenheid van 200 kilometer, dan is hij 2400 kilometer lang; als je meet met een eenheid van 50 kilometer is hij 3400 km lang. Naargelang je de meeteenheid kleiner maakt, stijgt de lengte van de kust van Groot-Brittannië, tot in het oneindige. De briljante Pools-Joodse wiskundige Josef Mandelbroth (1967) toonde zo op een eenvoudige en aanschouwelijke manier aan dat metingen altijd relatief zijn, afhankelijk van een reeks subjectieve keuzes die degene maakt die opmeet, zoals de keuze voor een bepaalde meeteenheid.

Figuur 1 De lengte van de kust van Groot-Brittannië in verschillende meeteenheden

Unit = 200km,

Length = 2400 km (approx.)

Unit = 200km,

Length = 3400 km

En zelfs als metingen op zich als ‘juist’ en schijnbaar objectief beschouwd kunnen worden (bijvoorbeeld het meten van de lengte van strikt unidimensionele objecten, zoals een stok of het tellen van leden van discrete categorieën), speelt er nog een belangrijke subjectieve factor op het niveau van de interpretatie ervan. Een voorbeeld dat in de statistiek bekendstaat als de Simpsons paradox is hier illustratief (zie Simpson, 1951). De cijfers in tabel 1 representeren het aantal doodstraffen voor moord in Florida, opgesplitst in blanke en zwarte daders. Het besluit is duidelijk: blanken krijgen sneller de doodstraf dan zwarten. Onderzoekers die de cijfers bestudeerden, waren daar zeker van en claimden dat het vooroordeel dat zwarten benadeeld werden, niet klopte. Tot een statisticus dezelfde cijfers lichtjes anders presenteerde. Hij splitste niet alleen het ras van de daders op in blank en zwart, maar ook dat van de slachtoffers (zie tabel 2). De conclusie was nu tegengesteld: zwarten krijgen sneller de doodstraf als ze een blanke vermoorden dan blanken als ze een zwarte vermoorden. En ook hier zijn we geneigd om weer zeker te zijn en te denken dat dit de finale analyse is, maar de cijfers kunnen zonder twijfel nóg anders voorgesteld worden en zullen dan weer tot een andere conclusie leiden.

Tabel 1. Doodstraffen voor moord in Florida in blanke en zwarte daders

	Doodstraf
Ras Dader	Ja	Nee	Percentage
Blank	19	141	11,9%
Zwart	17	149	10,2%

Tabel 2. Doodstraffen voor moord in Florida naar ras van de daders en slachtoffers

		Doodstraf
Ras Dader	Ras slachtoffer	Ja	Nee	Percentage
Blank	Blank	19	132	12,6%
Blank	Zwart	0	9	0%
Zwart	Blank	11	52	17,5%
Zwart	Zwart	6	97	5,8%

Cijfers hebben een uniek psychologisch effect. Ze creëren een quasi-onweerstaanbare illusie van objectiviteit, een illusie die bovendien nog versterkt wordt als cijfers aan de hand van grafieken als visuele vormen worden voorgesteld. Wie cijfers ziet, meent objecten of feiten te zien. En die illusie maakt de mens blind voor het toch evidente gegeven dat cijfers altijd relatief en meerduidig zijn, dat ze geconstrueerd en geproduceerd worden vanuit een ideologisch en subjectief gekleurd verhaal. Op het eerste gezicht lijken de cijfers enkel trouw aan de feiten, maar bij nader toezien voegen ze zich gewillig naar elk verhaal.

Het meetprobleem in de psychologie

We bespraken eerder al dat de crisis die in 2005 in de wetenschappen losbarstte – de zogenaamde replicatiecrisis – eigenlijk nooit opgelost werd. Wetenschap bleef ook daarna, en tot op de dag van vandaag, kampen met een epidemie van fouten, slordigheden, geforceerde besluitvorming en fraude. Als men bekijkt in welke wetenschapsdomeinen de problemen het ergst waren, krijgt men zeer de indruk dat de meetbaarheid van de fenomenen een rol speelde. In de chemie en de fysica viel het mee, in de psychologie en de geneeskunde was de toestand dramatisch. In die laatste gebieden onderzoekt men typisch complexe en dynamische fenomenen – het lichamelijke en het psychische functioneren van de mens. Dergelijke ‘objecten’ zijn in wezen maar zeer beperkt meetbaar, omdat ze niet tot unidimensionele kenmerken kunnen worden herleid. En toch probeert men ze al te vaak krampachtig in cijfers te vangen. Het is ergens op dat niveau dat de oorzaak van de onoplosbaarheid van het probleem gezocht moet worden. De twee problemen met metingen die we eerder aanhaalden – het probleem op het niveau van het meten zelf en het probleem op het niveau van de interpretatie van de metingen – spelen in de psychologie (en eigenlijk ook in de geneeskunde) in zeer hoge mate.

Het probleem op het niveau van het construeren van de metingen – hierboven geïllustreerd aan de hand van het voorbeeld van het meten van de grenzen van Groot-Brittannië – laat zich heel duidelijk illustreren. In de psychologie gebeurt meten doorgaans aan de hand van allerlei testen die in cijfermatige scores resulteren. Deze cijfers wekken de indruk objectief te zijn, maar dat is (zeer) relatief. Studies naar cross-method agreement tonen ons bijvoorbeeld hoe problematisch dergelijke metingen zijn. Die studies vertrekken vanuit een vraag die even eenvoudig als interessant is: als je hetzelfde ‘object’ meet aan de hand van verschillende meetmethoden, hoe gelijk zullen de resultaten dan zijn? Normaal gesproken, als de meetmethoden min of meer accuraat zijn, zouden de resultaten ongeveer gelijk moeten zijn. Dat is echter niet zo. Verre van zelfs. In de psychologie, bijvoorbeeld, zijn de correlaties tussen metingen verkregen met verschillende methoden zelden hoger dan 0,45 (zie bijvoorbeeld Meyer e.a., 2001).

Dat is een abstract cijfer natuurlijk en daarom geef ik er in mijn colleges aan de universiteit sinds jaar en dag een concreet voorbeeld bij. Stel je voor dat je een huis bouwt en dat een schrijnwerker de raamopeningen komt opmeten. Hij gebruikt daarvoor drie verschillende meetmethoden – een vouwmeter, een rolmeter en een lasermeter. Mochten de metingen van de schrijnwerker even beperkt zijn als die van een psycholoog, dan zou hij de meetresultaten rapporteren die je in tabel 3 ziet.
We zien dus dat de schrijnwerker aan de hand van het eerste meetinstrument zegt dat het eerste raam 180 cm breed is, met het tweede meetinstrument vindt hij dat hetzelfde raam 130 cm breed is, en met het derde instrument besluit hij dan weer dat het 60 cm breed is. En hetzelfde voor het tweede raam: met het eerste instrument zegt hij dat dit raam 100 cm breed is, met het tweede dat het 200 cm breed is, met het derde dat het 150 cm breed is. Zou je door een schrijnwerker die van dergelijke meetmethoden gebruikmaakt de ramen van je huis laten maken? De correlatie tussen die drie reeksen meetresultaten is toch 0,45. Dat betekent ongeveer het beste dat je mag verwachten als psychologen drie verschillende meetinstrumenten gebruiken. Dat betekent niet dat alle psychologische metingen zinloos zijn, maar het relativeert wel de idee dat ze ‘objectief’ zijn.

Tabel 3 Drie verschillende meetmethoden gebruikt door de schrijnwerker

	Eerste meetinstrument	Tweede meetinstrument	Derde meetinstrument
Raam 1	180 cm	130 cm	60 cm
Raam 2	100 cm	200 cm	150 cm
Raam 3	160 cm	220 cm	130 cm
Raam 4	100 cm	170 cm	210 cm
Raam 5	30 cm	100 cm	20 cm
Raam 6	120 cm	80 cm	160 cm
Raam 7	110 cm	150 cm	60 cm
Raam 8	30 cm	90 cm	10 cm

En ook het tweede probleem, het probleem op het niveau van de interpretatie van de metingen, kan heel concreet geïllustreerd worden. Dit wordt ook heel duidelijk als je meetresultaten op casusniveau bekijkt en vergelijkt met ruimere, kwalitatieve informatie omtrent de betrokken personen. Mijn onderzoeksgroep aan de Universiteit Gent bestudeert het proces en de uitkomst van psychotherapie en onze onderzoeksprocedure laat heel gedetailleerde analyses toe van unieke gevallen (voor een uitgebreide beschrijving van de methode, zie Meganck e.a., 2017 en Ghent Psychotherapy Study op Open Science Framework https://osf.io/mf2d7/). Ik nam als therapeut deel aan de pilotstudie van dit project, wat me in de geprivilegieerde positie plaatste dat ik de meetresultaten, verkregen met de psychologische tests kon aftoetsen aan mijn eerste-persoonservaringen als therapeut en later, na de analyse van de data, ook nog eens aan de kwalitatieve analyses van de opnames van de therapeutische sessies. Die aftoetsing leverde soms merkwaardige resultaten op.

Figuur 2 toont de evolutie van de scores van twee patiënten op de iip (Inventory of Interpersonal Problems, Horowitz e.a., 2000; Vanheule, Desmet & Rosseel, 2006).) gedurende een therapie van vijftig sessies. De iip is een vragenlijst die de interpersoonlijke klachten en problemen meet. Je ziet dat het verloop van de iip-scores bij alle twee de patiënten ongeveer gelijk is. De scores zijn in het begin van de therapie bij beide patiënten redelijk hoog – ongeveer 60 – en ze verminderen progressief gaandeweg de therapie, tot ze ongeveer 0 zijn. Met andere woorden: deze grafieken suggereren dat beide patiënten door een vergelijkbare en succesvolle therapie gingen.

De analyse van de opnames van de sessies toonde echter dat het therapeutische proces van deze twee patiënten helemaal niet vergelijkbaar was. Bij de eerste patiënt (linkerkant van figuur 2) bevestigde het klinische materiaal dat de interpersoonlijke verhoudingen gaandeweg de therapie inderdaad sterk verbeterden. In het begin van de therapie zat de man in kwestie gevangen in een web van destructieve verhoudingen en naar het einde toe schoot hij veel beter op mijn zijn collega’s, waren de relaties met zijn vrienden minder turbulent, was de woede en zijn haat naar zijn ouders toe verminderd en had hij een bevredigende partnerrelatie gerealiseerd. Die positieve effecten bleven tijdens de twee jaar durende follow-upfase bestaan (voor meer gedetailleerde beschrijving van dit geval, zie Cornelis, 2016).

Figuur 2 De scores van twee patiënten op de Inventory of Interpersonal Problems die een verbetering van hun interpersoonlijke functioneren suggereren

De analyse van het kwalitatieve materiaal bracht een verschillend verhaal over de tweede patiënt (rechts op de grafiek) aan het licht. De scores op de iip suggereerden daar, net als bij de eerste patiënt, dat er in het begin van de therapie veel interpersoonlijke problemen waren en op het einde weinig of geen. In het begin van de therapie vertelde de patiënte tijdens de sessies inderdaad dat de verhoudingen met haar partner, vrienden en familie hoogst frustrerend waren. Maar gaandeweg de therapie veranderde dat eigenlijk niet. Ik was dan ook hoogst verbaasd toen ik naar het einde van de therapie toe de grafiek van de iip-scores printte en een sterk dalende tendens zag. Ik besloot daarop de patiënte rechtstreeks te vragen waarom ze minder problemen rapporteerde naargelang de therapie vorderde.

Om haar antwoorden wat beter invoelbaar te maken, is het goed dat ik meegeef dat de iip typische items bevat als ‘Het is moeilijk voor mij om andere mensen te vertrouwen’, ‘Het is moeilijk voor mij om nee te zeggen tegen andere mensen’, ‘Het is moeilijk voor mij om contact te leggen met andere mensen’, ‘Het is moeilijk voor mij om iemand te zeggen dat hij moet stoppen met me lastig te vallen’ enzovoort. De persoon die de test invult, moet dan telkens op een schaal van 0 tot 4 aangeven in welke mate dat het geval is. Toen ik aan deze patiënte vroeg waarom haar scores verminderden naarmate de therapie vorderde, antwoordde ze dat ze met al die zaken minder moeite had omdat ze geen andere mensen meer ontmoette (!). ‘Is het moeilijk voor jou om andere mensen te vertrouwen?’, ‘Nee, ik moet geen andere mensen meer vertrouwen, want ik zie geen andere mensen meer’, ‘Is het moeilijk voor jou om nee te zeggen tegen andere mensen?’, ‘Nee, want ik word niet meer met de vragen van andere mensen geconfronteerd’ enzovoort. Andere factoren kunnen ook nog een rol gespeeld hebben in de daling van de scores (zoals een daadwerkelijke verbetering helemaal naar het einde van de therapie toe), maar het leidt weinig twijfel dat de sterke daling tussen sessies 2 en 10 eerder aan sociale isolatie dan aan verbeterde contacten toe te schrijven was.

Figuur 3 toont de ontwikkeling in de iip-scores van twee andere patiënten uit dezelfde studie. We zien dat deze twee patiënten allebei hoger scoren aan het eind van de therapie dan in het begin. Als we de vragenlijstscores blindelings geloven, dan betekent dit dat de therapie tot meer interpersoonlijke problemen heeft geleid dan er al waren en in dat opzicht dus mislukt is. De analyse van het kwalitatieve materiaal verklaart ook hier bijzonder veel. Beide patiënten werden naar de therapie verwezen door hun huisarts, omdat deze vermoedde dat een reeks lichamelijke klachten gerelateerd was aan psychische factoren. Tijdens de eerste sessies van de therapie stonden beide patiënten weigerachtig ten aanzien van deze hypothese en ontkenden ze stellig dat ze psychische problematiek hadden. De ontkenning manifesteerde zich ook op het vlak van hun spreken over hun partnerrelaties: ze meenden dat alles daar oké zat, niets om zich echt zorgen over te maken. Ze scoorden daarom ook laag op de iip in het begin van de therapie.

Figuur 3 De scores van twee patiënten op de Inventory of Interpersonal Problems die een verslechtering van hun interpersoonlijke functioneren suggereren

Gaandeweg de eerste vijf sessies begonnen ze echter beetje bij beetje de psychologische oorzaken van hun symptomen te zien en toe te geven dat ze op relationeel vlak toch meer problemen hadden dan ze eerst gedacht hadden. Daardoor begonnen hun iip-scores te stijgen. Naargelang de therapie vorderde, daalden de psychologische problemen beetje bij beetje en daalden ook de scores op de klachtenlijsten. Terwijl het psychische functioneren op het einde van de therapie bij beide patiënten beduidend beter was dan normaal, werden de scores op de klachtlijsten echter nooit meer zo laag als ze waren aan het begin van de therapie, toen de problemen radicaal ontkend werden. Ook hier schiepen de pre-post-metingen dus een verkeerde indruk.

In een recente publicatie (Desmet e.a., 2021) hebben we alle kwantitatieve en kwalitatieve data van de 29 patiënten uit de pilotstudie geanalyseerd en besloten we dat de metingen bij zes van de patiënten radicaal misleidend waren en over het algemeen slechts laag tot matig convergeerden met kwalitatieve gegevens. Het gaat er daarbij niet zozeer om dat de vragenlijstscores verkeerd zijn, maar wel dat ze iets anders reflecteren dan de auteurs van de vragenlijst voor ogen hadden. Bijvoorbeeld: de patiënte die stopte met interpersoonlijke problemen rapporteren, omdat ze geen relaties meer had, loog niet of gaf eigenlijk zelfs geen verkeerde antwoorden; ze interpreteerde de vragenlijstitems simpelweg op een alternatieve manier.

In mijn boek The pursuit of objectivity in psychology (Desmet, 2018) heb ik deze problemen veel uitgebreider besproken en getoond dat de idee van objectiviteit van psychologische metingen ten zeerste gerelativeerd moet worden. Als men binnen een positivistisch-objectivistisch denkkader redeneert, dan bevatten de meeste psychologische metingen teveel meetfouten om ze op een zinnige manier in statistisch onderzoek te gebruiken. Ik toonde bijvoorbeeld aan dat de correlatie tussen twee variabelen altijd nog meer meetfouten bevat dan de metingen van de variabelen (de meetfout in de variabelen accumuleert in de berekening van een correlatie). Op die manier wordt correlationeel onderzoek praktisch zinloos. Dit probleem wordt al te vaak miskend in de psychologie. Er wordt teveel vanuit gegaan dat een voldoende steekproefgrootte ervoor zorgt dat meetfouten uitgemiddeld worden. Dat geldt bijvoorbeeld niet als het over systematische meetfouten gaat. En ten tweede geldt het ook alleen maar als men wel degelijk het juiste object meet (met een bepaalde meetfout). Het geldt niet als men eigenlijk het verkeerde object meet. Als men de gemiddelde breedte van een auto wil bepalen en men meet een groot aantal auto’s en berekent daar het gemiddelde van, dan zal dit gemiddelde inderdaad de gemiddelde werkelijke breedte van auto’s benaderen, zelfs al zit er op de metingen een (toevallige) meetfout. Maar als men in plaats van de breedte een ander kenmerk van auto’s meet – bijvoorbeeld de lengte of de hoogte – dan kan men zoveel auto’s opmeten als men wil, de gemiddelde meting zal nooit de gemiddelde werkelijke breedte benaderen. En dat laatste is in de psychologie ook vaak het geval. Er wordt wellicht vaak een ander psychisch kenmerk gemeten dan hetgeen de psychologische test beoogt te meten. De voorbeelden hierboven illustreren dat tot op bepaalde hoogte (bijvoorbeeld: de iip beoogt relationele problemen te meten, niet het mechanisme van de ontkenning).

Men zou hier kunnen tegenwerpen: en wat met al die tienduizenden studies die aantonen dat de validiteit en betrouwbaarheid van psychologische tests aanvaardbaar, goed of zelfs excellent zijn? Het antwoord is eenvoudig: in de psychologie wordt de validiteit van een test beoordeeld in referentie naar de gemiddelde validiteit van psychologische tests. Maar men vergeet daarbij dat de gemiddelde validiteit eerder dramatisch is (!). Eigenlijk zou de validiteit bepaald moeten worden door na te gaan of ze goed genoeg is om specifieke statistische analyses uit te voeren (zie wat we hierboven opmerkten omtrent de invloed van de meetfout op correlationele analyses). In dat geval zouden we wellicht niet anders kunnen dan besluiten dat de validiteit zelden aanvaardbaar is.

Toen ik me als jonge onderzoeker op het meetprobleem stortte, dacht ik dat alleen de psychologie in die mate met dit probleem kampte. Later ontdekte ik dat het zich evengoed laat gelden in de medische wetenschappen (en in bepaalde mate zelfs in álle wetenschappen). De gebruikte tests en meetinstrumenten zijn daar – het kan verwondering wekken – gemiddeld niet beter dan in de psychologie. Sla er de grondige overzichtsstudie van Gregory Meyer en zijn collega’s (Meyer e.a., 2003) maar eens op na. De manifeste problemen met de pcr-test tijdens de coronacrisis deden het besef van de relativiteit van medische metingen wellicht voor het eerst bij een iets ruimer publiek doordringen. Het werd plots duidelijk dat de test op veel verschillende manieren kan worden afgenomen, dat de resultaten wisselvallig zijn, dat de testuitslag in principe op veel verschillende manieren kan worden geïnterpreteerd, enzovoort. Goethe zei het al: “Het meten van een ding is een grove handeling die op levende wezens slechts hoogst onvolkomen kan worden uitgevoerd.” Door toch te proberen het onmeetbare te meten, wordt meten een vorm van pseudo-objectiviteit. Want in plaats van de onderzoeker dichter bij zijn onderzoeksobject te brengen, voert de meetprocedure hem er verder van af. Ze zorgt dat het onderzochte object verdwijnt achter een scherm van cijfers die in wanverhouding staan ten opzichte van het object zelf.

Alles wel beschouwd besluiten we dat de psychologie de invulling van het concept ‘objectiviteit’ moet herzien of op zijn minst uitbreiden. We kunnen puntsgewijs aanstippen hoe een mogelijke heroriëntering kan gebeuren.

Ten eerste: de psychologie moet zich meer openstellen voor andere vormen van wetenschappelijke beschrijvingen dan de metrische. Beschrijving met woorden en mathematische beschrijving (in het genre van de topologische beschrijvingen van Lacan) verdienen een veel centralere plaats dan nu het geval is. Ik heb dat alles eerder uitgebreid beargumenteerd in het boek waar ik eerder naar verwees en ga het hier slechts kernachtig herhalen. Ik volsta met te beklemtonen dat de uiteindelijke reden waarom psychologische objecten zich moeilijk of niet laten meten, ligt in het feit dat ze zich niet laten reduceren tot unidimensionele kenmerken. Als men een meting uitvoert, dan meet men nooit enkel de karakteristiek die men wil meten, maar in zekere zin altijd het volledig betekenisverlenende apparaat van de ‘proefpersoon’, dat altijd in het spel komt op het moment dat deze laatste de ‘testprikkel’ interpreteert. Bij een vragenlijst is dat duidelijk: als een item vraagt ‘Heb je vaak last van sombere gedachten?’, dan meet dat item niet alleen de mate van somberheid in de participant, maar ook de hele idiosyncratische manier waarop deze dat item interpreteert. Een hoge score op een depressielijst kan in de psychotherapeutische praktijk dan ook op veel zaken wijzen, soms op een ervaring van rouw, andere keren op een al levenslang aanslepende, moeilijk duidbare gedrukte stemming. Met andere woorden: de hele complexiteit van de onderzochte persoon heeft impact op de meting. Dat hetzelfde ook geldt voor de zogenaamde impliciete metingen – tests waarbij de reactie van de participant automatisch, impliciet, of onbewust gebeurt – werd ondertussen uitgebreid aangetoond (De Houwer e.a., 2009). En los van enig empirisch bewijs voor deze stelling, kan ze ook op puur logische gronden ‘bewezen’ worden: de menselijke subjectiviteit is een complex en dynamisch systeem en als dusdanig kan men een onderdeel ervan meestal niet bestuderen los van het geheel. Dat neemt niet weg: bepaalde psychische attributen – we denken dan in de eerste plaats aan de formele kenmerken van talige uitingen – zijn zeker meetbaar (genoeg) en de psychologie zal geen volwaardige wetenschap worden als ze verwaarloost om meetmethoden te ontwikkelen om die attributen ook effectief te meten.

Ten tweede moet de psychologie terug naar de single case als de geprivilegieerde unit of analysis. De mens is bij uitstek een betekenisverlenend wezen. De hele structuur van zijn mentaal-psychische functioneren, ja, zelfs zijn lichamelijke functioneren, is tot in de kern getekend door het betekenisverlenende proces. En dat proces is altijd in grote mate bijzonder (zie Desmet, 2018). Elke mens construeert zich een volstrekt unieke identiteit die gevat zit in een uniek narratief – een talige constructie die bepaalt welke betekenis hij aan de dingen gaat toekennen die zich aan zijn existentie opdringen. Als de psychologie de singulariteit van het proces van de betekenisverlening miskent en de mens in gestandaardiseerde responses op gestandaardiseerde tests wringt die dan ook nog eens op een gestandaardiseerde manier geïnterpreteerd worden, dan wist de psychologie in de act van het onderzoeken haar eigenlijke onderzoeksobject uit: de singuliere, subjectieve ervaring.

Dit is het eigenlijke drama van vakgebieden als de geneeskunde en de psychologie: men heeft het klassieke onderzoek, zijnde grondige gevalstudies die uitgevoerd worden door ervaren clinici, laten varen en ingewisseld voor onderzoek dat er wetenschappelijk uitziet, maar het eigenlijk vaak niet is. Statistische analyses van metingen, uitgevoerd in grote steekproeven, lijken dan wel een meer gesofisticeerde en meer objectieve vorm van beschrijving van het onderzoeksobject, maar ze zeggen eigenlijk minder over het bestudeerde fenomeen dan een deskundig uitgevoerde beschrijving met woorden van een reeks individuele gevallen doet. Daaruit voortvloeien voor een deel ook de andere problemen die aan de oppervlakte kwamen in de crisis in de wetenschappen: de alomtegenwoordige fouten, slordigheden en geforceerde besluitvorming waarover we het eerder hadden. Wie het onmeetbare toch probeert in cijfers te wringen, voelt dat zijn onderzoek weinig echte waarde heeft en vindt wellicht ook minder motivatie om secuur en met plichtsbesef te werken.

Ten derde moet de psychologie de notie van objectiviteit uitbreiden. De notie van objectiviteit mag niet alleen ingevuld worden als het buiten spel houden van het subject – van de observerende en bestuderende instantie. ‘Objectiviteit’ houdt ook in dat de observerende instantie contact maakt met het object: objectief is die methode die toelaat dat de onderzoeker het object kan benaderen en leren kennen. In wezen is men niets met een methode waarin het subject buiten spel wordt gehouden, maar waarin het object onbereikbaar blijft. In dat opzicht heeft ‘objectiviteit’ niet noodzakelijk veel met ‘rationaliteit’ te maken. Dit herinnert aan een uitspraak van de grote wiskundige Renée Thom: “Dat deel van de realiteit dat goed kan beschreven worden met wetten die becijferd kunnen worden, is extreem beperkt. Alle grote theoretische vooruitgang is volgens mij voortgekomen uit de capaciteit van onderzoekers om ‘in de huid van de dingen te kruipen’, om zich in te leven in alle entiteiten in de externe wereld. Het is dit soort identificatie dat een objectief fenomeen transformeert in een concreet gedachten-experiment” (Thom, 1991, p. 92). Dat is misschien wel de meest fundamentele revolutie die de psychologie moet realiseren: de overgang maken van een vorm van kennen die gebaseerd is op logica en rationaliteit naar een vorm die op resonantie en inlevingsvermogen berust. Dat wil niet zeggen dat men logica, rationaliteit en kwantificatie achterwege moet laten. Integendeel: de rationele en metrische reductie van de werkelijkheid moet tot aan de absolute limiet worden doorgedreven. Maar wanneer men eenmaal die limiet bereikt, moet men hem wel erkennen en op het gepaste moment overgaan op een andere vorm van kennen.

Slechts in een fundamentele herziening van haar methode mag er een oplossing verwacht worden voor de problemen die in 2005 in de replicatiecrisis aan het licht kwamen in psychologisch onderzoek, namelijk wijdverspreid gebrek aan repliceerbaarheid en reproduceerbaarheid van onderzoeksbevindingen, massale slordigheden en fouten en soms regelrechte fraude. Ook die laatste kwaal staat niet los van de gebrekkigheid van de onderzoeksmethoden. Als de methoden gebrekkig zijn en vervreemden van het fenomeen dat onderzocht wordt, dan verliest de onderzoeker wellicht gemakkelijker zijn ernst en ethische gestrengheid en kan hij zich gemakkelijker laten gaan in twijfelachtige praktijken als het verdraaien van onderzoeksresultaten.

Het hier besproken probleem in de psychologie is verbonden met een veel ruimer probleem, een probleem dat te maken heeft met de essentie van onze cultuur en van de Verlichtingstraditie. Wetenschap begon als openheid van geest, het opzijzetten van (religieuze) dogma’s en vooroordelen. Wetenschap representeerde in het begin een dissonante stem, een stem van een minderheid die inging tegen een dominant discours. Als dusdanig was wetenschap een vorm van waarheidsspreken – een vorm van spreken die het toeliet om de dingen in een nieuw licht te zien. Wetenschap zorgde ervoor dat er een nieuw contact met objecten gelegd werd. Maar naarmate wetenschap onder invloed van haar spectaculaire realisaties zelf steeds meer het dominante discours werd, verwerd ze zelf ook tot dogma en vooroordeel. Ze verloor haar kwaliteiten van waarheidsspreken en werd instrument van manipulatie, bedrog en macht, middel tot stigmatiseren ook.

Wetenschap creëert steeds meer een fictieve werkelijkheid die losstaat van de objecten. Het is dat wat we hierboven eigenlijk geïllustreerd hebben: de grafieken met cijfermatige informatie lijken ‘objectief’, ze lijken de psychische werkelijkheid zichtbaar en tastbaar te maken. Maar in feite staat ze quasi volledig los van die werkelijkheid. Op die manier vormt de problematische kwaliteit van het cijfermatig-statistische onderzoek een belangrijke component van dé grote kwaal van de Verlichtingstraditie: het totalitarisme. De befaamde Joods-Duitse filosofe Hannah Arendt stelde dat “het ideale subject van de totalitaire staat is niet de overtuigde nazist of de overtuigde communist, maar het subject dat het onderscheid tussen fictie en werkelijkheid niet meer kan maken” (1951, p. 622). En ze voegde eraan toe dat deze fictie altijd van (pseudo)wetenschappelijke aard is en zich typisch graag onderbouwt met veel cijfers en statistieken. Wetenschappers hebben in een maatschappij de functie om de feiten onder de aandacht te brengen. Als ze cijfers verwarren met feiten dragen ze bij aan de tendens tot totalitarisering die altijd aanwezig is in de Verlichtingsmaatschappij. In de coronacrisis werd in de media dagelijks een dans der cijfers opgevoerd. Elke nadere beschouwing ervan toonde hoe relatief die cijfers waren, ja, dat ze in veel gevallen zelfs ronduit verkeerd waren. Maar dat nam niet weg dat ze ten volle de illusie opwekten dat ze de feiten zelf voorstelden. En als dusdanig achtte men het gerechtvaardigd om op basis van die cijfers de meest verregaande maatregelen te nemen, inclusief het stigmatiseren en uitsluiten van een deel van de bevolking uit segmenten van de publieke ruimte.

De psychologie, als wetenschap van subjectiviteit, als kernwetenschap van het fenomeen van de menselijkheid, heeft de ethische plicht om zichzelf te bevragen op het vlak van haar methodes en zo paal en perk te stellen aan de vervreemding van de objecten die ze bestudeert. Het ideaal van objectiviteit moet niet losgelaten worden, het moet opnieuw ingevuld worden. Een methode is objectief, niet zozeer als ze haar object via metingen in kaart brengt, maar wel als ze de kloof met het object verkleint, als ze contact houdt met haar object; als ze tot een discours leidt die resoneert met haar object. Dat ligt volledig in lijn met de stelling van René Thom dat wat wetenschap karakteriseert primair niet het logisch-rationele vermogen is, maar het vermogen om zich in te leven in het object dat men bestudeert. Het is op het moment dat men op die manier contact maakt met het object, dat wetenschap meer wordt dan logisch weten en het register van de waarheid raakt, een discours die resoneert met een object en daarom de ziel beroert. De herintroductie van dit concept in de wetenschappen is de remedie voor de kwaal van onze cultuur, die meer en meer wegzinkt in holle retoriek en ‘wetenschappelijke fictie’. Om die remedie te realiseren, zal er eerst een methodologische heroriëntatie nodig zijn. De psychologie is een dergelijke moedige herziening van haar methode niet alleen aan zichzelf verplicht, maar ook aan haar medemensen en aan de culturele traditie waar ze deel van uitmaakt – de Verlichting. Als ze die herziening grondig uitvoert, zal ze er meteen ook aan bijdragen dat de traditie van de Verlichting zichzelf overstijgt en de overgang kan maken naar een stadium waarin niet het rationele, maar het a-rationele centraal staat – datgene wat zich eeuwig en altijd aan het menselijke verstand onttrekt.

Literatuur

Arendt, H. (1951). The origins of totalitarianism. Londen: Penguin Books.

Baker, M. (2016). Is there a reproducibility crisis? Nature, 533, 452-454.

Bartlett, T. (2014). Replication crisis in psychology research turns ugly and odd. The chronicle of higher education. Online via: http://www.chronicle.com/article/Replication-Crisis-in/147301.

Begley, C.G., & Ellis, L.M. (2012). Drug development: raise standards for preclinical cancer Research. Nature, 483, 531-533.

Begley, C.G., & Ioannidis, J.P.A. (2015). Reproducibility in science: improving the standard for basic and preclinical research. Circulation Research, 116, 116-126.

Bik, E.M., Casadevall, A., & Fang, F.C. (2016). The prevalence of inappropriate image duplication in biomedical research publications. mBio, 7, e00809-16.

Bohannon, J. (2014). Replication effort provokes praise – and “bullying” charges. Science, 344, 788-789.

Chang, A., & Li, P. (2015). Is economics research replicable? Sixty published papers from thirteen journals say ‘Usually not’. Online via: https://www.federalreserve.gov/econresdata/feds/2015/files/2015083pap.pdf.

Cornelis, S. (2016). Interactions between neurotic symptoms and interpersonal dynamics throughout psychodynamic therapy: four empirical case studies. Unpublished PhD dissertation.

Cornelis, S., Desmet, M., Nieuwenhove, K.L. van, Meganck, R., Willemsen, J., Inslegers, R., e.a. (2017). Interactions between obsessional symptoms and interpersonal ambivalences in psychodynamic therapy: an empirical case study. Frontiers in Psychology, 8, 960.

Desmet, M. (2018). The pursuit of objectivity in psychology. Gent: Borgerhoff & Lomberigts.

Desmet, M., Nieuwenhove, K. van, Smet, M. de, Meganck, R., Deeren, B., Huele, I. van, e.a. (2021). What too strict a method obscures about the validity of outcome measures. Psychotherapy Research, 31, 882-894.

Fanelli, D. (2009). How many scientists fabricate and falsify research? A systematic review and meta-analysis of survey data. Plos One, 4, e5738.

Gopalakrishna, G., Wicherts, J.M., Vink, G., Stoop, I.,O., Acker, G. van den, Riet, ter, e.a. (2021). Prevalence of responsible research practices among academics in the Netherlands. Online via: https://osf.io/preprints/metaarxiv/xsn94.

Groote, I. de, Flink, L.G., Abbas, R., Bello, S.M., Burgia, L., Buck, L.T., e.a..(2016). New genetic and morphological evidence suggests a single hoaxer created ‘Piltdown man’, Royal Society of Open Science, 3, 160328.

Hixson, J.R. (1976). The patchwork mouse. Garden City, New York: Anchor Press.

Horowitz, L.M., Alden, L.E., Wiggins, J.S., & Pincus, A.L. (2000). Inventory of Interpersonal Problems. Londen: The Psychological Corporation.

Houwer, J. de, Teige-Mocigemba, S., Spruyt, A., & Moors, A. (2009). Implicit measures: a normative analysis and review. Psychological Bulletin, 135, 347-368.

Ioannidis, J.P.A. (2005). Why most published research findings are false. PLoS Med, 2, e124.

Jarus, O. (2018). Famed archaeologist ‘discovered’ his own fakes at 9000-year-old settlement. Online via: https://www.livescience.com/61989-famed-archaeologist-created-fakes.html

Kahneman, D. (2012). A proposal to deal with questions about priming effects. Nature. Online via: https://www.nature.com/polopoly_fs/7.6716.1349271308!/suppinfoFile/Kahneman%20Letter.pdf.

Lilienfeld, S.O. (2012). Public skepticism of psychology: why many people perceive the study of human behavior as unscientific. American Psychologist, 67, 111-129.

Mandelbrot, B. (1967). How long is the coast of Britain? Statistical self-similarity and fractal dimensions. Science, 156, 636-638.

Maniadis, Z., & Tufano, F. (2017). The research reproducibility crisis and economics of science. The Economic Journal, 127, 200-208.

Meganck, R., Desmet, M., Bockting, C., Inslegers, R., Truijens, F., De Smet, M., e.a. (2017). The Ghent Psychotherapy Study (GPS) on the differential efficacy of supportive-expressive and cognitive behavioral interventions in dependent and self-critical depressive patients. Trials, 18, 126.

Meyer, G.J., Finn, S.E., Eyde, L.D., Kay, G.G., Moreland, K.L., Dries, R.R., e.a. (2001). Psychological testing and psychological assessment. American Psychologist, 56, 18-165.

Open Science Collaboration (2015). Estimating the reproducibility of psychological science. Science, 349, aac4716.

Ritchie, S.J., Wiseman, R., & French, C.C. (2012). Replication, replication, replication. The Psychologist, 25, 346-348.

Roediger III, H.L. (2012). Psychology’s woes and a partial cure: the value of replication. The APS Observer, 25.

Rouder, J.N. (2016). The what, why, and how of born-open data. Behavior Research Methods, 48, 1062-1069.

Schwarz, N. (2009). Is psychology based on a methodological error? Integrative Psychological and Behavioral Science, 43, 185-213.

Simonsohn, U. (2012). Just post it: the lesson from two cases of fabricated data detected by statistics alone. Online via: http://ssrn.com/abstract=2114571

Simpson, E.H. (1951). The interpretation of interaction in contingency tables. Journal of the Royal Statistical Society, Series B, 13, 238-241.

Stevens, J.R. (2017). Replicability and reproducibility in comparative psychology. Frontiers in Psychology, 8, 862.

Souza, I.M.D., & Caitite, A.M.L. (2009). The amazing story of the fraudulently cloned embryos and what it tells us about science, technology, and the media. Historia Scientias Saude-Manguinhos, 17, 471-493.

Thom, R. (1991). Prédire n’est pas expliquer. Paris : Champs sciences, Editions Eshel.

Toomela, A. (2007). Culture of science: strange history of the methodological thinking in psychology. Translated by Roy Lisker (IHES edition, 2010), P. 92. Integrative Psychological and Behavioral Science, 41, 6-20.

Vanheule, S., Desmet, M., & Rosseel, Y. (2006). The factorial structure of the Dutch translation of the Inventory of Interpersonal Problems: A test of the long and short versions. Psychological Assessment, 18, 112-117.

Vogel, G. (2011). Psychologist accused of fraud on ‘astonishing scale’. Science, 334, 579-579.

Wagoner, B. (2007). Overcoming psychology’s methodology: finding synthesis beyond the American and German-Austrian division. Integrative Psychological and Behavioral Science, 41, 60-74.

Abstract

What is objectivity?
Reflections on the measurement problem in psychology.

The replication crisis that erupted in 2005 exposed a series of profound methodological problems in psychology. Nearly two decades later, it doesn’t look like these problems have been resolved. Psychological research is still very limited in its ambition to be objective. A fundamental questioning of the research methods is necessary – What is objectivity? This article argues that psychology, in its pursuit of objectivity, focuses too one-sidedly on the metric description of psychological characteristics in samples. If psychology really wants to overcome its methodological crisis, it will have to measure differently, be more open to other forms of description (i.e. description through words, images, formulas), pay more attention to the single case as unit of analysis and objectivity should also be interpreted as the ability to resonate with the object being studied (rather than seeing objectivity merely as the striving to eliminate the influence of the studying subject). Finally, the methodological crisis is placed in a broader perspective and seen as a manifestation of the limits of the Enlightenment tradition.

Mattias Desmet is hoogleraar klinische psychologie aan de Universiteit van Gent en psychoanalytisch psychotherapeut. E-mail n Mattias.Desmet@UGent.be

Leerdoelen

Na het lezen van dit artikel:

kunt u zich concreet voorstellen waarom metingen en cijfers zelden echt objectief zijn;
begrijpt u dat metingen en cijfers altijd geconstrueerd worden vanuit een set van subjectieve voorkeuren en overtuigingen;
ziet u de noodzaak om kritisch na te denken over psychologische onderzoeksmethoden;
ziet u dat er op dit moment een kloof gaapt tussen de psychotherapeutische praktijk en de academisch psychotherapieonderzoek;
voelt u beter aan dat onze cultuur gevangen zit in een misleidend streven naar objectiviteit.

Naar boven