gerandomiseerd gecontroleerd onderzoek (RCT)

Laatst bijgewerkt op 756 dagen geleden door Hadewych

Angus Deaton, Nancy Cartwright, Understanding and misunderstanding randomized controlled trials, 2016

 

Randomized controlled trials (RCT’s) worden beschouwd als de beste methode om effecten te meten. Doordat er nogal wat misverstanden bestaan over RCT’s worden vaak verkeerde conclusies getrokken, en dat kan weer leiden tot onjuiste toepassing in overheidsbeleid.

In een RCT wordt een steekproef uit een bepaalde (doel)populatie getrokken en random verdeeld in een behandel- en een controlegroep. De behandelgroep krijgt een behandeling/stimulus/maatregel, de controlegroep niet. Het gedrag van beide groepen wordt gemeten; en het gemiddelde ‘effect’ of gedrag van beide groepen wordt vergeleken. Als de behandelgroep gemiddeld méér gedrag vertoont dan de controlegroep, wordt geconcludeerd dat dat het effect is van de behandeling.

RCT’s zijn niet de enige en vaak ook niet de beste onderzoeksmethode. Juist het theorievrije aspect ervan vormt een nadeel bij de toepassing van onderzoeksresultaten buiten de context van het onderzoek.

De misverstanden over RCT’s die in het artikel worden behandeld, zijn:

  1. De behandelde groep en de controlegroep zouden enkel van elkaar verschillen met betrekking tot de behandeling (het beleid, de maatregel, de stimulus).
  2. RCT’s zouden heel precieze inschattingen van gemiddelde effecten opleveren (en niet alleen onbevooroordeelde).
  3. Randomisatie zou noodzakelijk zijn om selectieproblemen op te lossen.
  4. Het zou geen probleem zijn dat er in sociaal-wetenschappelijke onderzoeken zelden (dubbel)blind wordt behandeld.
  5. Statistische analyse in RCT’s zou eenvoudig zijn waardoor standaard significantietesten betrouwbaar zouden zijn.
  6. RCT’s zouden een theorievrije en daarmee aannamevrije vorm van onderzoek zijn. Dankzij het gebrek aan aannames zouden de conclusies ‘objectief’ zijn.
  7. De causale relatie tussen behandeling en effect die in een RCT gevonden wordt zou zonder meer generaliseerbaar zijn naar bredere doelgroepen dan alleen de onderzochte groep.
  8. Onderzoeksuitkomsten zouden gelden voor individuele onderzoekseenheden.

RCT

De methode van RCT (gerandomiseerd gecontroleerd steekproefonderzoek) gaat er van uit dat het gemiddelde effect van een behandeling gelijk is aan de gemiddelde uitkomst in een behandelde groep minus de gemiddelde uitkomst in een controlegroep. Daarbij worden de behandelde groep en de controlegroep verondersteld identiek te zijn (gecontroleerd) met betrekking tot alle relevante factoren. Die veronderstelling kan worden gemaakt doordat beide groepen niet selectief maar juist willekeurig zijn bepaald: a-select wordt bepaald of een onderzochte persoon in de behandelgroep of de controlegroep terecht komt.

Op basis van RCT’s worden schattingen van het gemiddelde behandeleffect gemaakt. Een steekproef levert nooit een complete meting op, maar altijd een schatting; voor een meting moet de hele populatie worden onderzocht. Zo’n schatting wordt uitgedrukt in de mate van waarschijnlijkheid (zekerheid) dat de gevonden uitkomst het effect is van de behandeling, en niet van iets anders.

Met RCT’s kan je wel een schatting maken van het gemiddelde behandeleffect, maar niet van de mediaan (de waarde die de helften scheidt), de modus (de waarde die het vaakst voorkomt) of de verdeling van effecten (zijn de effecten geclusterd, gelijkmatig verspreid of misschien asymmetrisch verdeeld?). Ook over de variantie (hoe veel verschillen de effecten tussen verschillende individuen? Wat zijn de grootste en de kleinste waarden?) weet je nog niks als je een RCT hebt uitgevoerd.

Mediaan, modus, verdeling en variantie kunnen wel van belang zijn voor beleidsmakers. Neem bijvoorbeeld een maatregel die een asymmetrisch effect heeft: bij sommige burgers is het effect heel groot, maar bij de meeste burgers is er nauwelijks effect. Het gemiddelde effect kan dan bijna nul zijn, zodat de beleidsmakers met alleen een RCT niet zullen zien dat ze wel degelijk een effectieve maatregel hebben.

Samenstelling steekproef

Unbiased is niet hetzelfde als precies. Unbiased betekent dat er geen systematische vertekening in de uitkomsten is. Precies betekent dat de uitkomst van een steekproef zo dicht mogelijk bij de uitkomst van een meting ligt, dus zo dicht mogelijk bij de werkelijkheid. Een onderzoeksresultaat kan heel precies zijn en toch biased, en andersom kan ook: nauwelijks bias maar ver van de werkelijkheid. Dat komt omdat bias gaat over het systematisch vergissen.

Randomisering voorkomt bias, juist doordat onderzochte individuen willekeurig, dus niet systematisch/selectief, aan de behandel- of controlegroep worden toegewezen. Maar wat randomisering niet automatisch doet, is ervoor zorgen dat beide groepen identiek zijn voor wat betreft alle relevante kenmerken. Zodra je steekproeven trekt uit de gehele populatie, kunnen er toevallige afwijkingen van die totale populatie in je steekproef komen. Die afwijkingen kunnen van invloed zijn op de uitkomsten. Als het je lukt om ervoor te zorgen dat relevante afwijkingen in beide groepen, de behandelgroep en de controlegroep, identiek zijn, heb je een gecontroleerde ofwel evenwichtige steekproef gemaakt. Als het niet lukt om een gecontroleerde steekproef te maken, maar als je wel weet op welke kenmerken de controlegroep en de behandelgroep van elkaar verschillen, dan kan je daar achteraf in je analyse voor corrigeren – je berekeningen uitvoeren op zo’n manier dat je rekening houdt met die verschillen, zodat je zeker weet dat de uitkomsten aan de behandeling zijn toe te schrijven in plaats van zulke verschillen in kenmerken (selectie-effecten).

Daarvoor moet je wel weten welke afwijkingen van de totale populatie van invloed zouden kunnen zijn, dus er is wel degelijk theorie nodig. Bovendien moet je specificeren wie de totale populatie eigenlijk is: alle mensen op aarde, alle personen die zich op 2 december 1995 in Amsterdam bevonden, of een andere specificatie? De steekproeven moeten wel uit díé populatie worden getrokken.

Om ervoor te zorgen dat de behandelgroep en de controlegroep echt identiek zijn kunnen individuen in de twee groepen met elkaar worden gematcht. Vooraf wordt dan bepaald welke kenmerken mogelijk van invloed zouden kunnen zijn op de uitkomsten (theorie!). Als je bijvoorbeeld denkt dat geslacht een relevante variabele is, dan wil je niet dat je behandelgroep voornamelijk uit mannen en je controlegroep voornamelijk uit vrouwen bestaat. In zo’n geval worden de groepen gematcht voor geslacht: in beide groepen wordt de verhouding tussen mannen en vrouwen gelijk getrokken. De steekproef is dan dus niet meer volledig gerandomiseerd, maar er zijn wel methoden om maximale randomisatie te verzekeren.

De matching is echter wel afhankelijk van de kwaliteit van de theorie. Het is ook heel moeilijk, zeker als verschillende kenmerken effect op elkaar hebben of alleen in bepaalde combinaties effect op de uitkomst. Het kan ook nog zo zijn dat de behandeling alleen maar werkt als er bepaalde kenmerken aanwezig zijn – dat maakt een goeie theorie wel erg belangrijk (om te weten welke kenmerken relevant zijn).

Perfecte matching betekent dat de effecten van allerlei andere variabelen dan de behandeling misschien wel optreden, maar mooi tegen elkaar kunnen worden weggestreept. Als er dan een verschil gevonden wordt tussen de behandelgroep en de controlegroep, kan worden geconcludeerd dat dat verschil veroorzaakt wordt door de behandeling (want dat is dan nog het enige overblijvende verschil tussen beide groepen).

Afwijkingen van de ‘echte’ waarden in de hele populatie

Steekproeven zijn meer of minder representatief voor de hele populatie, maar ze zijn niet identiek. Bovendien kunnen behandelgroep en controlegroep op relevante punten van elkaar verschillen (zie hierboven). Beide leveren fouten in de conclusies van onderzoek gebaseerd op RCT’s op, maar alleen de eerste fout – de afwijkingen van de steekproef ten opzichte van de hele populatie – is te berekenen. Tenminste, de waarschijnlijkheid dat er een fout is, en hoe groot die fout dan zal zijn. Zo’n berekening is de standaardfout of standaard afwijking en die wordt gebaseerd op de grootte van de steekproef. Omdat het om een statistische berekening (voorspelling) gaat, die dus iets zegt over de waarschijnlijkheid, weet je alleen hoe groot de kans is dat er een verschil is tussen de uitkomsten in het onderzoek en de werkelijke effecten in de hele populatie.

De onderzoeker geeft vooraf aan hoe groot de afwijking wat hem betreft mag zijn om nog te kunnen concluderen dat een uitkomst van onderzoek hetzelfde is als in het echt, en hoe groot de kans mag zijn dat hij er alsnog naast zit. Dit krijgt meestal de vorm dat “met 95% zekerheid…” of “met 98% zekerheid…) is vastgesteld dat de uitkomsten gerelateerd zijn aan de behandeling/stimulus/maatregel.

Bij sociaal-wetenschappelijke RCT’s, bijvoorbeeld voor beleidsevaluatie, weten de onderzochte personen of ze wel of geen behandeling krijgen. Zulk onderzoek kan dan ook zelden blind, dubbelblind (onderzochte en behandelaar weten niet of de maatregel wordt toegepast), of viervoudig blind (ook onderzoekers en data-analisten weten niet op wie de maatregel wel en op wie die niet is toegepast) worden uitgevoerd. Die kennis kan het gedrag van mensen, en daarmee de uitkomsten, beïnvloeden. Het kan ook invloed hebben op de selectie van personen die wel of geen behandeling krijgen, of de manier waarop de behandeling wordt uitgevoerd. Tenslotte kan het ook invloed hebben op de interpretatie van de uitkomsten, zeker als daar een element van beoordeling in zit.

Vaak is er sprake van zelfselectie van mensen die meedoen aan een steekproef, en vervolgens weer van mensen die voortijdig afhaken uit de behandelgroep of mensen uit de controlegroep die buiten het onderzoek om alsnog zorgen dat ze de behandeling wel krijgen. Dat maakt dat de steekproef bijna per definitie afwijkt van de gehele populatie, zodat uitkomsten uit het onderzoek niet automatisch waar zijn (‘representatief’) voor de hele populatie.

Causaliteit en toeval

Met een RCT kunnen wel met een zekere mate van waarschijnlijkheid conclusies worden getrokken over de causaliteit van een relatie: een goed uitgevoerde RCT kan aannemelijk maken dat een bepaalde behandeling/maatregel/stimulus geleid heeft tot de waargenomen uitkomst in de steekproef. Vanwege het verschil tussen de steekproef en de gehele populatie kan niet worden geconcludeerd dat die causale relatie voor iedereen geldt.

De slag om de arm van ‘een zekere mate van waarschijnlijkheid’ gaat over toeval. Mensen , gebeurtenissen en gedragingen zijn zo verschillend dat zelfs irrelevante factoren tot verschillende uitkomsten kunnen leiden. Er kan dan wel een correlatie en zelfs causaliteit lijken te zijn, maar in werkelijkheid speelt de onderzochte factor (behandeling/maatregel/stimulus) helemaal geen rol. Hoe ruimer het zekerheidsinterval dat een onderzoeker kiest, hoe groter de kans dat de conclusies er naast zitten.

Als je helemaal geen theoretische basis hebt, en je alleen maar kijkt naar een verschil van de gemiddelde uitkomst in een behandelgroep ten opzichte van de gemiddelde uitkomst in een controlegroep, weet je niet of er misschien andere factoren een rol hebben gespeeld dan de behandeling.

Argumenten tegen randomisering

  • In RCT’s wordt alle bestaande kennis en informatie genegeerd. In plaats van selectief te onderzoeken hoe bepaalde groepen reageren op een maatregel, en expliciet mensen in verschillende onderzoeksgroepen in te delen op basis van aannames over al dan niet relevante kenmerken, wordt juist iedereen willekeurig bij een behandel- of controlegroep ingedeeld. Op die manier wordt er geen kennis opgebouwd op basis van eerder aangetoonde verbanden en mechanismen, en dat betekent een verspilling van middelen en vage schattingen van effecten.

Alleen als de voorafgaande kennis of theorie niet vertrouwd wordt is een RCT de betere keuze.

  • Randomisering is geen noodzakelijke voorwaarde voor het elimineren van selectiebias. Iedere onderzoeksmethode waarbij er geen vrijheid is om mensen in een behandel- of controlegroep in te delen op basis van verborgen maar wel relevante criteria, is goed.
  • RCT’s kunnen onethisch zijn als aan de controlegroep voordeel onthouden wordt, of als de behandelgroep nadelen of risico’s ondervindt bijvoorbeeld.
  • RCT’s geven informatie over gemiddelden, en gemiddelden zijn erg gevoelig voor extreme gevallen. De onderzoekers moeten een methode kiezen om met extremen om te gaan (ze kunnen ze weglaten, of verklaren, of andere onderzoeksmethoden toepassen om na te gaan of de extremen iets over de verdeling en variantie zeggen of niet). Dergelijke keuzes zullen worden gebaseerd op theorie: op aannames, voorafgaande kennis of op modellen van de werkelijkheid.

Voor beleidsevaluatie kunnen extreme waarden juist erg relevant zijn, zeker als de verdeling van uitkomsten erg asymmetrisch is.

Generaliseerbaarheid

Een belangrijke waarde van wetenschappelijk onderzoek is externe validiteit, de mate waarin de waarden van het onderzoek ook in het echt voorkomen. Volgens de auteurs van het artikel wordt externe validiteit onterecht als synoniem voor generaliseerbaarheid beschouwd. Ze geven twee redenen:

  1. De resultaten van een RCT komen tot stand onder bepaalde condities, en zonder met die condities rekening te houden mag je niet zomaar extrapoleren naar de hele (doel)populatie.
  2. De individuele eenheden (mensen, gezinnen of organisaties bijvoorbeeld) kunnen heel verschillend reageren op de behandeling/stimulus/maatregel, ze zullen allemaal van het gemiddelde afwijken, terwijl het gemiddelde de ‘uitkomst’ van een RCT is die wordt gegeneraliseerd.

Om dat laatste te verduidelijken halen ze Bertrand Russell’s kip aan, die op basis van een grote N heeft vastgesteld dat als de boer naar de kippenren komt, zij even later voer in haar bakje vindt. Helaas komt de boer op kerstochtend naar de ren om haar de nek om te draaien.

De kip zag terecht een causale relatie tussen de komst van de boer en haar gevulde voerbakje, maar causaliteit is niet hetzelfde als generaliseerbaarheid. Om te kunnen generaliseren moet je ook begrijpen hoe iets werkt, waarom de oorzaak tot het gevolg leidt: theorie.

Meerwaarde van RCT

  • Een RCT kan een algemene theoretische veronderstelling ontkrachten door een tegenvoorbeeld te bieden.
  • Een RCT kan een voorspelling van een theorie bevestigen en daarmee bewijs ten gunste van de theorie leveren.
  • Een RCT kan proof of concept leveren: laten zien dat een behandeling in principe tot bepaalde uitkomsten kan leiden.
  • Als de onderzochte groep een goeie, unbiased steekproef uit de totale populatie is kan een RCT een goeie schatting van het gemiddelde behandelingseffect in de totale populatie opleveren.

Toepassen van RCT-resultaten in beleid

Over het algemeen heb je voor goeie ‘wat werkt’-kennis voor beleid meer nodig dan alleen de resultaten van een RCT. Er is meestal kennis nodig op basis van een veelheid aan empirische studies, waaronder observatie-onderzoek. Niet alleen moet worden bepaald welke kenmerken van de populatie relevant zijn, ook moet worden aangegeven in hoeverre de steekproef kwa relevante kenmerken overeenkomt met de gehele populatie (in hoeverre is de steekproef ‘representatief’?). Om bruikbaar te zijn buiten de onderzoekssituatie is kennis nodig over hoe het werkt, de gedragsmechanismen, bijvoorbeeld op basis van de praktijkkennis van beleidsmakers en inspecteurs. Tenslotte moeten er inhoudelijke verklaringen worden gezocht voor verschillen in resultaten tussen RCT’s en observatie-onderzoek, en niet alleen methodologische verklaringen van het soort ‘RCT’s zijn betrouwbaarder’. Tenslotte moet er rekening mee worden gehouden dat de uitkomsten van een RCT weliswaar directe effecten van een behandeling kunnen zijn, maar dat de effecten op de langere termijn of op een grotere schaal mogelijk heel anders zijn.

Een voorbeeld van schaalverschillen:

Uit onderzoek blijkt dat boeren die kunstmest toepassen een hogere opbrengst van hun gewas genereren, en dat daardoor hun inkomsten stijgen.

Als echter alle boeren meer gewasopbrengsten genereren dankzij het gebruik van kunstmest, daalt de prijs voor dat gewas en mogelijk ook de inkomsten van de boeren.

Nog meer mitsen en maren met betrekking tot de toepassing van RCT-resultaten:

  • Subjecten kunnen (leren) zich aan de maatregel te onttrekken
  • RCT-onderzoek wordt vaak gebruikt om financiële kosten en baten te onderzoeken, in plaats van de gevolgen van een maatregel voor subjecten. Kosten-batenonderzoek biedt geen antwoord op de vraag of een maatregel geschikt is om toe te passen.

Hoe werkt iets?

Er is al heel veel bekend over ‘wat werkt’, maar daarmee gebeurt het nog niet vanzelf. Technische kennis is zinvol, maar kan alleen worden toegepast als er geschikte instituties zijn om kennis in beleid om te zetten.

Verder een informatief artikel over spurious relations van r-bloggers (ook over how to lie with statistics). Hierin ook een link naar de beroemde pagina van Tyler Vigen over correlaties zonder theoretisch verband.

Reageren is alleen mogelijk voor aangemelde gebruikers