Randomization is a poor substitute for real science

3 July, 2012 at 18:00 | Posted in Statistics & Econometrics, Theory of Science & Methodology | 1 Comment

In our days, serious arguments have been made from data. Beautiful, delicate theorems have been proved, although the connection with data analysis often remains to be established. And an enormous amount of fiction has been produced, masquerading as rigorous science …

Indeed, far-reaching claims have been made for the superiority of a quantitative template that depends on modeling – by those who manage to ignore the far-reaching assumptions behind the models. However, the assumptions often turn out to be unsupported by data. If so, the rigor of advanced quantitative methods is a matter of appearance rather than substance …

Fisher’s “constitutional hypothesis” explained the association between smoking and disease on the basis of a gene that caused both. This idea is refuted not by making assumptions but by doing some empirical work.

David A. Freedman Statistical Models and Causal Inference



Vad är det som är så speciellt med ramdomiserade studier (”randomized controlled trials,” RCT)? Bland de forskare som förspråkar RCT framhålls ofta att införandet av en ny policy/åtgärdsprogram – betygssystem, skatter, medicinsk behandling, fattigdomsbekämpning m m – ska vara väglett av bästa möjliga evidens och att RCT tillhandahåller just detta. En ideal RCT bevisar att detta åtgärdsprogram kausalt bidrog till ett visst utfall, i en viss grupp, i en viss population. Om villkoren för en ideal RCT är uppfyllda följer med deduktiv nödvändighet att åtgärdsprogrammet kausalt medverkade till utfallet hos åtminstone några av enheterna i studien. Själva undersökningens design borgar för att undersökningsresultaten är tillförlitliga utan att man behöver explicitgöra kausala bakgrunds- och stödfaktorer. Randomiseringen garanterar att dessa bakgrunds-och stödfaktorer är ”lika-fördelade” för både ”behandlingsgruppen” och ”kontrollgruppen”, vilket gör att man inte behöver känna till vilka dessa kausala bakgrunds- och stödfaktorer är. Man behöver inte ens känna till om de över huvud existerar.

Till grund för RCT ligger att man (givet ett antal förenklande antaganden som vi inte ska problematisera här) kan beskriva den underliggande kausala principen för implementering av policy/åtgärdsprogram av olika slag på följande vis:

Yi <= Ai + A2Y0i + A3BiXi + A4Zi,

där <= betecknar en kausal orsaksverkan från högerledskvantiteterna på vänsterledskvantiteten, Yi är utfallet, Xi är policyvariabeln, Ai är konstanter som anger hur stor den effekt de efterföljande variablerna har på Yi är, Yoi är utfallsvariabelns ”basnivå” för i, Bi är alla de olika faktorer som bidrar till att Xi kausalt ger upphov till en effekt på Yi, Zi representerar alla andra faktorer som utöver Xi additivt bidrar till att påverka Yi.

Här föreligger som bekant många olika källor till felbedömningar när vi utifrån denna kausalmodell ska implementera en policy. Robert Lucas visade på 1970-talet i flera ekonometrikritiska artiklar hur tron att man kan påverka Xi för att ändra utfallet Yi kan slå fel, genom att implementeringen påverkar den föregivet stabila underliggande kausala strukturen (här främst representerade av Bi och Zi). Xi interagerar med andra variabler på ett sätt som kan innebära att policyimplementeringen de facto ger upphov till en ny struktur där de tidigare föreliggande relationerna helt enkelt inte längre (oförändrat) är för handen.

I normalfallet är de ansvariga för policyförändringar i första hand intresserade av vad förändringen i genomsnitt bidrar med i utfallet i den studerade populationen. Förutsättningarna för att kunna göra en sådan bedömning avhänger på ett kritiskt sätt möjligheterna av att på något vis hantera (kontrollera för) interaktionen mellan policyvariabeln och de kausala bakgrunds- och stödfaktorerna.

RCT löser (idealt) detta genom att via randomisering dela in populationen i en behandlingsgrupp och en kontrollgrupp och därigenom mer eller mindre garantera att fördelningen av Yo, Bi och Zi är desamma i dessa båda grupper. Om det efter en (ideal) implementering av den nya policyn föreligger en skillnad i Yi mellan de två grupperna, måste det föreligga en genuin kausal orsak-verkan-relation hos åtminstone någon eller några av de individer som ingår i populationen. Poängen är här alltså att även om vi inte vet vad som ingår i Bi och Zi, så kan vi ändå uttala oss om policy-variabelns inverkan på utfallet i kausala termer.

Låt oss anta att vi har lyckats genomföra en ideal RCT och alltså kan vara säkra på att den enda kausala verkan som föreligger är begränsad till att vara den mellan policyvariabeln X och dess inverkan på utfallsvariabeln Y. Vad vi då har lyckats etablera är att i en specifik undersökt situation, i en viss population, så är den genomsnittliga behandlingseffekten lika med differensen mellan utfallen för behandlings- respektive kontrollgruppen (detta innebär att en behandling kan innebära att många får det mycket ”sämre” och att några få får det ”bättre”, men att det i genomsnitt blir ”bättre”). Behandlingseffekten W kan då skrivas som

W = A3E[Bi](XT – XK),

där E[] är en förväntningsvärdesoperator (genomsnitt) och XT och XK är värdet på behandlingsvariabeln i behandlings- respektive kontrollgruppen.

För vem är detta relevant? Om vi implementerar X här för oss – kan vi verkligen vara säkra på att vi får samma genomsnittliga effekt? Nej. Eftersom E[Bi] är ett genomsnitt över alla de olika faktorer som bidrar till att Xi kausalt ger upphov till en effekt på Yi, måste vi nämligen också veta hur dessa faktorer är fördelade i den nya populationen. Här finns inga som helst a priori skäl att anta att fördelningen av den typen av bakgrunds- och stödfaktorer skulle se likadan ut här hos oss som där för dem i den ursprungliga RCT-populationen.

Detta innebär att man kan ifrågasätta om RCTs är evidentiellt relevanta när vi exporterar resultaten från ”experimentsituationen” till en ny målpopulation. Med andra konstellationer av bakgrunds- och stödfaktorer säger oss den genomsnittliga effekten av en behandlingsvariabel i en RCT troligen inte mycket, och kan därför inte heller i någon större utsträckning vägleda oss i frågan om vi ska genomföra en y policy/åtgärdsprogram eller ej.

RCT borgar helt enkelt inte för att en föreslagen policy är generellt tillämpar. Inte ens om man kan anföra goda skäl för att betrakta policyvariabeln som strukturellt stabil, eftersom stabilitetskravet främst måste gälla BiXi och inte Xi.

Förespråkare för RCT brukar åberopa ett antagande om att målpopulationen måste vara ”lik” den ursprungliga RCT-populationen för att berättiga ”exportlicensen”. Men ett sådant åberopande för oss inte speciellt långt eftersom det sällan specificeras i vilka dimensioner och i vilken utsträckning ”likheten” ska föreligga.

Så även om man lyckats genomföra en ideal RCT, så innebär detta dock inte att man därigenom har några som helst skäl att tro att undersökningsresultaten är externt valida i meningen att de förbehållslöst utgör en broslagning från att det fungerade i population A till att det också kommer att fungera i population B.

När man genomför en RCT ”laddar” man så att säga tärningarna. Men om man ska implementera ett åtgärdsprogram i en annan population än den i vilken RCT genomfördes (kastar andra tärningar) hjälper detta oss föga. Vi måste fråga oss hur och varför fungerar policyn/åtgärdsprogrammet. Att det fungerar i en kontext garanterar inte att det fungerar i en annan kontext, och då kan frågor om hur och varför hjälpa oss en bra bit på vägen att förstå varför ett åtgärdsprogram som fungerar i population A inte fungerar i population B. Inte minst när det gäller sociala och ekonomiska åtgärdsprogram spelar kausala bakgrunds- och stödfaktorer ofta en avgörande roll. Utan kunskap om dessa är det hart när omöjligt att förstå varför och hur ett åtgärdsprogram fungerar – och därför för oss RCT realiter inte så långt som dess förespråkar vill ge sken av.

Att i slutna system eller kliniska experiment anta att man befinner sig i nästintill ideala försöksvillkor låter sig kanske göras, men att i öppna system eller sociala och ekonomiska sammanhang tro sig ha nästintill full kontroll över alla kausala alla bakgrunds- och stödvariabler är oftast just inget annat än en tro. När det då visar sig inte fungera, har vi ingen vägledning av RCT.

Det är som när diskmaskinen slutat fungera hemma i köket. I normalfallet fungerar den problemfritt. Och vi vet att miljontals andra har diskmaskiner som också fungerar. Men när de inte fungerar får vi kalla på en reparatör eller själva undersöka maskinen och se om vi kan hitta felet. Vi försöker lokalisera var i maskineriet det har hängt upp sig, vilka mekanismer som fallerar o s v. Kanske glömde vi bara slå på strömmen. Eller kanske motorn havererat på grund av dålig ventilation och underhåll. I vilket fall som helst hjälper det oss föga att veta att maskinen under ideala förhållanden fungerar. Här måste vi börja tänka själva och inte bara förlita oss på att maskinen brukar fungera när den lämnar produktionsbandet (som ju är konstruerat just för att maskinerna ska fungera). Att tillverkaren gör stickprov för att säkerställa statistiskt acceptabla felmarginaler hjälper inte mig när min maskin ”lagt av”.

Här framgår också skillnaden mellan vad jag kallar att tänka själv och RCT väldigt tydligt. När åtgärdsprogrammet inte visar sig fungera på det sätt RCT gett oss skäl tro, har förespråkarna inget mer att komma med än att kanske föreslå ännu fler RCT. Då är det nog mer framkomligt att tänka själv och fundera över vad som gått fel och inte förlita sig på att fler ideala randomiseringar på något magiskt sätt ska lösa problemet. För det gör de inte. Hur många gånger du än släpper kritan framme vid tavlan så faller den aldrig i golvet om det står ett bord i vägen. Då är det bättre att tänka själv kring varför och hur. Då kan vi flytta bordet och visa att gravitationskraften de facto får kritan att falla till golvet.

RCT kan aldrig utgöra annat än en möjlig startpunkt för att göra relevanta bedömningar av om policy/åtgärdsprogram som fungerat där för dem är effektiva här för oss. RCT är inget trumfkort. Det utgör ingen ”gold standard” för att besvara kausala policy-frågor.
För att kunna ge goda argument för att vad som fungerar där för dem också ska fungera här för oss måste vi ha empiriska evidens och kunskaper om kausala variabler som bidrar till att generera det eftersökta utfallet. I annat fall kan vi inte på ett adekvat sätt bedöma om resultaten i RCT där för dem är relevanta här för oss.

Litteraturtips
Cartwright, Nancy (2007): “Are RCT’s the Gold Standard?”, Biosocieties, 2, 11-20.

Cartwright, Nancy (2011): “Will this Policy Work for You? Predicting Effectiveness Better: How Philosophy Helps”, Presidential Address, PSA 2010. http://www2.lse.ac.uk/CPNSS/projects/orderProject/documents/Publications/CartwrightPSA.pdf

Cartwright, Nancy & Stegenga, Jacob (2011): “A Theory of Evidence for Evidence-Based Policy”, Proceedings of the British Academy, 171, 289-319.

Deaton, Angus (2009): “Instruments of development: Randomization in the tropics, and the search for the elusive keys to economic development”, NBER Working Paper No. 14690. http://www.nber.org/papers/w14690

Freedman, David (2010): Statistical Models and Causal Inference Cambridge University Press.

Leamer, Edward (2010): “Tantalus on the Road to Asymptopia”, Journal of Economic Perspectives, 24, 31–46.

About these ads

1 Comment »

RSS feed for comments on this post. TrackBack URI

  1. Du är medveten om att RCT är just den mest använda metoden i “real science”?

    Oavsett, om “randomisation is a poor substitute for real science”, vad är då “real science”? Och har du underrättat CERN så att de kan ändra sina procedurer?


Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

Blog at WordPress.com. | The Pool Theme.
Entries and comments feeds.