Den evidensbaserade skolan – en chimär!

2 juni, 2012 kl. 12:41 | Publicerat i Education & School, Theory of Science & Methodology | 2 kommentarer

Det går ett monster fram över det svenska utbildningssystemet – utvärderings-och-evidensbaserings-monstret. Med ökad betoning av resultatstyrning följer en strid ström av krav på att redovisa kvalitet och resultat. För att mätta makthavarnas hunger efter utvärderingsinformation tvingas skolan avsätta mer och mer resurser och tid för denna verksamhet. I stället för att lita på lärares professionella kompetens kräver den nya väckelserörelsens proselyter att vi ska kunna visa upp evidensbaserade framgångsrecept. Portfolios, utvecklingsplaner, kvalitetsredovisning, obligatoriska kursvärderingar m m tar numera upp en stor del av lärares och skoladministratörers arbetstid.

Detta är djupt problematiskt. Dels därför att utvärderingshysterin i många avseenden är direkt kontrafinal – den motverkar sitt eget kvalitet- och effektivitetssyfte. Och dels därför att det realiter inte finns någon genuint fungerande evidensteori som kan åberopas när vi delibererar om hur våra utbildningssystem och policy bör se ut. De studier och teoriansatser som anförs saknar trovärdiga broslagningsprinciper från evidens till konklusion och är ofta så allmänt hållna att de helt saknar möjlighet att ge detaljerade anvisningar för hur vi ska uppnå framgång och excellens. Svensk skola hade tjänat på om dess huvudsakliga verksamhetsföreträdare främst ägnade sig åt kärnverksamheten att hjälpa unga människor lära sig saker och inte åt evidensbaserade utvärderingar med tvivelaktigt värde.

Sedan ett tiotal år tillbaka har evidensbasering gjort sitt intåg i skolvärlden. Tanken är att skolan ska ta till sig och omsätta vad beprövad vetenskap visar fungera bra. Den metod som oftast lyfts fram som den mest tillförlitliga – ”the gold standard” – är så kallade RCT – ”randomized controlled trials” – som är randomiserade studier av den typ som man exempelvis arbetat med inom klinisk medicin sedan flera decennier tillbaka.

Ett av problemen med den ansats som lyfter fram och ger en privilegierad status åt RCT är att den nästan aldrig ställer den viktiga frågan om extern validitet. Tvärtemot vad förespråkarna genomgående vill ge sken av, så svarar inte de randomiserade studier som ligger till grund för evidensbaseringen på frågan ”Vad fungerar?”. Vad de möjligen kan ge svar på är frågan ”Vad fungerar i genomsnitt här?”. Om det som fungerade i A också visar sig fungera generellt eller här i B är en helt annan fråga. Att något fungerar i genomsnitt är också många gånger av litet värde, eftersom vi ofta är mer intresserade av om det fungerar för oss (en behandling som innebär att 49% dör och 51% får bättre liv är i de flesta sammanhang ingen god prima facie grund att göra policyval utifrån, även om förväntningsvärdet är ”positivt”). Så när skolverksrepresentanter påstår sig åberopa att ”det här har forskningen sett är gynnsamt” (se Pedagogiskt Magasin maj 2012) så stämmer detta inte alls i en strikt vetenskaplig mening.

Här behövs en ”exportlicens” för att vi ska kunna bedöma om studier baserade på en population går att överföra till en annan population. Kruxet är att ju ”säkrare” resultaten är av RCT (och de flesta andra liknande metoder), ju mer har man oftast också fått ”rigga” experimentsituationen och noga valt ut undersökningspopulationen, vilket i sin tur innebär att målpopulationen – där man avser implementera den nya policyn, betygssystemet, pedagogiken etc – med stor sannolikhet skiljer sig på avgörande punkter från undersökningspopulationen och de stickprov man tar ur denna när man genomför en RCT.

En av randomiseringsansatsens främsta förespråkare – Guido Imbens – skrev i ett försvar av RCT för ett par år sedan:

Formally, as shown originally by Fisher (1925), randomization allows the researcher to precisely quantify the uncertainty associated with the evidence for an effect of a treatment. Specifically, it allows for the calculation of exact p-values of sharp null hypotheses. These p-values are free of assumptions on distributions of outcomes, assumptions on the sampling process, or assumptions on interactions between units, solely relying on randomization and a sharp null hypothesis. No other design allows for this. Now this is strictly speaking a very narrow result, with subtle extensions to more interesting questions. We can establish the presence of a causal effect through the calculation of p-values, but we cannot estimate the average effect without some additional assumptions. Unless we rule out interactions, the average effect depends on assignments to other individuals and thus needs to be defined carefully. [Min kursiv]

Men som jag tidigare berört (t ex här) är ett av de stora problemen med RCT att de genom själva tillvägagångsättet – randomiseringen – så att säga blundar för alla de interaktioner som föreligger mellan olika variabler i studierna. Och inte nog med det. Randomiseringen i sig gör att forskaren inte behöver känna till vilka dessa är för att göra en effektivitetsmätning. Men när resultaten ska exporteras och dessa interaktioner kanske ser helt annorlunda ut, kan de resultera i att effekterna blir fullständigt omkullkastade (för ett belysande exempel på detta se Nancy Cartwrights analys av internationella biståndsprojekt här).

Till grund för RCT ligger att man (givet ett antal förenklande antaganden som vi inte ska problematisera här) kan beskriva den underliggande kausala principen för implementering av policy/åtgärdsprogram av olika slag på följande vis:

Yi <= Ai + A2Y0i + A3BiXi + A4Zi,

där <= betecknar en kausal orsaksverkan från högerledskvantiteterna på vänsterledskvantiteten, Yi är utfallet, Xi är policyvariabeln, Ai är konstanter som anger hur stor den effekt de efterföljande variablerna har på Yi är, Yoi är utfallsvariabelns ”basnivå” för i, Bi är alla de olika faktorer som bidrar till att Xi kausalt ger upphov till en effekt på Yi, Zi representerar alla andra faktorer som utöver Xi additivt bidrar till att påverka Yi.

Låt oss anta att man i ett RCT (med för enkelhetens skull antagna homogena individeffekter som gör at vi här kan bortse från variabelindexeringen över individenheterna) visat att om man implementerar X (mindre skolklasser) så blir det förväntade utfallet Y (bättre betyg), men att man inte känner till att den obekanta variabeln B (engagerade och kompetenta lärare) interagerar med variabeln X. Om man lyckats genomföra en perfekt randomisering kommer fördelningen av B vara densamma i försöks- och kontrollgrupperna – men då  ”maskeras” också B:s inverkan på Y och tillskrivs helt och hållet i stället X. Som numera är väl bekant leder detta många gånger till att försök med mindre skolklasser inte alls fått de positiva effekter man förväntat sig, därför att den kausala kraften inte är mindre klassrum utan interaktionseffekten av mindre klassrum och engagerade och kompetenta lärare. Istället för att se att det verkliga kausala sambandet är Y <= BX, så förleds man tro att det är Y <= X. Man förväxlar att X är en nödvändig orsak till Y med att det är en tillräcklig orsak till Y (vilket i samhälleliga sammanhang nästintill aldrig är fallet). Med den förödande effekten att man kanske är helt okunnig om att det är B som är den helt avgörande faktorn och a fortiori är det man borde satsa på och inte X!

Till denna invändning kan man också lägga att förespråkarna till RCT genomgående utan att anföra några som helst vägande argument också rakt upp och ner bara antar att variabler är linjärt relaterade till varandra, adderbara, ”oberoende” etc. Även om detta gör modellerna mer hanterbara är det inget argument för att de på något avgörande vis avspeglar faktiska förhållanden. Med andra ord: ”garbage in, garbage out”.

Guido Imbens hävdar i den ovan citerade artikeln att en enskild RCT sällan direkt svarar på de frågor vi är intresserade av, men att

having a variety of estimates, with a range of populations, and a range of identification strategies, can be useful to policy makers even if none of the individual studies directly answers the policy question of interest … The combination of several such studies, based on different populations and in different settings, can give guidance on the nature of interventions that work. 

Även om jag delar Imbens uppfattning att multipla experiment kan bidra till att öka trovärdighet i RCTs exportlicens, kvartstår ändå min invändning (som även andra RCT-kritiker som Angus Deaton, Nancy Cartwright och James Heckman fört fram):  även om randomisering kan vara ett utmärkt sätt att neutralisera bakomliggande variabler (”confounders”) så kommer det till ett högt pris – det gör oss ouppmärksamma på att det kan finnas andra interagerande och bakomliggande faktorer som skapar en interaktionseffekt. Utan dessa (B) blir effekten av behandlingen (X) mindre eller uteblir kanske helt.

I bästa fall är evidensbasering som bygger på randomisering oskadligt. I värsta fall fullständigt vilseledande och med katastrofala följder.

2 kommentarer

  1. Var står vi utan utvärderingsinsatser? Jo, i ett träsk fyllt av egenproducerade idéer om hur undervsning ska gå till, bekräftade av den egna erfarenheten, dvs det som ofta i blomsterspråket kallas ´beprövad erfarenhet´. För min del anser jag det bättre att förfina utvärderingsinstrumenten i stället för att kasta dem i soptunnan. Föraktet för evidensprövnng är symptomatiskt för flummiga ansatser i skola, socialt arbete och kliniskt arbete. Skälet är att man har svårt att visa på resultat.

    • Bertil, kan du inte läsa artikeln en gång till? Jag förespråkar, som du nog redan vet, verkligen inget flum i skolan. Däremot tror jag det är farligt om man tror sig ha säker grund för policyförslag som realiter baserar sig på evidens som i själva verket inte är applicerbara i den kontext där de är tänkta att implementeras. Att påpeka detta är väl ändå inte rimligen att betraktas som flum, eller?


Sorry, the comment form is closed at this time.

Blogga med WordPress.com.
Entries och kommentarer feeds.