Dum och dummare i DN om skolkonkurrens och friskolor

13 Jan, 2014 at 21:44 | Posted in Education & School | Comments Off on Dum och dummare i DN om skolkonkurrens och friskolor

2011-10-26-dumb_and_dumber-533x299
 
Gabriel Heller Sahlgren, Philip Booth och Henrik Jordahl skriver idag på DN:s debattsida apropå Pisarapporten:

I början av december förra året uppdagades att svenska elever fortsätter att falla som stenar i den internationella undersökningen Pisa … I debatten hörs samtidigt krav på att vi bör anamma ett tillvägagångssätt av ”best practice” och kopiera framgångsrecept från andra länder …

Till grund för förslagen ligger ofta ett kapitel i OECD:s Pisarapport som sägs förklara varför vissa utbildningssystem presterar bättre än andra. Detta kan synas rimligt. För nog borde rapporten som rankar länderna även ha svar på vad som förklarar deras framgångar och misslyckanden?

Men tyvärr är det inte så enkelt. Kapitlet i fråga består i stort sett av enkla korrelationsanalyser. Men bara för att det finns ett statistiskt samband behöver det inte finnas ett orsakssamband. Detta påpekas också av författarna … För att avgöra vad som orsakar vad krävs långt bättre metoder än de som används i OECD:s rapport.

Ett exempel på hur fel det kan bli gäller skolvalets och konkurrensens effekter. I Pisarapporten läser vi att det inte finns någon relation mellan länders resultat och andelen elever i fristående skolor. Samma slutsats dras av Andreas Schleicher, vice chef för utbildningsfrågor vid OECD, som nyligen hävdade att avsaknaden av en sådan relation visar att konkurrens inte ökar elevers prestationer. Svenska pedagoger och debattörer på vänsterkanten har tagit ett steg längre och hävdat att skolvalet ligger bakom kunskapsfallet i internationella undersökningar. En av dessa är Magnus Oskarsson, projektledare för Pisa i Sverige, trots att huvudorganisationen OECD alltså inte finner något stöd för detta.

Samtidigt motsägs båda dessa påståenden av den nationalekonomiska skolforskningen … Forskningsmetoderna som används är inte helt invändningsfria, men de är långt mycket bättre än de som används i OECD:s egna analyser.

Varför fortsätter då debattörer och politiker att hänvisa till OECD-rapporten och hög- och lågpresterande länders särdrag i sina förslag till reformer? En anledning är att de troligtvis inte vet bättre. Analyser av forskning kräver först och främst en förståelse för vad som är bra och vad som är dåligt – och rigorösa studier, i nationalekonomi och andra ämnen, är tyvärr inte speciellt lättfattliga.

Samtidigt tar det också tid att fördjupa sig i vad många anser vara tråkiga och komplicerade analyser av data. Det går snabbare och är roligare att läsa enkla beskrivningar av resultaten och titta på grafer än att studera metodologi och regressionstabeller. Men det senare är nödvändigt för att komma åt orsakssambanden.

Låt mig börja med att slå fast att jag helt delar debattörernas uppfattning vad avser våra begränsade möjligheter att dra kausala slutsatser utifrån rena korrelationer.

Så långt är jag med dem.

Men — återigen får vi i grund och botten höra den gamla vanliga självgratulerande visan — nationalekonomisk skolforskning “visar” (garderat med en till intet förpliktigande utsaga om att forskningsmetoderna som används sägs vara inte “helt invändningsfria”) att fler friskolor leder till bättre resultat. Problemet kvarstår, för i grund är det man säger — trots åberopade “rigorösa studier” — lika ifrågasättbart som de “vänstersidans” tolkningar av Pisa-resultaten som man kritiserar!

Låt mig förklara varför jag anser att det den åberopade “nationalekonomiska skolforskningen” säger om skolkonkurrens och friskolor är lika mycket “fel” som “vänstertolkningarna” — och samtidigt försöka reda ut vad forskning och data verkligen säger om skolkonkurrens och friskolors effekter på skolors och elevers resultat.

När vi i Sverige 1992 genomförde en friskolereform fick familjer därigenom över lag större möjlighet att själva välja var man ville sätta sina barn i skola. I linje med det av Milton Friedman redan på 1950-talet förespråkade införandet av skolpeng (voucher) underlättades etablerandet av friskolor väsentligt.

Friskolorna har som följd av denna friskolereform – inte minst på senare år – ökat sin andel av skolmarknaden markant. Idag utbildas mer än 10 % av landets grundskoleelever vid en friskola och nästan 25 % av gymnasieeleverna får sin utbildning vid friskolor.

Friskoleexpansionen har dock rent geografiskt sett väldigt olika ut. Idag saknar lite mer än en tredjedel av kommunerna friskolor på grundskolenivå och två tredjedelar av kommunerna saknar friskolor på gymnasienivå. Och i genomsnitt har elever vid friskolor föräldrar med högre utbildningsnivå och inkomster än eleverna vid kommunala skolor.

Mot bland annat denna bakgrund har det bland forskare, utbildningsanordnare, politiker m.fl. blivit intressant att försöka undersöka vilka konsekvenser friskolereformen haft.

Nu är det självklart inte helt lätt att göra en sådan bedömning med tanke på hur mångfacetterade och vittomfattande de mål är som satts upp för skolverksamheten i Sverige.

Ett vanligt mål som man fokuserat på är elevernas prestationer i form av uppnående av olika kunskapsnivåer. När man genomförde friskolereformen var ett av de ofta framförda argumenten att friskolorna skulle höja elevernas kunskapsnivåer, både i friskolorna (”den direkta effekten”) och – via konkurrenstrycket – i de kommunala skolorna (”den indirekta effekten”). De kvantitativa mått man använt för att göra dessa värderingar är genomgående betyg och/eller resultat på nationella prov.

Vid en första anblick kan det kanske förefalla trivialt att göra sådana undersökningar. Det är väl bara att – kan det tyckas – plocka fram data och genomföra nödiga statistiska tester och regressioner. Riktigt så enkelt är det nu inte. I själva verket är det väldigt svårt att få fram entydiga kausala svar på den här typen av frågor.

Ska man entydigt kunna visa att det föreligger effekter och att dessa är ett resultat av just friskolornas införande – och inget annat – måste man identifiera och därefter kontrollera för påverkan från alla ”störande bakgrundsvariabler” av typen föräldrars utbildning, socioekonomisk status, etnicitet, geografisk hemhörighet, religion m.m. – så att vi kan vara säkra på att det inte är skillnader i dessa variabler som är de i fundamental mening verkliga kausalt bakomliggande förklaringarna till eventuella genomsnittliga effektskillnader.

Idealt sett skulle vi, för att verkligen vinnlägga oss om att kunna göra en sådan kausalanalys, vilja genomföra ett experiment där vi plockar ut en grupp elever och låter dem gå i friskolor och efter en viss tid utvärderar effekterna på deras kunskapsnivåer. Sedan skulle vi vrida tillbaka klockan och låta samma grupp av elever istället gå i kommunala skolor och efter en viss tid utvärdera effekterna på deras kunskapsnivåer. Genom att på detta experimentvis kunna isolera och manipulera undersökningsvariablerna så att vi verkligen kan säkerställa den unika effekten av friskolor – och inget annat – skulle vi kunna få ett exakt svar på vår fråga.

Eftersom tidens pil bara går i en riktning inser var och en att detta experiment aldrig går att genomföra i verkligheten.

Det nästbästa alternativet skulle istället vara att slumpmässigt dela in elever i grupper: en med elever som får gå i friskolor (”treatment”) och en med elever som får gå i kommunala skolor (”control”). Genom randomiseringen förutsätts bakgrundsvariablerna i genomsnitt vara identiskt likafördelade i de båda grupperna (så att eleverna i de båda grupperna i genomsnitt inte skiljer sig åt i vare sig observerbara eller icke-observerbara hänseenden) och därigenom möjliggöra en kausalanalys där eventuella genomsnittliga skillnader mellan grupperna kan återföras på (”förklaras av”) om man gått i friskola eller i kommunal skola.

Bland de forskare som förspråkar randomiserade studier (”randomized controlled trials”) – RCT – framhålls ofta att införandet av en ny policy/åtgärdsprogram – betygssystem, skolpeng m.m. – ska vara väglett av bästa möjliga evidens och att RCT tillhandahåller just detta. En ideal RCT bevisar att detta åtgärdsprogram kausalt bidrog till ett visst utfall, i en viss grupp, i en viss population. Om villkoren för en ideal RCT är uppfyllda följer med deduktiv nödvändighet att åtgärdsprogrammet kausalt medverkade till utfallet hos åtminstone några av enheterna i studien. Själva undersökningens design borgar för att undersökningsresultaten är tillförlitliga utan att man behöver explicitgöra kausala bakgrunds- och stödfaktorer. Randomiseringen garanterar att dessa bakgrunds-och stödfaktorer är ”lika-fördelade” för både ”behandlingsgruppen” och ”kontrollgruppen”, vilket gör att man inte behöver känna till vilka dessa kausala bakgrunds- och stödfaktorer är. Man behöver inte ens känna till om de över huvud existerar.

Till grund för RCT ligger att man (givet ett antal förenklande antaganden som vi inte ska problematisera här) kan beskriva den underliggande kausala principen för implementering av policy/åtgärdsprogram av olika slag på följande vis:

Yi <= Ai + A2Y0i + A3BiXi + A4Zi,

där <= betecknar en kausal orsaksverkan från högerledskvantiteterna på vänsterledskvantiteten, Yi är utfallet, Xi är policyvariabeln, Ai är konstanter som anger hur stor den effekt de efterföljande variablerna har på Yi är, Yoi är utfallsvariabelns ”basnivå” för i, Bi är alla de olika faktorer som bidrar till att Xi kausalt ger upphov till en effekt på Yi, Zi representerar alla andra faktorer som utöver Xi additivt bidrar till att påverka Yi.

Här föreligger som bekant många olika källor till felbedömningar när vi utifrån denna kausalmodell ska implementera en policy. Tron att man kan påverka Xi för att ändra utfallet Yi kan slå fel genom att implementeringen påverkar den föregivet stabila underliggande kausala strukturen (här främst representerade av Bi och Zi). Xi interagerar med andra variabler på ett sätt som kan innebära att policyimplementeringen de facto ger upphov till en ny struktur där de tidigare föreliggande relationerna helt enkelt inte längre (oförändrat) är för handen.

I normalfallet är de ansvariga för policyförändringar i första hand intresserade av vad förändringen i genomsnitt bidrar med i utfallet i den studerade populationen. Förutsättningarna för att kunna göra en sådan bedömning avhänger på ett kritiskt sätt möjligheterna av att på något vis hantera (kontrollera för) interaktionen mellan policyvariabeln och de kausala bakgrunds- och stödfaktorerna.

RCT löser (idealt) detta, som vi sett, genom att via randomisering dela in populationen i en behandlingsgrupp och en kontrollgrupp och därigenom mer eller mindre garantera att fördelningen av Yo, Bi och Zi är desamma i dessa båda grupper. Om det efter en (ideal) implementering av den nya policyn föreligger en skillnad i Yi mellan de två grupperna, måste det föreligga en genuin kausal orsak-verkan-relation hos åtminstone någon eller några av de individer som ingår i populationen. Poängen är här alltså att även om vi inte vet vad som ingår i Bi och Zi, så kan vi ändå uttala oss om policy-variabelns inverkan på utfallet i kausala termer.

Låt oss anta att vi har lyckats genomföra en ideal RCT och alltså kan vara säkra på att den enda kausala verkan som föreligger är begränsad till att vara den mellan policyvariabeln X och dess inverkan på utfallsvariabeln Y. Vad vi då har lyckats etablera är att i en specifik undersökt situation, i en viss population, så är den genomsnittliga behandlingseffekten lika med differensen mellan utfallen för behandlings- respektive kontrollgruppen (detta innebär att en behandling kan innebära att många får det mycket ”sämre” och att några få får det ”bättre”, men att det i genomsnitt blir ”bättre”). ”Behandlingseffekten” W kan då skrivas som

W = A3E[Bi](XT – XK),

där E[] är en förväntningsvärdesoperator (genomsnitt) och XT och XK är värdet på behandlingsvariabeln i behandlings-respektive kontrollgruppen.

För vem är detta relevant? Om vi implementerar X här för oss – kan vi verkligen vara säkra på att vi får samma genomsnittliga effekt? Nej. Eftersom E[Bi] är ett genomsnitt över alla de olika faktorer som bidrar till att Xi kausalt ger upphov till en effekt på Yi, måste vi nämligen också veta hur dessa faktorer är fördelade i den nya populationen. Det föreligger inga som helst a priori skäl att anta att fördelningen av den typen av bakgrunds- och stödfaktorer skulle se likadan ut här hos oss som där för dem i den ursprungliga RCT-populationen.

Detta innebär att man kan ifrågasätta om RCT är evidentiellt relevanta när vi exporterar resultaten från ”experimentsituationen” till en ny målpopulation. Med andra konstellationer av bakgrunds- och stödfaktorer säger oss den genomsnittliga effekten av en behandlingsvariabel i en RCT troligen inte mycket, och kan därför inte heller i någon större utsträckning vägleda oss i frågan om vi ska genomföra en y policy/åtgärdsprogram eller ej.

RCT borgar helt enkelt inte för att en föreslagen policy är generellt tillämpar. Inte ens om man kan anföra goda skäl för att betrakta policyvariabeln som strukturellt stabil, eftersom stabilitetskravet främst måste gälla BiXi och inte Xi.

Förespråkare för RCT brukar åberopa ett antagande om att målpopulationen måste vara ”lik” den ursprungliga RCT-populationen för att berättiga ”exportlicensen”. Men ett sådant åberopande för oss inte speciellt långt eftersom det sällan specificeras i vilka dimensioner och i vilken utsträckning ”likheten” ska föreligga.

Så även om man lyckats genomföra en ideal RCT, så innebär detta dock inte att man därigenom har några som helst skäl att tro att undersökningsresultaten är externt valida i meningen att de förbehållslöst utgör en broslagning från att det fungerade i population A till att det också kommer att fungera i population B.

När man genomför en RCT ”laddar” man så att säga tärningarna. Men om man ska implementera ett åtgärdsprogram i en annan population än den i vilken RCT genomfördes (kastar andra tärningar) hjälper detta oss föga. Vi måste fråga oss hur och varför fungerar policyn/åtgärdsprogrammet. Att det fungerar i en kontext garanterar inte att det fungerar i en annan kontext, och då kan frågor om hur och varför hjälpa oss en bra bit på vägen att förstå varför ett åtgärdsprogram som fungerar i population A inte fungerar i population B. Inte minst när det gäller sociala och ekonomiska åtgärdsprogram spelar kausala bakgrunds- och stödfaktorer ofta en avgörande roll. Utan kunskap om dessa är det hart när omöjligt att förstå varför och hur ett åtgärdsprogram fungerar – och därför för oss RCT realiter inte så långt som dess förespråkar vill ge sken av.

Att i slutna system eller kliniska experiment anta att man befinner sig i nästintill ideala försöksvillkor låter sig kanske göras, men att i öppna system eller sociala sammanhang tro sig ha nästintill full kontroll över alla kausala alla bakgrunds- och stödvariabler är oftast just inget annat än en tro. När det då visar sig inte fungera, har vi ingen vägledning av RCT.

Det är som när diskmaskinen slutat fungera hemma i köket. I normalfallet fungerar den problemfritt. Och vi vet att miljontals andra har diskmaskiner som också fungerar. Men när de inte fungerar får vi kalla på en reparatör eller själva undersöka maskinen och se om vi kan hitta felet. Vi försöker lokalisera var i maskineriet det har hängt upp sig, vilka mekanismer som fallerar o s v. Kanske glömde vi bara slå på strömmen. Eller kanske motorn havererat på grund av dålig ventilation och underhåll. I vilket fall som helst hjälper det oss föga att veta att maskinen under ideala förhållanden fungerar. Här måste vi börja tänka själva och inte bara förlita oss på att maskinen brukar fungera när den lämnar produktionsbandet (som ju är konstruerat just för att maskinerna ska fungera). Att tillverkaren gör stickprov för att säkerställa statistiskt acceptabla felmarginaler hjälper inte mig när min maskin ”lagt av”.

När åtgärdsprogrammet inte visar sig fungera på det sätt RCT gett oss skäl tro, har förespråkarna inget mer att komma med än att kanske föreslå ännu fler RCT. Då är det nog mer framkomligt att tänka själv och fundera över vad som gått fel och inte förlita sig på att fler ideala randomiseringar på något magiskt sätt ska lösa problemet. För det gör de inte. Hur många gånger du än släpper kritan framme vid tavlan så faller den aldrig i golvet om det står ett bord i vägen. Då är det bättre att tänka själv kring varför och hur. Då kan vi flytta bordet och visa att gravitationskraften de facto får kritan att falla till golvet.

RCT kan aldrig utgöra annat än en möjlig startpunkt för att göra relevanta bedömningar av om policy/åtgärdsprogram som fungerat där för dem är effektiva här för oss. RCT är inget trumfkort. Det utgör ingen ”gold standard” för att besvara kausala policy-frågor.

För att kunna ge goda argument för att vad som fungerar där för dem också ska fungera här för oss måste vi ha empiriska evidens och kunskaper om kausala variabler som bidrar till att generera det eftersökta utfallet. I annat fall kan vi inte på ett adekvat sätt bedöma om resultaten i RCT där för dem är relevanta här för oss

Så – denna typ av undersökningar är visserligen möjliga att genomföra, men de är i praktiken svåra att få till stånd och dessutom ofta kostsamma. I praktiken får man ofta nöja sig med att genomföra experiment där elever i en grupp ”matchas” mot elever i en annan grupp – på så sätt att varje individ i den första gruppen motsvaras av en individ i den andra gruppen, som är så ”identiskt lik” som möjligt den förra med avseende på alla kända bakgrundsvariabler, så att eventuella effektskillnader i så hög grad som möjligt kan återföras på variabeln friskola/kommunal skola.

Till detta kommer att även där det är möjligt att genomföra dessa typer av randomiserings- och matchningsexperiment är värdet av dem problematiskt eftersom undersökningspopulation genomgående är relativt små och den artificiella inramningen gör att möjligheterna att ”exportera” resultaten (”extern validitet”) till andra populationer än den undersökta ofta är förhållandevis små. Därtill kommer – när det mer specifikt handlar om utbildning – att utbildning är en mångdimensionell och heterogen verksamhet som är svår att mäta och värdera med enkla operationaliserbara kriterier och mätinstrument, vilket ytterligare försvårar möjligheterna att på säkra grunder hävda att man har på fötterna för att exportera forskningsresultat från en kontext till en annan (som exempelvis Cartwright & Hardie (2012), som understryker denna problematik med några väl valda exempel från just utbildningsområdet). De svårfångade kvalitetsaspekterna på denna typ av verksamhet gör också att det hela tiden föreligger incitament för aktörer att ta vägen om kvalitetsförsämringar och allehanda former av manipulationer på vissa områden för att eventuellt satsa tid och resurser för nå mål på andra mer lättmätta områden.

Det i särklass vanligaste undersökningsförfarandet är – som debattörrna lyfter fram – att man genomför en traditionell multipel regressionsanalys baserad på så kallade minstakvadrat (OLS) eller maximum likelihood (ML) skattningar av observationsdata, där man försöker ”konstanthålla” ett antal specificerade bakgrundsvariabler för att om möjligt kunna tolka regressionskoefficienterna i kausala termer. Vi vet att det föreligger risk för ett ”selektionsproblem” eftersom de elever som går på friskolor ofta skiljer sig från de som går på kommunala skolor vad avser flera viktiga bakgrundsvariabler, kan vi inte bara rakt av jämföra de två skolformerna kunskapsnivåer för att därur dra några säkra kausala slutsatser. Risken är överhängande att de eventuella skillnader vi finner och tror kan förklaras av skolformen, i själva verket helt eller delvis beror på skillnader i de bakomliggande variablerna (t.ex. bostadsområde, etnicitet, föräldrars utbildning, m.m.)

Ska man försöka sig på att sammanfatta de regressionsanalyser som genomförts är resultatet att de kausala effekter på elevers prestationer man tyckt sig kunna identifiera av friskolor genomgående är små (och ofta inte ens statistiskt signifikanta på gängse signifikansnivåer). Till detta kommer också att osäkerhet råder om man verkligen kunnat konstanthålla alla relevanta bakgrundsvariabler och att därför de skattningar som gjorts ofta i praktiken är behäftade med otestade antaganden och en icke-försumbar osäkerhet och ”bias” som gör det svårt att ge en någorlunda entydig värdering av forskningsresultatens vikt och relevans. Enkelt uttryckt skulle man kunna säga att många – kanske de flesta – av de effektstudier av detta slag som genomförts, inte lyckats skapa tillräckligt jämföra grupper, och att – eftersom detta strikt sett är absolut nödvändigt för att de statistiska analyser man de facto genomför ska kunna tolkas på det sätt man gör – värdet av analyserna därför är svårt att fastställa. Det innebär också – och här ska man även väga in möjligheten av att det kan föreligga bättre alternativa modellspecifikationer (speciellt vad gäller ”gruppkonstruktionerna” i de använda urvalen) – att de ”känslighetsanalyser” forskare på området regelmässigt genomför, inte heller ger någon säker vägledning om hur pass ”robusta” de gjorda regressionsskattningarna egentligen är. Vidare är det stor risk för att de latenta, bakomliggande, ej specificerade variabler som representerar karakteristika som ej är uppmätta (intelligens, attityd, motivation m.m.) är korrelerade med de oberoende variabler som ingår i regressionsekvationerna och därigenom leder till ett problem med endogenitet.

I en studie av Anders Böhlmark och Mikael Lindahl (2012))  – Har den växande friskolesektorn varit bra för elevernas utbildningsresultat på kort och lång sikt? – har man med utgångspunkt i främst multipla regressionsanalyser av det ovan angivna slaget, menat sig bl.a. kunna visa att friskolereformen inneburit – först och främst beroende på ”spridnings- och konkurrenseffekter” – att genomsnittsresultateten över tiden för alla elever – alltså inte bara för de som går i friskolor – har ökat mest i de kommuner där andelen elever som går i friskolor har ökat mycket i förhållande till kommuner där andelen elever som går i friskolor har ökat mindre eller kanske inte alls.

Kort sagt – ökningen av andelen friskole-elever i en kommun ger i genomsnitt positiva effekter på elevernas utbildnings-resultat. Av resultaten fram-kommer dock att effekten för den enskilde individen av att gå i en friskola, istället för i en kommunal skola, bara står för en liten del den totala effekten. Lejonparten bedöms vara en positiv externalitetseffekt i form av en ökad konkurrens som gynnar alla elever. Regressionsanalysen möjliggör dock inte ett uteslutande av att det också kan föreligga en segregations- och sorteringseffekt i form av att friskolereformen gjort elevgrupperna på de olika skolorna mer ”homogena” och detta på olika sätt kan ha påverkat elevprestationerna i positiv riktning.

Resultaten har både av forskarna själva och av andra tolkats som belägg för att friskolereformen och den ökade konkurrensen är bra för det svenska skolsystemet i sin helhet. Tidigare svensk “nationalekonomisk skolforskning” har visat på liknande resultat.

Två framstående amerikanska forskare som under flera decennier forskat om friskolor skriver i en utvärdering (L. Barrow & C. E. Rouse (2008), ”School vouchers: Recent findings and unanswered questions.” Economic Perspectives No. 3.) av vad den amerikanska forskningen visar på området  att det inte är uppenbart att ”friskoleforskarna” med sina undersökningsmetoder på ett adekvat sätt har kunnat väga in eller neutralisera betydelsen av skillnader som faktiskt föreligger mellan elever i friskolor respektive kommunala skolor. Ja, man går t.o.m. så långt att man menar att de flesta fall av de små effekter som man i forskningen funnit ”inte är statistiskt signifikant skilda från noll och därför i själva verket kan vara ett rent slumpmässigt resultat.”

USA:s kanske främste utvärderare på området konkluderar på liknande sätt i en amerikansk utvärdering av friskolor (P. Wolf et al. (2010). “Evaluation of the DC Opportunity Scholarship Program: Final Report,” U.S. Department of Education) att ”effekterna varit små och osäkra.”

Och i en nyligen genomförd genomlysning av  följderna av det svenska friskoleexperimentet skriver Henry M. Levin – “distinguished economist and director of the National Center for the Study of Privatization in Education” vid Teachers College, Columbia University – följande:

  • On the criterion of productive efficiency, the research studies show virtually no difference in achievement between public and independent schools for comparable students. Measures of the extent of competition in local areas also show a trivial relation to achievement. The best study measures the potential choices, public and private, within a particular geographical area. For a 10 percent increase in choices, the achievement difference is about one-half of a percentile. Even this result must be understood within the constraint that the achievement measure is not based upon standardized tests, but upon teacher grades. The so-called national examination result that is also used in some studies is actually administered and graded by the teacher with examination copies available to the school principal and teachers well in advance of the “testing”. Another study found no difference in these achievement measures between public and private schools, but an overall achievement effect for the system of a few percentiles. Even this author agreed that the result was trivial …
  • With respect to equity, a comprehensive, national study sponsored by the government found that socio-economic stratification had increased as well as ethnic and immigrant segregation. This also affected the distribution of personnel where the better qualified educators were drawn to schools with students of higher socio-economic status and native students. The international testing also showed rising variance or inequality in test scores among schools. No evidence existed to challenge the rising inequality. Accordingly, I rated the Swedish voucher system as negative on equity.

Sammantaget verkar den enda rimliga slutsatsen vara att forskningen inte generellt kunnat belägga att införandet av friskolor och ökad skolkonkurrens lett till några större effektivitetsvinster eller påtagligt ökade kunskapsnivåer hos eleverna i stort. De uppmätta effekterna är små och beror till stor del på hur de använda modellerna specificeras och hur de ingående variablerna mäts och vilka av dem som ”konstanthålls”. Det går således inte heller att säkerställa att de effekter man tyckt sig kunna detektera vad gäller resultatförbättringar i friskolor skulle bero på friskolorna som sådana. Metodologiskt har det visat sig vara svårt att konstruera robusta och bra kvalitetsmått och mätinstrument som möjliggör en adekvat hantering av alla de olika faktorer – observerbara och icke-observerbara – som påverkar konkurrensen mellan skolformerna och ger upphov till eventuella skillnader i elevprestationer mellan skolformerna. Följden blir att de små effekter man (i vissa undersökningar) kunnat konstatera föreligga sällan är behäftade med någon högre grad av evidentiell ”warrant”. Mycket av forskningsresultaten baseras på både otestade och i grunden otestbara modellantaganden (t.ex. vad avser linearitet, homogenitet, additivitet, icke-förekomst av interaktionsrelationer, oberoende, bakgrundskontextuell neutralitet m.m.) Resultaten är genomgående av en tentativ karaktär och de slutsatser forskare, politiker och opinionsbildare kan dra av dem bör därför återspeglas i en ”degree of belief” som står i paritet med denna deras epistemologiska status.

Alltså: beläggen för att den konkurrens som friskolereformen ledde till skulle bidragit till att höja kvaliteten i skolan verkar vara ytterst osäkra och med avseende på effektstorlek nästintill obefintliga, i varje fall om man med kvalitet menar vad eleverna lär sig. Detta förefaller också vara i linje med vad stora delar av den internationella forskningslitteraturen finner. Till detta kan man väl också foga att de undersökningar som gjorts bara kan uttala sig om vad som gäller i genomsnitt. Bakom ett högt genomsnitt kan – som tidigare konstaterat – dölja sig flera svagpresterande enskilda skolor som vägs upp av några få högpresterande.

Blog at WordPress.com.
Entries and Comments feeds.