Instrumentalvariabler och heterogenitet

13 May, 2021 at 19:25 | Posted in Statistics & Econometrics | Comments Off on Instrumentalvariabler och heterogenitet

Användandet av instrumentalvariabler används numera flitigt bland ekonomer och andra samhällsforskare. Inte minst när man vill försöka gå bakom statistikens ‘korrelationer’ och också säga något om ‘kausalitet.’

causation1Tyvärr brister det ofta rejält i tolkningen av de resultat man får med hjälp av den vanligaste metoden som används för detta syfte — statistisk regressionsanalys.

Ett exempel från skolområdet belyser detta väl.

Ibland hävdas det bland skoldebattörer och politiker att friskolor skulle vara bättre än kommunala skolor. De sägs leda till bättre resultat. Alltså: om vi tänker oss att man skulle låta elever från friskolor och kommunala skolor genomföra gemensamma prov så skulle friskoleelever prestera bättre (fler rätt på provräkningar e d).

För argumentets skull antar vi att man för att ta reda på om det verkligen förhåller sig på detta sätt även i Malmö, slumpmässigt väljer ut högstadieelever i Malmö och låter dem skriva ett prov. Resultatet skulle då i vanlig regressionsanalytisk form kunna bli

Provresultat = 20 + 5*T,

där T=1 om eleven går i friskola, och T=0 om eleven går i kommunal skola. Detta skulle innebära att man får bekräftat antagandet — friskoleelever har i genomsnitt 5 poäng högre resultat än elever på kommunala skolor i Malmö.

Nu är ju politiker (förhoppningsvis) inte dummare än att de är medvetna om att detta statistiska resultat inte kan tolkas i kausala termer eftersom elever som går på friskolor typiskt inte har samma bakgrund (socio-ekonomiskt, utbildningsmässigt, kulturellt etc) som de som går på kommunala skolor (relationen skolform-resultat är ‘confounded’ via ‘selection bias.’)

För att om möjligt få ett bättre mått på skolformens kausala effekter väljer Malmös politiker  föreslå att man via lottning gör det möjligt för 1000 högstadieelever att bli antagna till en friskola. ‘Vinstchansen’ är 10%, så 100 elever får denna möjlighet. Av dessa antar 20 erbjudandet att gå i friskola. Av de 900 lotterideltagare som inte ‘vinner’ väljer 100 att gå i friskola.

Lotteriet uppfattas ofta av skolforskare som en ’instrumentalvariabel’ och när man så genomför regressionsanalysen med hjälp av denna visar sig resultatet bli

Provresultat = 20 + 2*T.

Detta tolkas standardmässigt som att man nu har fått ett kausalt mått på hur mycket bättre provresultat högstadieelever i Malmö i genomsnitt skulle få om de istället för att gå på kommunala skolor skulle välja att gå på friskolor.

Men stämmer det? Nej!

Om inte alla Malmös skolelever har exakt samma provresultat (vilket väl får anses vara ett rätt långsökt ‘homogenitetsantagande’) så gäller den angivna genomsnittliga kausala effekten bara de elever som väljer att gå på friskola om de ’vinner’ i lotteriet, men som annars inte skulle välja att gå på en friskola (på statistikjargong kallar vi dessa ’compliers’). Att denna grupp elever skulle vara speciellt intressant i det här exemplet är svårt att se med tanke på att den genomsnittliga kausala effekten skattad med hjälp av instrumentalvariabeln inte säger någonting alls om effekten för majoriteten (de 100 av 120 som väljer en friskola utan att ha ‘vunnit’ i lotteriet) av de som väljer att gå på en friskola.

Slutsats: forskare måste vara mycket mer försiktiga med att tolka vanliga statistiska regressionsanalyser och deras ‘genomsnittsskattningar’ som kausala. Verkligheten uppvisar en hög grad av heterogenitet. Och då säger oss regressionsanalysens konstanta ‘genomsnittsparametrar’ i regel inte ett smack!

Blog at WordPress.com.
Entries and Comments feeds.