Trösklar och statistisk signifikans

30 Jun, 2019 at 09:48 | Posted in Statistics & Econometrics | 1 Comment

I en artikelEkonomistas argumenterar nationalekonomen Robert Östling för att lösningen på den uppmärksammade ‘replikationskrisen’ är att ändra på tröskeln för vad som ska betraktas som ‘statistiskt signifikant’ från 5% till 0,5%.

Även om detta i sig är vällovligt är det dock ingen lösning. Det räcker inte med att ändra godtyckliga nivåer för vad som ska anses vara ‘statistiskt signifikant’ eller ej. Det är inte där det grundläggande problemet ligger:

worship-p-300x214We recommend dropping the NHST [null hypothesis significance testing] paradigm — and the p-value thresholds associated with it — as the default statistical paradigm for research, publication, and discovery in the biomedical and social sciences. Specifically, rather than allowing statistical signicance as determined by p < 0.05 (or some other statistical threshold) to serve as a lexicographic decision rule in scientic publication and statistical decision making more broadly as per the status quo, we propose that the p-value be demoted from its threshold screening role and instead, treated continuously, be considered along with the neglected factors [such factors as prior and related evidence, plausibility of mechanism, study design and data quality, real world costs and benefits, novelty of finding, and other factors that vary by research domain] as just one among many pieces of evidence.

We make this recommendation for three broad reasons. First, in the biomedical and social sciences, the sharp point null hypothesis of zero effect and zero systematic error used in the overwhelming majority of applications is generally not of interest because it is generally implausible. Second, the standard use of NHST — to take the rejection of this straw man sharp point null hypothesis as positive or even definitive evidence in favor of some preferredalternative hypothesis — is a logical fallacy that routinely results in erroneous scientic reasoning even by experienced scientists and statisticians. Third, p-value and other statistical thresholds encourage researchers to study and report single comparisons rather than focusing on the totality of their data and results.

Andrew Gelman et al.

Vi får aldrig glömma att de underliggande parametrar vi använder när vi gör våra signifikanstestningar är modellkonstruktioner. Oberoende av vlka p-värden vi än får så säger de oss ingenting om modellen är fel. Och framför allt — oberoende av hur många signifikanstester och vilka tösklar vi sätter så validerar de aldrig modeller!

frIn journal articles a typical regression equation will have an intercept and several explanatory variables. The regression output will usually include an F-test, with p – 1 degrees of freedom in the numerator and n – p in the denominator. The null hypothesis will not be stated. The missing null hypothesis is that all the coefficients vanish, except the intercept.

If F is significant, that is often thought to validate the model. Mistake. The F-test takes the model as given. Significance only means this: if the model is right and the coefficients are 0, it is very unlikely to get such a big F-statistic. Logically, there are three possibilities on the table:
i) An unlikely event occurred.
ii) Or the model is right and some of the coefficients differ from 0.
iii) Or the model is wrong.
So?

1 Comment

  1. För att kunna replikera tidigare gjorda försök inom nationalekonomi krävs såvitt jag har kunnat se, att man betraktar denna som brottslig och förutsätter att alla definitioner förändras genom att de används som vapen i konkurrensen om den maximala profiten. Ett typiskt exempel är full sysselsättning, där nu även begreppet sysselsättning har kommit att förändras till sitt praktiska innehåll (tidigare innebar en heltidssysselsättning en garanti för inkomster tillräckliga till mat hyra osv.) sina normalt gällande avtalade villkor, de övriga förmåner som gällde för den som var sysselsatt, de av regeringen genom SCB fastställda kategorier som räknades som sysselsatt respektive heltidsstuderande som sökt arbete respektive ej i arbetskraften osv. Begreppet full sysselsättning har dessutom definierats om totalt från att bygga på en viss största tillåtna arbetslöshetsprocent till att vara lika med “den långsiktigt hållbara nivån för arbetslösheten” (se https://ekonomistas.se/2017/08/28/penningpolitik-och-full-sysselsattning-utan-att-asidosatta-inflationsmalet/ ) vilket i sin tur ytterligare “förfinats” till att bli omöjligt att bestämma ens i efterhand.
    Nationalekonomi har helt enkelt blivit en färskvara, utan anspråk på något mer än att kunna användas för att motivera sådana reformer som de som finansierar den nationalekonomiska verksamheten önskar genomföra.


Sorry, the comment form is closed at this time.

Blog at WordPress.com.
Entries and Comments feeds.