Data snooping

22 Mar, 2013 at 10:10 | Posted in Statistics & Econometrics | Comments Off on Data snooping

Naturligtvis kan man inte på minsta sätt bevisa att en tärning är obalanserad genom att sitta och kasta den tills man har lyckats få två 6:or i rad. I princip är detta dock ett vanligt fel. För att man ska kunna göra statistiska tester på ett datamaterial måste materialet vara ett resultat av ett slumpmässigt urval där testförfarandet inte på något sätt är påverkat av vad man redan har noterat i datamaterialet. lantzOm man t.ex. sitter och spelar ett brädspel med tärning, t.ex. Fia med knuff, och efter åtta tärningskast noterar att man tydligen fick 3:or i fyra av dessa åtta kast, kan det inte användas som bevis för att tärningen skulle vara obalanserad. Via beräkningar kan man visa att sannolikheten för att få minst fyra 3:or i en sekvens om åtta slumpmässiga kast med en balanserad tärning i och för sig är lägre än 5 %, men en händelse som redan har ägt rum är ju ingen slumphändelse. Det som hände har redan hänt med sannolikheten 100 %. Denna typ av feltänkande, avsiktligt eller ej, kallas data snooping …

Man kan inte heller vända på analysen och hävda att experimentet skulle ha bevisat att tärningen är välbalanserad om antalet 6:or i experimentet blev lägre än två … Anta t.ex. att tärningen faktiskt är så pass obalanserad att den i medeltal visar en 6:a varannan gång. Sannolikheten för att vi vid två kast ska få två 6:or är då 1/2*1/2 = 1/4, d.v.s. 25 %. Sannolikheten för att få färre än två 6:or av en slump är alltså hela 75 % – trots att tärningen faktiskt är rejält obalanserad!

Blog at WordPress.com.
Entries and comments feeds.