söndag 11 november 2012

Om frekventistisk kontra bayesiansk statistik

Kan man skämta om statistik? Den frågan ställde jag i rubriken till ett av mina allra första inlägg på den här bloggen. Min slutsats blev "Skämta gärna om statistik. Om du gör det med kunskap, finess och intelligens, och om ditt skämt är roligt, så kommer jag att skratta. Om det däremot bara är okunnigt och plumpt så skrattar jag inte." Jag gav också exempel på båda slagen av statistikskämt. De bra skämten - de med finess och intelligens - tenderar att komma från xkcd. Häromdagen levererade xkcd ännu ett statistikskämt, denna gång med en pedagogisk illustration till de två grundläggande förhållningssätt till statistik som debatterats så flitigt under större delen av 1900-talet och än idag: frekventism och bayesianism. Skämtet är en tydlig partsinlaga i debatten,1 och kräver nog en smula förkunskap för att upskattas fullt ut, men för oss som besitter förkunskapen är det riktigt roligt:

Frequentists vs. Bayesians

Fotnot

1) Inbitna bayesianer kan utropa att den nya strippen påvisar frekventismens totala orimlighet. Själv väljer jag (som föredrar att ha både frekventistiska och bayesianska metoder i min verktygslåda, för att sedan i varje enskild situation kunna ta ställning till vilken metod som passar bäst) en något försiktigare sens moral: Det finns situationer där ett ogenomtänkt frekventistiskt förhållningssätt är klart olämpligt.

7 kommentarer:

  1. jag utnyttjar ditt tålamod och ställer en fråga ang. de två olika /approaches/ för att jag förstår inte riktigt skillnaden.

    låt oss säga att jag uppskattar sannolikheten att yes:en är en /riktig yes/ (dvs solen har faktiskt exploderat) till 0,0034%[*], går det då att säga att jag har fört ett bayesianiskt resonemang?

    jag tänker följande:
    om jag har observerat biljoner[**] av stjärnor av solens storlek tidigare och fått fram att sannolikhet att solen exploderar just nu är 1 på 1000000 kan man inte se detta som en frekventistsk kalkyl?

    (jag bör nog läsa lite mer om statistik ;-) )

    [*] jag räknar ofta fel, så här har du min beräkning av gynnsamma/möjliga utfall för TP/(TP+FP):
    35/36*1/1000000
    -------------------------------------
    (1/36*(1-1/1000000)+35/36*1/1000000)

    eller kanske mer läsbart:
    0.000035/(0.999999+0.000035)

    [**] referenser till andra bloggposter är helt omedvetna

    SvaraRadera
    Svar
    1. Bra exempel, lorenzo! Du har på ett föredömligt vis kombinerat frekventistisk och bayesiansk analys. Ditt val av a priori-sannolikhet 1/1000000 är frekventistiskt baserat, medan ditt sätt att omvandla a priori-sannolikheten till en a posteriori-dito i ljuset av vad neutriondetektorn säger är klockrent bayesianskt.

      Radera
    2. Mycket intressant. Jag förstår dock inte varför lorenzo har faktorn 35/36 (sannolikheten att detektorn talar sanning) i sin beräkning av TP. Om den är 0 skulle även TP och den skattade sannolikheten för att solen blivit nova bli 0, eller tänker jag fel?

      Radera
    3. jag kan svara på hur jag tänkte (sedan får Olle ge oss "facit" ;-) )
      om sannolikheten för att solen blir nova är 0 då är problemet trivialt, jag antåg att sannolikheten var 1/1000000 (och låtsades att detta kom från empiriska data).
      under denna hypotes var mitt resonemang följande.
      för att göra beräkningen transparentare låt mig anta att vi har 1 miljon fall (resultatet är dock generellt då sannolikheten kommer att beräknas som en kvot).
      då har vi:
      1 fall då solen har blivit nova
      999999 fall då solen har inte blivit nova
      detektorn kommer att ge oss svaret "yes" om:
      a. solen har blivit nova *och* tärningar visar inte dubbel 6 --> 1/1000000 * 35/36
      b. solen har inte blivit nova *och* tärningar visar dubbel 6 --> 999999/1000000 * 1/6

      fall a. är TP, fall b är FP.

      sedan uppskattar jag sannolikheten att ett positivt svar motsvarar att solen har faktiskt har blivit nova genom att beräkna kvoten TP/(TP+FP).

      Radera
    4. Tack för förklaringen lorenzo. Jag hade missat att solen inte kan ha gått nova om detektorn ljuger. Ditt resonemang verkar helt korrekt.

      Radera
  2. Jag är förmodligen för dum för att förstå skämtet -- för att nå fram till sannolikheten 1/36 för att "detta ska hända" måste man väl använda hjälphypotesen att sannolikheten att solen har exploderat är noll? Och i så fall, hur pharao fick han den slutsatsen genom peer-reviewen?

    SvaraRadera
    Svar
    1. Dum är du inte, bosjo, det har jag tillräckligt med annan evidens för att med stor bestämdhet kunna konstatera. Däremot kan det hända att du är lite ovan vid statistisk jargong.

      Frekventisten använder sig av den frekventa(!) men något slappa terminologin "by chance" i betydelsen "under nollhypotesen". Nollhypotesen i det här fallet är att solen inte har exploderat. En noggrannare formulering av frekventistens resonemang blir därför följande: "Under nollhypotesen att solen inte har exploderat är sannolikheten för 'YES' 0,027. Därmed kan sagda nollhypotes förkastas på den gängse signifikansnivån 0,05."

      Radera