måndag 7 mars 2016

Försök till nyansering i debatten om statistisk signifikans

När tidskriften Basic and Applied Social Psychology för ett år sedan annonserade den drastiska åtgärden att från sina spalter bannlysa p-värden och statistisk signifikans valde jag att inte skräda orden: den bloggpost i vilken jag kommenterade åtgärden fick rubriken Intellectual suicide by the journal Basic and Applied Social Psychology. Den bloggposten (liksom möjligen också mina båda uppföljande inlägg Geoff Cummings dansande p-värden och I skottlinjen för rättshaveristiska utgjutelser) bidrog till att jag fick en inbjudan från en annan psykologitidskrift, Educational and Psychological Measurement, om att medverka i ett temanummer om den på senare år intensifierade debatten kring bruket av signifikanstest och relaterade statistiska metoder. Jag såg utmaningen som en chans att fördjupa och nyansera några av mina tankar från förra årets diskussion, så jag antog den naturligtvis, och efter ett par refereegranskningsrundor har nu mitt manuskript accepterats för publicering. Varsågoda: Min förhoppning med uppsatsen är att den skall erbjuda intressant och viktig läsning för var och en som bryr sig om frågan om vad som är bra (respektive dålig) statistisk praxis i de empiriska vetenskaperna.

6 kommentarer:

  1. Notera även American Statistical Associations aktuella Statement on Statistical Significance and P-values, med ståndpunkter i god överensstämmelse med mina.

    SvaraRadera
  2. Det sägs så mycket dumt i den här debatten. Som ett extremfall kan jag nämna rättshaveristen Emil Karlsson, som verkar ha fått både p-värden och mig på hjärnan, men det mesta om bakfoten. Trots att mina och ASA:s ståndpunkter på det hela taget överensstämmer, så hyllar han ASA för deras statement, men spyr Twitter-galla över mig. Graden av den Karlssonska förvirringen kan exemplifieras i följande stycket ur hans nya ASA-hyllning, där han talar om...

    "...NHST defender Olle Häggström, who claims (by uncritically quoting tobacco apologist R. A. Fisher) that statistical significance indicates that either the null hypothesis is false or that something unlikely has occurred. I previously discussed the counterexample of large sample size, but ASA adds another one, namely faulty underlying assumptions."

    Det här är så dumt att jag knappt vet vad jag skall börja. Mitt citat av Fisher (på sidan 5 i den aktuella uppsatsen) handlar inte om att okritiskt acceptera hans auktoritet. Auktoritetsargument är fullkomligt onödigt att ta till för ett påstående som faller ut, lika enkelt som 7+5=12, av den som förstått definitionen av p-värde. Jag citerade Fisher blott för att jag inte ansåg mig kunna överträffa hans eleganta formulering.

    Och sedan detta med Emil Karlssons två påstådda "motexempel". Det första av dem - "large sample size" - avser (som Karlsson själv preciserat) fenomenet sizeless science som jag ofta tagit upp (även i den nya artikeln), som bygger på att även för mycket små, men icke-noll, effektstorlekar ger tillräckligt stora stickprov hög förkastelsesannolikhet. Observera: icke-noll. Nollhypotesen är alltså falsk.

    Karlssons andra "motexempel": det han kallar "faulty underlying assumptions". Även här är nollhypotesen falsk.

    Alltså: båda Karlssons påstådda "motexempel" till påståendet "either the null hypothesis is false or that something unlikely has occurred" är i själva verket situationer där the null hypothesis is false. Inga motexempel alltså, och det finns naturligtvis inget sätt att rädda hans argumentation. Hans orerande är så okunnigt och fåraktigt att man tar sig för pannan...

    SvaraRadera
  3. It’s not the p-values’ fault – ett inlägg som kanske inte är så dumt. Många av problemen som ofta kopplas till p-värden dyker upp även med alternativa metoder för inferens, och p-värden kräver enklare/färre modeller än dessa.

    SvaraRadera
  4. Efter att ha läst en doktorandkurs i statistisk inferens, har jag fått ögonen på två subtila egenskaper med p-värden som jag noterar att du inte diskuterar alls:

    1. Den ibland närvarande godtyckligheten i att precisera exakt hur experimentet utfördes, dvs vad som egentligen är möjliga utfall om experimentet skulle upprepas? MacKay (2003) raljerar över detta i avsnitt 37.2, och Lindley (1988) diskuterar det lite mer seriöst i avsnitt 1.4.

    2. De konceptuella "problemen" som Schervish (1996) pekar ut, med att p-värdet för en nollhypotes med ett "litet" intervall kan vara större än för en nollhypotes med ett "stort" intervall, som innehåller det "lilla" intervallet som en delmängd.

    Nu sträcker sig dock mina kunskaper inom området inte mycket längre än till ovan nämnda kurs, och jag undrar därför lite nyfiket om det finns någon anledning till att dessa två aspekter inte tas upp? Jag gissar att din kommentar om att i efterhand välja ensidigt istället för dubbelsidigt test är en annan sida av samma mynt som min punkt 2 ovan, men jag tänker att det finns mer att säga? Och åtminstone punkt 1 borde väl vara relevant för hur p-värden beräknas i praktiken?


    MacKay, 2003: http://www.inference.phy.cam.ac.uk/itprnn/book.pdf
    Lindley, 1988: https://projecteuclid.org/download/pdf_1/euclid.ss/1177012253
    Schervish, 1996: http://www.cs.ubc.ca/~murphyk/Teaching/CS532c_Fall04/Papers/schervish-pvalues.pdf

    SvaraRadera
    Svar
    1. 1. Klart man skall försöka bemöda sig med att precisera sitt experiment ordentligt, annars kan det bli besvärligt (om man inte är Bayesian). Problemet hänger nära samman med den mångåriga debatten kring starka likelihoodprincipen, som jag nämner i förbigående i uppsatsens Sect 5.

      2. Eftersom test av olika nollhypoteser kan ge olika teststatistikor låter det fenomen du beskriver i princip inte särskilt förvånande. Besvärande skulle fenomenet bli bara om vi övertolkade p-värden t.ex. som i the fallacy of the transposed conditional.

      Radera
    2. Bra svar på båda punkterna, tack! Jag får nog läsa på lite mer om likelihoodprincipen.

      Radera