fredag 20 mars 2015

Geoff Cummings dansande p-värden

Följande video, där den i statistisk metodologi engagerade psykologiprofessorn Geoff Cumming argumenterar emot bruket av så kallade p-värden, har nästan blivit viral nu efter tidskriften Basic and Applied Social Psychologys (BASP) intellektuella haveri häromsistens. För att maximalt uppskatta Cummings presentation bör man nog helst redan vara bekant med p-värde och besläktade statistiska begrepp (en bekantskap som med fördel kan stiftas genom att läsa Avsnitt 1 och 2 i min uppsats Statistisk signifikans och Armageddon), men för all del, lite roande kan den nog vara ändå.

Mina känslor inför videon är något blandade, och låt mig göra följande kommentarer.
    1. Vad gäller Cummings insats ur pedagogisk, presentationsteknisk och retorisk synvinkel kan jag inte annat göra än att lyfta på hatten - ett riktigt mästerstycke!

    2. Cumming har helt klart en poäng i att det ofta kan vara mer upplysande att redovisa sina vetenskapliga resultat i termer av konfidensintervall jämfört med att bara uppge p-värden. I ett enkelt renodlat exempel som det Cumming presenterar är det en utmärkt idé, men någon universell mirakelmedicin är det inte. Att beräkna ett konfidensintervall inbegriper motsvarigheten till beräknande av p-värden för alla möjliga parametervärden samtidigt, och i mer komplicerade sammanhang (inte minst då mer än en okänd parameter föreligger) visar detta sig ofta vara matematiskt ogörligt och/eller leda till långt mer komplicerade och svårtolkade konfidensmängder än de snälla intervall som fås i videon.

    3. Den p-värdesdans som Cumming demonstrerar i videon är följden av en kombination av måttlig effektstorlek och litet stickprov. Om det stämmer, som Cumming säger, att simuleringens effekt- och stickprovsstorlek är typiska för empiriska studier i psykologi, så anser jag att den viktigaste lärdomen av hans exempel inte handlar om att det skulle vara något fel på p-värdesbegreppet i sig. Snarare är lärdomen denna: att psykologer behöver bli mer stringenta i sina så kallade styrkeanalyser, vilket betyder att de behöver se till att deras stickprov är tillräckligt stora för att någorlunda tillförlitligt kunna detektera rimliga nivåer på effektstorleken. (Detsamma kan sägas om ekonomen Robert Östlings simuleringsexempel på Ekonomistas häromsistens.)

    4. I den högljudda skara av mestadels statistikteoretiskt okunniga anti-p-värdesfundamentalister som jublar över ovan nämnda BASP-tilltag att bannlysa p-värden är det många som hänvisar till Cummings video. Även om det vore fel att lasta Cumming för alla fåraktigheter som yttrats i denna diskussion, så har han med sina svepande generaliseringar (t.ex. "For a typical experiment, p tells you virtually nothing", 6:50 in i videon) helt klart uppmuntrat till en del dumheter. Ett typexempel, som fått stor spridning, är följande yttrande av neurologen Steven Novella:

      Another problem with the p-value is that it is not highly replicable. This is demonstrated nicely by Geoff Cumming as illustrated with a video. He shows, using computer simulation, that if one study achieves a p-value of 0.05, this does not predict that an exact replication will also yield the same p-value.
    Att tala om replikerbarhet hos p-värden är så malplacerat att jag tar mig för pannan. Ett p-värde är inte en parameter hos den okända fördelning som forskaren är ute efter att skatta, utan ett mått på i vad mån de erhållna data kan anses tala emot den så kallade nollhypotesen. Att kritisera p-värdesbegreppet för bristande replikerbarhet är som att vägra inse att data är osäkra. Face it: ett nytt experiment betyder nya data - och ett nytt p-värde. Den som accepterar logiken i att döma ut p-värdet på denna grund kan lika gärna döma ut själva datainsamingen - data blir ju olika varje gång, och är på så vis inte replikerbara! En orimlig slutsats, givetvis, men sådan är Novellas bisarra logik.

    5. Det finns mycket kritiskt att säga om hur p-värden och statistisk signifikans används och tolkas i praktiken på många områden. Viktigt är emellertid att inte kasta ut barnet med badvattnet. Det är vantolkningarna och det felaktiga bruket av p-värden och statistisk signifikans som bör bekämpas, inte begreppen själva, som ofta erbjuder mycket viktiga statistiska redskap. En (i övrigt värdefull och intressant) bok som begår samma barn-med-badvattensutkastning som BASP-redaktionen är Stephen Ziliaks och Deirdre McCloskeys The Cult of Statistical Significance från 2008. I min recension av den boken sammanfattade jag min syn på saken så här:

      The Cult of Statistical Significance is written in an entertaining and polemical style. Sometimes the authors push their position a bit far, such as when they ask themselves: "If null-hypothesis significance testing is as idiotic as we and its other critics have so long believed, how on earth has it survived?" (p. 240). Granted, the single-minded focus on statistical significance that they label sizeless science is bad practice. Still, to throw out the use of significance tests would be a mistake, considering how often it is a crucial tool for concluding with confidence that what we see really is a pattern, as opposed to just noise. For a data set to provide reasonable evidence of an important deviation from the null hypothesis, we typically need both statistical and subject-matter significance.

1 kommentar:

  1. Jag brukade göra medicinarna ledsna när jag jobbade i läkemedelsbranschen genom att säga (lite ohederligt) att p-värdet snarare var ett mått på antalet försökspersoner än effektstorleken. En stor studie med halvdant p-värde för effekten innebär ju i stort sett ingenting för den enskilde patienten även om det kan betyda mycket i en population (t ex folkhälsomässigt). Den minsta övertygande publicerade studie jag hört talas om var med n=1 (eller möjligen n=2) nämligen en person som fått en tvestjärt i vardera örat och som (randomiserat) utsattes för två olika metoder att få ut tvestjärten - en i vardera örat, varav den ena funkade blixtsnabbt.

    SvaraRadera