Då jag häromveckan bloggade över ämnet
Om statistisk signifikans, epigenetik och de norrbottniska farmödrarna väckte det lite större genklang än vanligt. Antalet sidvisningar för just det blogginlägget klättrade snabbt till tre gånger det tidigare rekordet för mina bloggposter, samtidigt som mitt inlägg kommenterades flitigt på Facebook och Twitter, liksom i bloggpostens eget kommentarsfält. Jag tänkte idag ge korta reflektioner kring några av dessa reaktioner.
Vad det hela handlar om är det jag här kallar "Bygrenincidenten" - hur en grupp forskare på Karolinska Institutet med professor Lars-Olov Bygren i spetsen lyckades publicera en undermålig epigenetisk studie i den vetenskapliga tidskriften BMC Genetics, och samtidigt få uppmärksamhet i exempelvis
DN för sina påstådda (men ogrundade) slutsatser, varefter jag i
ovan nämnda bloggpost i rättframma ordalag förklarade det fatala felet i studiens statistiska analys. Felet Bygren et al begår är att de inte tar hänsyn till den så kallade multipelsignifikansproblematik som uppstår då man gör mer än ett hypotestest; se
sagda bloggpost (inklusive den mycket pedagogiska xkcd-stripp som finns inklippt) för en närmare förklaring, som kan ses som nödvändig förkunskap för följande diskussion.
De flesta som hört av sig i
bloggpostens kommentarsfält instämmer i min analys. Bortsett från ett par mindre välbetänkta kommentarer från
Anonym 12:19 respektive
Anonym 11:47 vilka går ut på att biologi och statistik inte är samma sak (helt riktigt!) och att jag som statistiker därför inte har kompetens att yttra mig om den statistiska analysen i en biologiuppsats (en helt orimlig slutsats!), så var där egentligen bara en person som på allvar ifrågasatte mitt resonemang, nämligen
Arvid Sjölander, forskarassistent i biostatistik vid Karolinska Institutet. Hans ifrågasättande resulterade i ett ganska långt och bitvis intressant meningsutbyte honom och mig emellan.
Sjölander inleddde med att
efterfråga ett knivskarpt kriterium för när man behöver multipelsignifikansjustera och när man inte behöver göra det. Jag
svarade att jag inte tror att hans fråga fullödigt kan besvaras med
"enkla och svart-vita regler som kan följas robotaktigt för att dra rätt slutsats i varje enskild situation" - det kommer alltid att finnas gråzoner och gränsfall där forskarens goda omdöme behöver komma till användning. Men för att påvisa att Bygren et al
inte är något sådant gränsfall, utan utgör statistikmissbruk
"bortom varje gråzon", formulerade jag följande metodregel, som jag senare i diskussionen döpte till M 17:42:
Ett vetenskapligt arbete som (a) bekänner sig till det frekventistiska hypotestestningsparadigmet, och (b) gör anspråk på att förkasta en nollhypotes H, är tvungen att påvisa (eller åtminstone troliggöra) att om H vore sann så skulle sannolikheten att förkasta den med den brukade metoden vara låg.
Det fina med formuleringen av denna regel är att den torde vara okontroversiell för alla statistiker oavsett statistikfilosofisk inriktning - frekventisten ansluter sig till den närmast per definition, medan t.ex. en bayesian inte uppfyller (a) och därför inte kan ha problem med regeln. Jag förklarade också på vad sätt Bygren et al bryter mot metodregeln:
Bygrens et al artikel är så genomsyrad av p-värdesexcersis att vi utan vidare kan konstatera att (a) gäller. Det är också helt klart att (b) gäller, med H={det finns inga samband mellan mor- och farföräldrars mattillgång under förpuberteten och deras barnbarns dödlighet i hjärt- och kärlsjukdomar}, dvs de gör anspråk på att ha stark evidens mot denna hypotes. Emellertid är sannolikheten att förkasta H (om den är sann) med deras metod alls inte låg. Med den orimligt välvilliga tolkningen att de utropar "Vi har stark evidens mot H!" endast om något av deras 24 p-värden blir högst 0,016, så ger Bonferronis metod att sannolikheten att förkasta H blir högst 0,384, vilket alls icke är någon låg sannolikhet. (Möjligen går Bonferroniskattningen att pressa ned något, men det förefaller som ett intrikat problem då testen [...] inte är oberoende, och författarna gör hur som helst ingen ansats i den riktningen.) Troligare förefaller dock, för den som läser artikeln, att författarna hade utropat "Vi har stark evidens mot H!" så snart något av deras 24 p-värden blir högst 0,05. Bonferronis övre skattning av sannolikheten att förkasta H (om H är sann) blir då 24*0,05=1,2, vilket förvisso kan trunkeras ned till 1, men 1 är likväl inte någon låg sannolikhet.
Bygrens at al arbete bryter alltså mot [M 17:42], och kan därför dömas ut som dålig vetenskap - dålig bortom varje gråzon.
Sjölander
sade sig acceptera metodregeln M 17:42, men var ändå inte övertygad eftersom han tyckte sig se ett kryphål för Bygren et al, i det att regelns tal om
"den brukade metoden" kan tolkas på olika sätt. Bygren et al kan enligt Sjölander definiera
"den brukade metoden" som beräkningen av
ett p-värde - en metod som de sedan upprepade 24 gånger, utan att någon gång bryta mot M 17:42.
1 Detta gjorde mig en smula bestört, varför
jag framhöll (vilket möjligen inte var optimalt för samtalsklimatet) att en sådan argumentation bara kan tas på allvar av den som ser vetenskapen mindre som ett sökande efter sanningen än som jakten på karriärbefrämjande p-värden, och jag karikerade hans tankegång på följande vis:
"Aha, M 17:42 preciserar inte vad som menas med 'metod'. Då gäller det att hitta ett sätt att tolka 'metod' så att Bygren et al kommer undan med sina slutsatser. Låt oss säga att deras metod är att utföra ett test av nollhypotesen H, och att de sedan upprepar denna metod 24 gånger. Om vi sedan envist insisterar på att upprepandet av denna metod 24 gånger inte i sig utgör en 'metod', då har vi faktiskt konstruerat ett försvar för att Bygren et al hållit sig inom spelreglerna, vilket ju är kanonbra eftersom de därmed kan stoltsera med ett hyggligt p-värde för något riktigt sensationellt, vilket är karriärbefrämjande."
Eftersom Sjölander tidigare i diskussionen vägrat svara på huruvida hans avsikt verkligen var att
"försvar[a] Bygren et al, eller om [han] spelar djävulens advokat", så efterfrågade jag ett tydligt ställningstagande från hans sida om huruvida Bygren et al handskats rätt eller fel med sina data. Det
tydligaste han kunde leverera var att han
håller med om att Bygren et al tenderar att övertolka. Specifikt, i sammanfattningen skriver de ”Conclusion: The shock of change in food availability seems to give specific transgenerational responses”. Jag hade inte vågat sammanfatta resultaten på det sättet. [...]
Så sammanfattningsvis: nej, jag tycker inte att Bygrens artikel är helt bra. Men jag tycker inte heller att den är tillräckligt dålig för att motivera kraftuttryck som [...] ”dålig bortom varje gråzon”.
Det var i själva verket mitt missnöje med dessa försiktiga formuleringar (
"tenderar att övertolka", där ord som
"tokfel",
"falsarium" eller
"uppåt väggarna" enligt min mening hade passat bättre), vilka jag tolkade som att Sjölander ändå tyckte att Bygrens et al statistikbehandling befann sig i något slags gråzon, som fick mig att brista ut i ovanstående karikatyr.
2 I sin
avslutande (?) kommentar valde Sjölander dock att avhålla sig från fortsatta antydningar om att det skulle finnas något gråzonsaktigt i Bygrens et al handskande med statistiken. Istället framhöll han att det i en empirisk studie som denna finns
så mycket annat än just den statistiska analysen och de statistiska slutsatserna att bedöma - exempelvis datainsamling och etikprövningsnämndskorrespondens - vilka (såvitt Sjölander kunde se) hanterats utmärkt, varför mitt helhetsomdöme
"dålig bortom varje gråzon" tydde på att jag
"har lite svårt att uppfatta och förhålla [mig]
till nyanser". (Eventuellt bör också den klanderfria stavningen och interpunktionen i artikeln räknas till Bygrens et al fördel.) Själv
insisterar jag på att det här med att
man skall ha empiriskt stöd i sina åberopade data för de slutsatser man hävdar är så centralt för ett empiriskt inriktat vetenskapligt arbete att om sådant stöd alldeles saknas så kan inget annat rädda arbetet från att räknas som
"dåligt bortom varje gråzon".
Nog om mitt meningsutbyte med Arvid Sjölander. I efterdyningarna till Bygrenincidenten och min bloggpost kom även ett par utspel i mainstreammedia där kända vetenskapsjournalister försökte sig på den svåra pedagogiska uppgiften att förklara multipelsignifikansproblematiken för en bredare allmänhet:
Ulrika Björkstén på Vetenskapsradion och
Karin Bojs i DN.
3
Uppmärksamheten i mainstreammedia resulterade sedan i en del ytterligare reaktioner i bloggosfären - en del vettiga, andra mindre vettiga. Låt mig som kuriosa (eller närmast lyteskomik) nämna hur exempellöst fånig
den bloggpost är som Lars Kamél, bloggande klimatförnekarfåntratt,
4,5 författat med anledning av Karin Bojs DN-kolumn, där han bland annat skriver följande:
En annan märklig person som nämns i [Karin Bojs]6 artikel är Olle Häggström, professor i statistik och en person som aldrig reagerar på felaktiga användning av statistiska metoder inom klimatvetenskap, men tydligen gör det inom vissa andra områden.
Både [Bojs] och Häggström är klimathotstroende och sådana anser att andra kriterier gäller för klimatvetenskap än i annan naturvetenskap. Det ser vi gång på gång.
På typiskt klimatförnekarvis är Kamél här inte bara fånig, utan ytterst vårdslös med fakta. Det han skriver om mig är osant. Jag anser
inte att
"andra [vetenskaplighets-]
kriterier gäller för klimatvetenskap än i annan naturvetenskap", och det är
inte sant att jag
"aldrig reagerar på felaktiga användning av statistiska metoder inom klimatvetenskap". Tvärtom är klimatvetenskapen snarast överrepresenterad bland mina då och då förekommande små utfall mot felaktigt bruk av statistiska metoder. Här är tre exempel:
- I Axess 7/2010 dömer jag ut den hemmagjorda statistiska metod som används i en artikel av David Douglass, John Christy, Benjamin Pearson och Fred Singer i International Journal of Climatology:
Artikelns resultat står och faller med en användning av det statistiska redskapet konfidensintervall som är så uppåt väggarna att jag skulle ha slitit mitt hår i förtvivlan om jag ertappat någon av mina Chalmersstudenter med att göra något liknande.
- I en recension på Uppsalainitiativet 2011 av klimatforskaren Raymond Bradleys bok Global Warming and Political Intimidation riktar jag kritik mot hur Bardley och hans medförfattare i en berömd artikel från 1999 tillämpar så kallad principalkomponentanalys:
Mann, Bradley och Hughes använde sig, till följd av deras ofullkomliga kunskaper i statistisk slutledningsteori, av en klart olämplig normaliseringsmetod i tillämpandet av den statistiska procedur som kallas principalkomponentanalys, något som mycket väl hade kunnat resultera i missvisande slutsatser. Jag finner det osnyggt av Bradley att försöka bagatellisera detta statistiska metodfel och, genom att jämföra det med diskrepensen mellan hans vana att låta havregrynsgröten stå 1 minut och 35 sekunder i mikrovågnsugnen kontra de 1:40 som havregrynspaketet anbefaller, framställa det hela som en smaksak.
- I min artikel Why the empirical sciences need statistics so desperately (publicerad i en konferensproceedingsvolym förra året) kritiserar jag i Avsnitt 3 klimatforskaren Phil Jones för att han inlåter sig i en p-värdesexcercis implicit baserad på så orealistiska antaganden att den blir till en ren ritual utan vetenskapligt värde.7
Fotnoter
1) Sjölander utvecklade också sitt argument på följande vis: Vi kan invända att Bygrens definition ter sig orimlig, givet att han faktiskt har beräknat 24 p-värden i en och samma artikel. Men om nu Bygren hade skrivit 24 artiklar istället för en, med 1 p-värde i varje, så ter sig hans definition helt rimlig, i alla fall för mig.
Det som Sjölander här beskriver som "helt rimlig[t]" är dock enligt min uppfattning (vilket framgår av min nästa replik i meningsutbytet) totalt orimligt. Gissningsvis ändrade sig dock Sjölander på denna punkt, med tanke på dels att vi till slut verkade vara överens om att det är de relevanta vetenskapliga sammanhangen och inte uppdelningen i publiceringar som styr när man skall multipelsignifikansjustera, dels att han längre fram i diskussionen skrev att han "håller med om att Bygren et al tenderar att övertolka".
2) Sjölanders lite undanglidande diskussionsstil gör att jag inte förmår avgöra om det alltjämt återstår någon meningsskiljaktighet honom och mig emellan rörande hur allavrligt det fel är som Bygren et al begår i sin statistiska analys, eller om det bara är hans vårdade språk som får honom att skriva "tenderar att övertolka" istället för "tokfel".
3) Bojs gav i sin artikel credit till mig för att ha avslöjat och förklarat Bygrens et al statistikmissbruk, medan Björkstén av någon anledning valde att inte göra det (trots att det var först efter att ha rådgjort med mig som Vetenskapsradion valde att inte slå på stora trumman för Bygrens et al påstådda resultat).
4) Som ett exempel på den bottenlöst låga nivån på de Kamélska fånerierna, se t.ex.
hur han använder begränsningar i analogin mellan växthusets glastak och koldioxidens värmande effekt till att så dubier om det senare.
5) En och annan läsare kanske tycker att jag borde undvika ord som "fånig" och "fåntratt", men eftersom Kamél faktiskt
är en fåntratt, samtidigt som jag själv är en närmast principiell motståndare till att såsa till diskussionen med otydlighetsskapande diplomatisk fetvadd, kan förekomsten av de lite sandlådeaktigt klingande orden i detta sammanhang inte hjälpas. (Se även
min utläggning om ordet "klimatförnekare".)
6) Kamél ogillar att Bojs inte delar hans konspirationsteorier om att klimatvetenskapen är en enda stor bluff, och använder därför inte hennes riktiga namn, utan ett öknamn han hittat på. Den nivån vill jag inte förfalla till här: Lars Kamél heter såvitt jag vet Lars Kamél på riktigt.
7) Se även Avsnitt 5.1 i samma artikel, där jag går loss mot klimatforskaren Maarten Ambaums förvirrade försök att övertyga sina ämneskollegor om det olämpliga i begreppet statistisk signifikans.
Ordentliga statistiska metoder är förstås viktigt, men det tycks mig som om boven i dramat lika mycket är traditionen att tala om "statistisk signifikans" så fort p<0.05. Olle, du som är statistiker kanske kan svara på varifrån den seden kommer. Den känns lite gammaldags i informationens tidsålder. Ett p-värde strax under 0.05 kan väl snarare beskrivas som "möjligen värt att fortsätta undersöka".
SvaraRaderaEn elak misstanke är att man behöver dessa ganska stora p-värden i skolexempel för att förklara problemen med multipla tester, användande av data som genererade hypotesen och så vidare. Och att det sedan blir självmål när studenterna tar med sig att p<0.05 är "signifikant".
Eftersom p-värdet minskar exponentiellt med mer data om effekten är verklig, tycks det mig som om en rimligare tumregel, om man nu ska ha någon, vore till exempel p<0.000000000001. Och att man eventuellt kunde vara ursäktad att uttala sig med sämre p-värden om man kan förklara varför det inte med rimliga ansträngningar går att skaffa fram mer data.
Nu är det förstås i många sammanhang, till exempel medicinska, dyrt och tidskrävande att få fram data, och alltför stor försiktighet gentemot nya rön kan också vara ett kostsamt misstag. Så en policy att bara strunta i Holm-Bonferroni och allt vad det heter, och i stället upprepa försöken tills p-värdet är en på Avogadros tal, fungerar förstås inte heller.
Men i en värld av "big data" och forskningsrapporter till höger och vänster verkar det absurt att ha en standard som säger "p<0.05, publicera!". Eller om man ska vara lite elakare och mer catchy, "En på tjugo, ut och ljug!".
Det syns inte riktigt på mina Bygren-bloggposter (vilket jag skyller på att jag funnit det svårare att nå fram när man kritiserar mer än en sak i taget), men jag håller i själva verket med dig helt och hållet, Johan! Ett p-värde strax under 0,05 signalerar typiskt inte mycket mer än "hm, det här skulle möjligen vara intressant att undersöka vidare" (om ens det). Vanföreställningen att p<0,05 skulle vara rimligt att översätta till något i stil med "beyond reasonable doubt" är dock förfärligt utbredd, och om jag inte hade något mer stimulerande för mig skulle jag lätt kunna göra hackandet på dylika idéer till en (rättså enahanda och otacksam) heltidssysselsättning.
RaderaKonventionen p<0,05 går för övrigt tillbaka till Fisher. Wikipedia förtäljer:
"The present-day concept of statistical significance originated by Ronald Fisher when he developed statistical hypothesis testing, which he described as 'tests of significance', in his 1925 publication, Statistical Methods for Research Workers. Fisher suggested a probability of one-in-twenty (0.05) as a convenient cutoff level to reject the null hypothesis. In their 1933 paper, Jerzy Neyman and Egon Pearson recommended that the significance level (e.g., 0.05), which they called α, be set ahead of time, prior to any data collection.
Despite his suggestion of 0.05 as a significance level, Fisher did not intend this cutoff value to be fixed and in his 1956 publication, Statistical methods and scientific inference, he even recommended that significant levels be set according to specific circumstances."
Angående "beyond reasonable doubt" så drog man enligt Gunnar Blom tidigare i rattfyllerisammanhang av 0.13 promille (numera tydligen 0.07 promille) från ens alkoholhalt och detta för att uppnå typ I-felet 1% som alltså skulle vara juristers tolkning av "bortom rimligt tvivel". Brukar dra detta som ett exempel om hypotesprövning beskrivet i
Raderahttp://www.math.kth.se/matstat/gru/godis/rattfull.pdf