Visar inlägg med etikett genetik. Visa alla inlägg
Visar inlägg med etikett genetik. Visa alla inlägg

måndag 20 oktober 2014

Epigenetiken i Överkalix och den statistiska signifikansen: Bygren bryter tystnaden

Minns ni den bloggpost i vintras som jag gav rubriken Om statistisk signifikans, epigenetik och de norrbottniska farmödrarna, i vilken jag påvisade att en medialt uppmärksammad studie från Karolinska inte hade belägg för sina sensationella påståenden om epigenetisk nedärvning av förvärvade egenskaper från farmödrar i Överkalix till deras sondöttrar? Jag är rättså nöjd med den diskussion som blogginlägget genererade, både i det egna kommentarsfältet (se även uppföljaren Om några av reaktionerna på Bygrenincidenten) och annorstädes. Det enda ordentliga minuset härvidlag tycker jag var att studiens huvudförfattare, Lars-Olov Bygren, inte ville delta i diskussionen - annat än med det mycket korta ebrev jag återger i bloggpostens Fotnot 3, där han lakoniskt meddelar: "Vi menar att frågan om multipeltestning inte gällde i detta fall. Det finns tidigare i forskningsfältet många fynd av könsbunden icke-genetisk ärftlighet som gått olika vägar mellan generationerna, också i denna kohort. Vi försöker därför svara på flera olika frågor i samma artikel och tycker inte att vi ska korrigera".

Men nu har han brutit tystnaden! Sedan Dan Hedlin, redaktör för Svenska statistikfrämjandets medlemstidning Qvintensen, utvecklat min kritik och inbjudit Bygren att replikera, så kan vi nu i senate numret (nr 3/2014) ta del av ett omfattande meningsutbyte mellan Hedlin och Bygren. Jag vill verkligen uppmana de läsare som i vintras intresserade sig för Bygrenincidenten, men som måhända bara fick sig till livs "min"1 sida av saken, att ta del av deras diskussion.

Bygren medger nu att massignifikans (vilket är den aspekt som enligt min mening sänker hela studien) är värt att beakta: "Massignifikans nämns tyvärr inte uttryckligen". Han fortsätter med att massignifikansen ändå "finns att se för var och en som förstår statistik och kan göra en avvägd bedömning", och han återkommer längre fram till att "läsarna är fullt kapabla att själva värdera fynden". Det är givetvis sant att vissa läsare (t.ex. Dan Hedlin och jag) har visat sig fullt kapabla till detta, och visst ligger det något sympatiskt i att ha höga tankar om sin läsekrets, men med tanke på den bristande kunskapsnivån i statistik bland forskare i allmänhet vill jag nog ändå mena att upplägget är riskabelt i överkant. Och jag vill faktiskt insistera på att det var direkt olämpligt av Bygren och hans medförfattare att göra saken ännu svårare för läsekretsen genom att i artikeln göra gravt vilseledande påståenden som "The shock of change in food availability seems to give specific transgenerational responses" och (i själva artikelrubriken) "Change in paternal grandmothers' early food supply influenced cardiovascular mortality of the female grandchildren" - påståenden som saknar stöd i det empiriska material som studien bygger på.

Fotnot

1) Som om jag hade personlig äganderätt till idealet vetenskaplig stringens.

fredag 25 april 2014

Att avslöja dålig vetenskap är viktigt

Den vetenskapliga litteraturen är gigantisk, och ofta skyms de viktiga och värdefulla studierna av de dåliga. Dålig forskning är ofta inte bara värdelös, utan sämre än så, då den sprider förvirring och mer allmänt bidrar till ett försämrat signal/brusförhållande i litteraturen.

Därför är det (vilket jag i åtminstone tio års tid påpekat) viktigt att dålig vetenskap avslöjas och exponeras.1 Jag ägnar mig, som trogna läsare vet, själv emellanåt åt denna något oglamorösa och i vetenskapssamhället föga ansedda uppgift. När jag går loss mot sådan uppenbar dårpippi som den engelske teologen Richard Swinburne anspråk på att vetenskapligt argumentera för Guds existens har mina insatser måhända mest bara ett visst underhållningsvärde. Viktigare är att fästa strålkastarljuset på undermålig forskning i fall där denna ytligt sett kan vara till förväxling lik den goda högkvalitativa vetenskapen; se exempelvis mina bloggposter Artificial intelligence and Solomonoff induction, En anspråksfull bok om matematik och evolutionsbiologi och Om statistisk signifikans, epigenetik och de norrbottniska farmödrarna. Sådana enstaka insatser kan inte göra mycket mer än att skrapa på ytan av den uppsjö av dålig forskning som förekommer, men förhoppningsvis kan den ändå bidra till ökad medvetenhet om vikten av kritiskt tänkande och rigorös vetenskaplig metod.

Idag tänkte jag tipsa om ett par ytterligare exempel för den som vill ta del av (den ofta lärorika) nedplockningen av dålig vetenskap:

Fotnoter

1) Den verksamheten skall dock inte förväxlas med den verksamhet som bedrivs på klimatförnekarbloggar med orwellskt kllingande namn som t.ex. Klimatupplysningen, där samvetslösa klimatförnekare (ofta med professorstitlar) går loss mot allehanda klimatforskning, som regel inte för att där skulle finnas några metodfel, utan helt enkelt för att resultaten inte är i linje med vad klimatförnekarna skulle önska. På den klimatvetenskapliga folkbildningsbloggen Uppsalainitiativet, som jag är med och driver, försöker vi, så gott vi hinner med, att bemöta dessa klimatförnekare.

2) Kimmo hör till dem här i Sverige som tar renhållningsarbetet inom vetenskapen på störst allvar. Jag vill t.ex. varmt rekommendera hans och Brent Simpsons kompetenta nedplockning av en vida uppmärksammad men vetenskapligt undermålig studie från 2011 om hur amerikaner uppfattar fördelningen av ekonomiskt välstånd i samhället.

torsdag 13 mars 2014

Om några av reaktionerna på Bygrenincidenten

Då jag häromveckan bloggade över ämnet Om statistisk signifikans, epigenetik och de norrbottniska farmödrarna väckte det lite större genklang än vanligt. Antalet sidvisningar för just det blogginlägget klättrade snabbt till tre gånger det tidigare rekordet för mina bloggposter, samtidigt som mitt inlägg kommenterades flitigt på Facebook och Twitter, liksom i bloggpostens eget kommentarsfält. Jag tänkte idag ge korta reflektioner kring några av dessa reaktioner.

Vad det hela handlar om är det jag här kallar "Bygrenincidenten" - hur en grupp forskare på Karolinska Institutet med professor Lars-Olov Bygren i spetsen lyckades publicera en undermålig epigenetisk studie i den vetenskapliga tidskriften BMC Genetics, och samtidigt få uppmärksamhet i exempelvis DN för sina påstådda (men ogrundade) slutsatser, varefter jag i ovan nämnda bloggpost i rättframma ordalag förklarade det fatala felet i studiens statistiska analys. Felet Bygren et al begår är att de inte tar hänsyn till den så kallade multipelsignifikansproblematik som uppstår då man gör mer än ett hypotestest; se sagda bloggpost (inklusive den mycket pedagogiska xkcd-stripp som finns inklippt) för en närmare förklaring, som kan ses som nödvändig förkunskap för följande diskussion.

De flesta som hört av sig i bloggpostens kommentarsfält instämmer i min analys. Bortsett från ett par mindre välbetänkta kommentarer från Anonym 12:19 respektive Anonym 11:47 vilka går ut på att biologi och statistik inte är samma sak (helt riktigt!) och att jag som statistiker därför inte har kompetens att yttra mig om den statistiska analysen i en biologiuppsats (en helt orimlig slutsats!), så var där egentligen bara en person som på allvar ifrågasatte mitt resonemang, nämligen Arvid Sjölander, forskarassistent i biostatistik vid Karolinska Institutet. Hans ifrågasättande resulterade i ett ganska långt och bitvis intressant meningsutbyte honom och mig emellan.

Sjölander inleddde med att efterfråga ett knivskarpt kriterium för när man behöver multipelsignifikansjustera och när man inte behöver göra det. Jag svarade att jag inte tror att hans fråga fullödigt kan besvaras med "enkla och svart-vita regler som kan följas robotaktigt för att dra rätt slutsats i varje enskild situation" - det kommer alltid att finnas gråzoner och gränsfall där forskarens goda omdöme behöver komma till användning. Men för att påvisa att Bygren et al inte är något sådant gränsfall, utan utgör statistikmissbruk "bortom varje gråzon", formulerade jag följande metodregel, som jag senare i diskussionen döpte till M 17:42:
    Ett vetenskapligt arbete som (a) bekänner sig till det frekventistiska hypotestestningsparadigmet, och (b) gör anspråk på att förkasta en nollhypotes H, är tvungen att påvisa (eller åtminstone troliggöra) att om H vore sann så skulle sannolikheten att förkasta den med den brukade metoden vara låg.
Det fina med formuleringen av denna regel är att den torde vara okontroversiell för alla statistiker oavsett statistikfilosofisk inriktning - frekventisten ansluter sig till den närmast per definition, medan t.ex. en bayesian inte uppfyller (a) och därför inte kan ha problem med regeln. Jag förklarade också på vad sätt Bygren et al bryter mot metodregeln:
    Bygrens et al artikel är så genomsyrad av p-värdesexcersis att vi utan vidare kan konstatera att (a) gäller. Det är också helt klart att (b) gäller, med H={det finns inga samband mellan mor- och farföräldrars mattillgång under förpuberteten och deras barnbarns dödlighet i hjärt- och kärlsjukdomar}, dvs de gör anspråk på att ha stark evidens mot denna hypotes. Emellertid är sannolikheten att förkasta H (om den är sann) med deras metod alls inte låg. Med den orimligt välvilliga tolkningen att de utropar "Vi har stark evidens mot H!" endast om något av deras 24 p-värden blir högst 0,016, så ger Bonferronis metod att sannolikheten att förkasta H blir högst 0,384, vilket alls icke är någon låg sannolikhet. (Möjligen går Bonferroniskattningen att pressa ned något, men det förefaller som ett intrikat problem då testen [...] inte är oberoende, och författarna gör hur som helst ingen ansats i den riktningen.) Troligare förefaller dock, för den som läser artikeln, att författarna hade utropat "Vi har stark evidens mot H!" så snart något av deras 24 p-värden blir högst 0,05. Bonferronis övre skattning av sannolikheten att förkasta H (om H är sann) blir då 24*0,05=1,2, vilket förvisso kan trunkeras ned till 1, men 1 är likväl inte någon låg sannolikhet.

    Bygrens at al arbete bryter alltså mot [M 17:42], och kan därför dömas ut som dålig vetenskap - dålig bortom varje gråzon.

Sjölander sade sig acceptera metodregeln M 17:42, men var ändå inte övertygad eftersom han tyckte sig se ett kryphål för Bygren et al, i det att regelns tal om "den brukade metoden" kan tolkas på olika sätt. Bygren et al kan enligt Sjölander definiera "den brukade metoden" som beräkningen av ett p-värde - en metod som de sedan upprepade 24 gånger, utan att någon gång bryta mot M 17:42.1 Detta gjorde mig en smula bestört, varför jag framhöll (vilket möjligen inte var optimalt för samtalsklimatet) att en sådan argumentation bara kan tas på allvar av den som ser vetenskapen mindre som ett sökande efter sanningen än som jakten på karriärbefrämjande p-värden, och jag karikerade hans tankegång på följande vis:
    "Aha, M 17:42 preciserar inte vad som menas med 'metod'. Då gäller det att hitta ett sätt att tolka 'metod' så att Bygren et al kommer undan med sina slutsatser. Låt oss säga att deras metod är att utföra ett test av nollhypotesen H, och att de sedan upprepar denna metod 24 gånger. Om vi sedan envist insisterar på att upprepandet av denna metod 24 gånger inte i sig utgör en 'metod', då har vi faktiskt konstruerat ett försvar för att Bygren et al hållit sig inom spelreglerna, vilket ju är kanonbra eftersom de därmed kan stoltsera med ett hyggligt p-värde för något riktigt sensationellt, vilket är karriärbefrämjande."
Eftersom Sjölander tidigare i diskussionen vägrat svara på huruvida hans avsikt verkligen var att "försvar[a] Bygren et al, eller om [han] spelar djävulens advokat", så efterfrågade jag ett tydligt ställningstagande från hans sida om huruvida Bygren et al handskats rätt eller fel med sina data. Det tydligaste han kunde leverera var att han
    håller med om att Bygren et al tenderar att övertolka. Specifikt, i sammanfattningen skriver de ”Conclusion: The shock of change in food availability seems to give specific transgenerational responses”. Jag hade inte vågat sammanfatta resultaten på det sättet. [...]

    Så sammanfattningsvis: nej, jag tycker inte att Bygrens artikel är helt bra. Men jag tycker inte heller att den är tillräckligt dålig för att motivera kraftuttryck som [...] ”dålig bortom varje gråzon”.

Det var i själva verket mitt missnöje med dessa försiktiga formuleringar ("tenderar att övertolka", där ord som "tokfel", "falsarium" eller "uppåt väggarna" enligt min mening hade passat bättre), vilka jag tolkade som att Sjölander ändå tyckte att Bygrens et al statistikbehandling befann sig i något slags gråzon, som fick mig att brista ut i ovanstående karikatyr.2 I sin avslutande (?) kommentar valde Sjölander dock att avhålla sig från fortsatta antydningar om att det skulle finnas något gråzonsaktigt i Bygrens et al handskande med statistiken. Istället framhöll han att det i en empirisk studie som denna finns så mycket annat än just den statistiska analysen och de statistiska slutsatserna att bedöma - exempelvis datainsamling och etikprövningsnämndskorrespondens - vilka (såvitt Sjölander kunde se) hanterats utmärkt, varför mitt helhetsomdöme "dålig bortom varje gråzon" tydde på att jag "har lite svårt att uppfatta och förhålla [mig] till nyanser". (Eventuellt bör också den klanderfria stavningen och interpunktionen i artikeln räknas till Bygrens et al fördel.) Själv insisterar jag på att det här med att man skall ha empiriskt stöd i sina åberopade data för de slutsatser man hävdar är så centralt för ett empiriskt inriktat vetenskapligt arbete att om sådant stöd alldeles saknas så kan inget annat rädda arbetet från att räknas som "dåligt bortom varje gråzon".

Nog om mitt meningsutbyte med Arvid Sjölander. I efterdyningarna till Bygrenincidenten och min bloggpost kom även ett par utspel i mainstreammedia där kända vetenskapsjournalister försökte sig på den svåra pedagogiska uppgiften att förklara multipelsignifikansproblematiken för en bredare allmänhet: Ulrika Björkstén på Vetenskapsradion och Karin Bojs i DN.3

Uppmärksamheten i mainstreammedia resulterade sedan i en del ytterligare reaktioner i bloggosfären - en del vettiga, andra mindre vettiga. Låt mig som kuriosa (eller närmast lyteskomik) nämna hur exempellöst fånig den bloggpost är som Lars Kamél, bloggande klimatförnekarfåntratt,4,5 författat med anledning av Karin Bojs DN-kolumn, där han bland annat skriver följande:
    En annan märklig person som nämns i [Karin Bojs]6 artikel är Olle Häggström, professor i statistik och en person som aldrig reagerar på felaktiga användning av statistiska metoder inom klimatvetenskap, men tydligen gör det inom vissa andra områden.

    Både [Bojs] och Häggström är klimathotstroende och sådana anser att andra kriterier gäller för klimatvetenskap än i annan naturvetenskap. Det ser vi gång på gång.

På typiskt klimatförnekarvis är Kamél här inte bara fånig, utan ytterst vårdslös med fakta. Det han skriver om mig är osant. Jag anser inte att "andra [vetenskaplighets-]kriterier gäller för klimatvetenskap än i annan naturvetenskap", och det är inte sant att jag "aldrig reagerar på felaktiga användning av statistiska metoder inom klimatvetenskap". Tvärtom är klimatvetenskapen snarast överrepresenterad bland mina då och då förekommande små utfall mot felaktigt bruk av statistiska metoder. Här är tre exempel:
  • I Axess 7/2010 dömer jag ut den hemmagjorda statistiska metod som används i en artikel av David Douglass, John Christy, Benjamin Pearson och Fred Singer i International Journal of Climatology:
      Artikelns resultat står och faller med en användning av det statistiska redskapet konfidensintervall som är så uppåt väggarna att jag skulle ha slitit mitt hår i förtvivlan om jag ertappat någon av mina Chalmersstudenter med att göra något liknande.
  • I en recensionUppsalainitiativet 2011 av klimatforskaren Raymond Bradleys bok Global Warming and Political Intimidation riktar jag kritik mot hur Bardley och hans medförfattare i en berömd artikel från 1999 tillämpar så kallad principalkomponentanalys:
      Mann, Bradley och Hughes använde sig, till följd av deras ofullkomliga kunskaper i statistisk slutledningsteori, av en klart olämplig normaliseringsmetod i tillämpandet av den statistiska procedur som kallas principalkomponentanalys, något som mycket väl hade kunnat resultera i missvisande slutsatser. Jag finner det osnyggt av Bradley att försöka bagatellisera detta statistiska metodfel och, genom att jämföra det med diskrepensen mellan hans vana att låta havregrynsgröten stå 1 minut och 35 sekunder i mikrovågnsugnen kontra de 1:40 som havregrynspaketet anbefaller, framställa det hela som en smaksak.
  • I min artikel Why the empirical sciences need statistics so desperately (publicerad i en konferensproceedingsvolym förra året) kritiserar jag i Avsnitt 3 klimatforskaren Phil Jones för att han inlåter sig i en p-värdesexcercis implicit baserad på så orealistiska antaganden att den blir till en ren ritual utan vetenskapligt värde.7

Fotnoter

1) Sjölander utvecklade också sitt argument på följande vis:
    Vi kan invända att Bygrens definition ter sig orimlig, givet att han faktiskt har beräknat 24 p-värden i en och samma artikel. Men om nu Bygren hade skrivit 24 artiklar istället för en, med 1 p-värde i varje, så ter sig hans definition helt rimlig, i alla fall för mig.
Det som Sjölander här beskriver som "helt rimlig[t]" är dock enligt min uppfattning (vilket framgår av min nästa replik i meningsutbytet) totalt orimligt. Gissningsvis ändrade sig dock Sjölander på denna punkt, med tanke på dels att vi till slut verkade vara överens om att det är de relevanta vetenskapliga sammanhangen och inte uppdelningen i publiceringar som styr när man skall multipelsignifikansjustera, dels att han längre fram i diskussionen skrev att han "håller med om att Bygren et al tenderar att övertolka".

2) Sjölanders lite undanglidande diskussionsstil gör att jag inte förmår avgöra om det alltjämt återstår någon meningsskiljaktighet honom och mig emellan rörande hur allavrligt det fel är som Bygren et al begår i sin statistiska analys, eller om det bara är hans vårdade språk som får honom att skriva "tenderar att övertolka" istället för "tokfel".

3) Bojs gav i sin artikel credit till mig för att ha avslöjat och förklarat Bygrens et al statistikmissbruk, medan Björkstén av någon anledning valde att inte göra det (trots att det var först efter att ha rådgjort med mig som Vetenskapsradion valde att inte slå på stora trumman för Bygrens et al påstådda resultat).

4) Som ett exempel på den bottenlöst låga nivån på de Kamélska fånerierna, se t.ex. hur han använder begränsningar i analogin mellan växthusets glastak och koldioxidens värmande effekt till att så dubier om det senare.

5) En och annan läsare kanske tycker att jag borde undvika ord som "fånig" och "fåntratt", men eftersom Kamél faktiskt är en fåntratt, samtidigt som jag själv är en närmast principiell motståndare till att såsa till diskussionen med otydlighetsskapande diplomatisk fetvadd, kan förekomsten av de lite sandlådeaktigt klingande orden i detta sammanhang inte hjälpas. (Se även min utläggning om ordet "klimatförnekare".)

6) Kamél ogillar att Bojs inte delar hans konspirationsteorier om att klimatvetenskapen är en enda stor bluff, och använder därför inte hennes riktiga namn, utan ett öknamn han hittat på. Den nivån vill jag inte förfalla till här: Lars Kamél heter såvitt jag vet Lars Kamél på riktigt.

7) Se även Avsnitt 5.1 i samma artikel, där jag går loss mot klimatforskaren Maarten Ambaums förvirrade försök att övertyga sina ämneskollegor om det olämpliga i begreppet statistisk signifikans.

söndag 23 februari 2014

Om statistisk signifikans, epigenetik och de norrbottniska farmödrarna

Dagens Nyheter rapporterade häromdagen om en spännande upptäckt av ett forskarlag på Karolinska Institutet med professor Lars-Olov Bygren i spetsen:1
    Hur din farmor åt som ung kan [...] påverka din hälsa, enligt [en] svensk-brittisk studie publicerad i BMC Genetics.

    Det var i den norrländska byn Överkalix som forskarna gjorde sin upptäckt. Under 1800-talet var byn isolerad och människorna fick klara sig enbart på sina egna förråd. Mattillgången varierade därför kraftigt under året – något som visade sig lämna spår. Forskarna jämförde barnbarnen till människorna som levde då och såg att vissa av dem utmärkte sig: De hade en ökad risk för hjärtsjukdomar. Gemensamt var att de alla var kvinnor och hade en farmor som växt upp under dessa perioder av varierande mattillgång.

    – Det är inte nivån på svälten som spelar roll, utan de stora variationerna. Om det finns gott om mat ena året och sedan dåligt det andra, kan det få effekter, berättar Olle Bygren, verksam vid Karolinska institutet och en av forskarna bakom studien.

    Märkligt nog var det endast sondöttrarna som drabbades. De som hade en mamma, pappa, farfar, mormor eller morfar som växt upp i byn under samma tid, påverkades alltså inte.

Det intressanta med ett resultat som detta är att det tyder på förekomsten av biologisk nedärvning av förvärvade egenskaper. Sådan nedärvning ansågs länge omöjlig och dömdes ut som lamarckism. Denna syn har dock kommit att nyanseras något på senare år genom nya fynd och förklaringsmodeller inom den så kallade epigenetiken - studiet av ärftliga egenskaper som överförs på annat vis än genom DNA. Bygren och hans medförfattare pekar på epigenetiska processer som den troligaste förklaringen till det överraskande sambandet mellan farmödrarnas mattillgång och sondöttrarnas dödlighet i hjärt- och kärlsjukdomar.

Tråkigt nog verkar det dock som att såväl Dagens Nyheter som den vetenskapliga tidskriften BMC Genetics har gått på en rejäl nit. En närmare titt på Bygrens och hans medförfattares artikel, rubricerad Change in paternal grandmothers' early food supply influenced cardiovascular mortality of the female grandchildren, visar nämligen att deras data inte ger något nämnvärt empiriskt stöd för det nedärvningsfenomen de säger sig ha upptäckt.

Varför då denna diskrepans mellan vad Bygren et al påstår, och vad deras data faktiskt säger? För att förklara det behöver jag säga något om begreppen statistisk signifikans och p-värde. Att fullt ut förklara dessa begrepp finns inte utrymme för i denna bloggpost (se emellertid den populärvetenskapliga introduktion Statistisk signifikans och Armageddon jag bjöd på häromåret), men i korthet går de ut på följande. Man utgår från en nollhypotes (i det här fallet att det inte finns något samband mellan farmödrarnas kosttillgång och sondöttrarnas dödlighet i hjärt- och kärlsjukdomar) och ett noga utvalt mått S som sammanfattar de data man har, och jämför det erhållna värdet på S med vad som är att förvänta om nollhypotesen är sann. Med p-värdet menas sannolikheten att få ett värde på S som är minst lika avvikande som det man faktiskt fick, givet att nollhypotesen är sann. Om p-värdet understiger en viss på förhand specificerad gräns (oftast 0,05) säger man att resultatet är statistiskt signifikant. Ett sådant utfall brukar anses tala emot nollhypotesen, grundat i följande logik: att p<0,05 betyder att antingen är nollhypotesen falsk (vilket i detta fall betyder att det faktiskt finns ett samband mellan farmödrarnas kosttillgång och sondöttrarnas dödlighet), eller också har något ganska osannolikt inträffat (specifikt händelsen att p<0,05, vilken under nollhypotesen har sannolikhet högst 0,05).

Bygren et al redovisar ett p-värde på 0,016. Detta skulle indikera en statistiskt signifikant avvikelse från nollhypotesen, och utgöra ett argument för det påstådda sambandet mellan farmödrars kosttillgång och sondöttrars dödlighet, om det inte vore för följande komplikation. Signifikanstestet ifråga är inte det enda Bygren et al gjort, utan endast ett av 24 olika test som de redovisar, svarandes mot fyra olika val av far- eller morförälder (mormor, morfar, farmor, farfar), två olika val av kön på barnbarnet, och tre olika val av mattillgångsmönster under far- eller morförälderns förpubertet (24=4∗2∗3). Om man gör tillräckligt många olika test så blir till slut sannolikheten att få statistisk signifikans i minst ett av testen stor - även om nollhypotesen genomgående är sann. I det här fallet blir det i genomsnitt förväntade antalet p-värden om 0,016 eller mindre 24∗0,016=0,384. Med andra ord: i genomsnitt ett sådant p-värde i drygt var tredje studie av detta slag. Bygren et al fick ett sådant p-värde. Inte mycket att skriva hem om, och absolut inget som berättigar formuleringar som "Change in paternal grandmothers' early food supply influenced cardiovascular mortality of the female grandchildren".2,3,4

Det bygrenska tillvägagångssättet är i allt väsentligt detsamma som det som xkcd-tecknaren Randall Munroe illustrerar i följande stripp, vilken jag härmed återanvänder från en tidigare bloggpost:

Jag ser detta karolinska debacle som ännu en i raden av illustrationer till min käpphäst om "de empiriska vetenskapernas desperata behov av statistisk kompetens".

Fotnoter

1) Även Svenska Dagbladets hälsobloggare Henrik Ennart rapporterar om samma forskningsstudie.

2) Det är inte något fel i sig att testa många hypoteser, men i tolkningen av sina resultat behöver man ta hänsyn till att man gjort det. Det finns etablerade statistiska metoder för det.

3) När jag påtalade detta för Lars-Olov Bygren visade han inga tecken på att förstå eller vilja bry sig om problematiken med multipla signifikanstest. Här är mitt ebrev till honom den 20 februari kl 08:25:
    Hej Lars Olov

    Jag har läst din och dina medförfattares studie i BMC Genetics (http://www.biomedcentral.com/content/pdf/1471-2156-15-12.pdf) som DN rapporterar om idag, och undrar lite över statistiken. Tacksam om du kan svara.

    Av Tabell 1 och 2 framgår att ni gjort 24 olika signifikanstest. Det bästa p-värde ni rapporterar om är p=0.016. Under nollhypotesen att någon epigenetisk effekt av det slag ni söker inte föreligger är det förväntade (genomsnittliga) antalet minst så bra p-värden 24*0.016=0.384, dvs i genomsnitt ett sådant p-värde drygt var tredje gång man gör en sådan studie. Har ni vidtagit några åtgärder för att hantera detta problem, som vi statistiker kallar massignifikansproblemet och som innebär att om blott man testar tillräckligt många hypoteser så kan man vänta sig att få signifikans i något eller några av testen även om ingen verklig effekt föreligger?

    Vänliga hälsningar

    Olle Häggström
    professor i matematisk statistik, Chalmers
    http://www.math.chalmers.se/~olleh/

Bygrens svar till mig den 21 februari kl 10:23:
    Hej igen!
    Tack för din fråga.
    Vi menar att frågan om multipeltestning inte gällde i detta fall. Det finns tidigare i forskningsfältet många fynd av könsbunden icke-genetisk ärftlighet som gått olika vägar mellan generationerna, också i denna kohort. Vi försöker därför svara på flera olika frågor i samma artikel och tycker inte att vi ska korrigera.
    Mekanismerna är det intressanta och på människa är de inte utredda.
    Jag hoppas att vi har kommenterat fynden med försiktighet eftersom konfidensintervallen är så breda och överlappar i jämförelserna.
    Vänliga hälsningar
    Olle Bygren
Och avslutningsvis mitt svar till Bygren den 21 februari kl 11:14:
    Tack för rättframt och uppriktigt svar! Vad gäller det här med att ni skulle ha "kommenterat fynden med försiktighet" kan jag inte se att ni gjort det med den grad försiktighet som det bristande evidensläget motiverar.

    Olle H

4) Jag har inte haft tid att titta närmare på de tidigare studier (publicerade 2001, 2002, 2006 och 2007) där samma gruppering av forskare presenterar besläktade slutsatser baserat på samma datamaterial. Möjligen kunde det vara värt besväret att kolla upp om författarna i dessa tidigare arbeten tar problemet med massignifikans på större allvar än i den nu aktuella studien, eller om samma nonchalans tillämpats genomgående.