måndag 20 oktober 2014

Epigenetiken i Överkalix och den statistiska signifikansen: Bygren bryter tystnaden

Minns ni den bloggpost i vintras som jag gav rubriken Om statistisk signifikans, epigenetik och de norrbottniska farmödrarna, i vilken jag påvisade att en medialt uppmärksammad studie från Karolinska inte hade belägg för sina sensationella påståenden om epigenetisk nedärvning av förvärvade egenskaper från farmödrar i Överkalix till deras sondöttrar? Jag är rättså nöjd med den diskussion som blogginlägget genererade, både i det egna kommentarsfältet (se även uppföljaren Om några av reaktionerna på Bygrenincidenten) och annorstädes. Det enda ordentliga minuset härvidlag tycker jag var att studiens huvudförfattare, Lars-Olov Bygren, inte ville delta i diskussionen - annat än med det mycket korta ebrev jag återger i bloggpostens Fotnot 3, där han lakoniskt meddelar: "Vi menar att frågan om multipeltestning inte gällde i detta fall. Det finns tidigare i forskningsfältet många fynd av könsbunden icke-genetisk ärftlighet som gått olika vägar mellan generationerna, också i denna kohort. Vi försöker därför svara på flera olika frågor i samma artikel och tycker inte att vi ska korrigera".

Men nu har han brutit tystnaden! Sedan Dan Hedlin, redaktör för Svenska statistikfrämjandets medlemstidning Qvintensen, utvecklat min kritik och inbjudit Bygren att replikera, så kan vi nu i senate numret (nr 3/2014) ta del av ett omfattande meningsutbyte mellan Hedlin och Bygren. Jag vill verkligen uppmana de läsare som i vintras intresserade sig för Bygrenincidenten, men som måhända bara fick sig till livs "min"1 sida av saken, att ta del av deras diskussion.

Bygren medger nu att massignifikans (vilket är den aspekt som enligt min mening sänker hela studien) är värt att beakta: "Massignifikans nämns tyvärr inte uttryckligen". Han fortsätter med att massignifikansen ändå "finns att se för var och en som förstår statistik och kan göra en avvägd bedömning", och han återkommer längre fram till att "läsarna är fullt kapabla att själva värdera fynden". Det är givetvis sant att vissa läsare (t.ex. Dan Hedlin och jag) har visat sig fullt kapabla till detta, och visst ligger det något sympatiskt i att ha höga tankar om sin läsekrets, men med tanke på den bristande kunskapsnivån i statistik bland forskare i allmänhet vill jag nog ändå mena att upplägget är riskabelt i överkant. Och jag vill faktiskt insistera på att det var direkt olämpligt av Bygren och hans medförfattare att göra saken ännu svårare för läsekretsen genom att i artikeln göra gravt vilseledande påståenden som "The shock of change in food availability seems to give specific transgenerational responses" och (i själva artikelrubriken) "Change in paternal grandmothers' early food supply influenced cardiovascular mortality of the female grandchildren" - påståenden som saknar stöd i det empiriska material som studien bygger på.

Fotnot

1) Som om jag hade personlig äganderätt till idealet vetenskaplig stringens.

19 kommentarer:

  1. Karin Bojs råd till forskare, att samarbeta mer med professionella statistiker, är ett råd som många borde lyssna på. Det gäller inte bara forskare.

    Attityden "kan själv" som jag väldigt ofta stött på i alla möjliga sammanhang då statistik tillämpas upphör inte att förvåna mig. Utom, märkligt nog, understundom vid frågan om 1000 individer "räcker" som urvalsstorlek. Då måste en statistiker kontaktas, annars vet man själv bäst.

    Eller är det så att statistiker är jobbiga typer som säger att den där slutsatsen finns det inget stöd för? Därför bör man hålla sig borta från dem?

    För det hade en statistiker sagt om artikeln av Bygren et al som Olle uppmärksammade. I diskussionen i Qvintensen nr 2/14 skriver jag "Det jag vill kritisera i Bygren et al. (2014) är framför allt att författarna bryter mot en viktig regel som gäller forskare: den att vara självkritisk mot sina egna resultat, och då främst detta: Den uppenbara, alternativa tolkningen diskuteras inte i artikeln: att sannolikheten att få dessa testresultat om nollhypotesen vore sann (p.g.a. massignifikans) inte alls är särskilt låg."

    En kollega erinrade sig att hen sett namnet Bygren förut och visade mig en diskussion i Läkartidningen där Adam Taube kritiserar en doktorsavhandling som Lars Olov Bygren var handledare för. Den godkändes men betygsnämnden var oenig i sitt beslut. Även den repliken, på Taubes kritik, tycker jag visar på bristande självkritik där Taubes mycket pedagogiska förklaring av vad som gjorts fel avfärdas som "teknikaliteter" och "vindlande tankegång". En pdf med den diskussionen finns på den här länken: http://www.lakartidningen.se/OldPdfFiles/2001/22362.pdf.

    SvaraRadera
  2. Studien i fråga utförde ingen korrektion för multipla tester. Det borde den ha gjort. Även om detta inte hade varit ett problem är konfidensintervallets bredd så stort att man borde ha varit extremt försiktig i sina slutsatser och inte alls lyft fram det som rubrik eller huvudsakligt fynd. Inga invändningar här och personligen tycker jag att studien har begränsat vetenskapligt värde.

    Problemet är dock att kritiken ni levererar fortfarande befinner sig inom NHST-paradigmet och därför har uppenbara brister.

    Den uppmätta effektstorleken 2.69 är tillräckligt stor för att vara av medicinskt intresse. Denna slutsats står och faller inte med huruvida konfidensintervallet överlappar eller ej överlappar 1 (analogt till huruvida p värdet passerar den vidskepliga gränsen 0.05 eller ej).

    Detta beror på att den relativa trovärdigheten (se t.ex. s. 95-102 i Cumming, 2012) är centrerat runt effektstorleken och avtar kraftigt åt båda hållen (den s.k. "cat's eye picture"). Precis innanför och precis utanför konfidensintervallets slut är den relativa trovärdigheten mer eller mindre lika (analogt till att 0.04 och 0.06 är ungefär samma evidens mot nollhypotesen). Med andra ord visar konfidensintervallet (korrigerat eller ej) att nollhypotesen är osannolik.

    Korrektion för multipla tester blir därför i det här fallet enbart relevant om man har en överdriven fokus på p-värden istället för på riktig vetenskap som:

    - vad blev effektmåttet?
    - hur precist var effektmåttet skattat?
    - vad betyder effektmåtten och deras precision i den vetenskapliga kontexten?

    osv.

    Jag vänder mig även mot föreställningen att man ska bedöma konfidensintervall genom att mentalt översätta det till p-värde och återinföra fokus på den vidskepliga 0.05 gränsen som om den hade någon vetenskaplig relevans. Syftet med konfidensintervall ska inte vara att göra ett visuellt statistiskt signifikanstest; syftet är att ge ett intervall av trovärdiga värden på effektmåttet och att få en uppfattning om precision för att ge grund till en tolkning av de vetenskapliga resultaten.

    Det är mycket vettigt att forskare samarbetar med statistiker. Forskare har ett gigantiskt ansvar att inte använda statistik felaktigt och de använder ofta statistik på ett felaktigt eller irrelevant sätt. Jag har själv irriterat mig oerhört mycket på detta.

    Tyvärr så är en del statistiker också en del av problemet. Det finns en myriad av statistiska signifikanstester som i stora drag saknar vetenskapligt värde (de besvarar ingen av de tre frågorna ovan, nästan alla nollhypoteser är felaktiga och irrelevanta osv.) och det finns vanligt förekommande feluppfattningar om alla element i NHST, inklusive själva definitionen av p-värde. Någonstans har pedagogiken gått förlorad; har svårt att komma på exempel där t.ex. molekylärbiologiska metoder har missbrukats eller feltolkats lika mycket.

    Bygrenincidenten kan ses som ett symptom på dåligt kunskap om NHST hos forskare. Men den kan också ses som ett kroniskt symptom på skadorna av NHST-fokuserad vetenskap. Många statistiker som t.ex. Olle Häggström gör ett bra jobb med att försöka reda ut statistisk signifikans och närbesläktade begrepp (t.ex. artikeln om Armageddon), men kämpar ofta i motvind och uppförsbacke.

    Hur mycket mer missbruk av NHST (som har begränsat vetenskapligt värde) kommer kunna tillåtas innan tidskrifter förbjuder det helt (värt att hålla i åtanke att samma NHST kritik redan diskuterades för 60+ år sedan)? Redan nu rekommenderar APA:s publikationsmanual att NHST inte får användas som den enda metoden att analysera data och ett litet antal tidskrifter har förbjudit det helt.

    SvaraRadera
    Svar
    1. Tack för din kommentar, Emil. Mycket av det du skriver är klokt, men inte allt, och du lägger dig till med en i mitt tycke något opassande grötmyndig ton som signalerar att du anser dig begripa statistisk slutledningsteori och dito praktik bättre än den professionella statistiska expertisen (till vilken jag oblygt räknar både Dan Hedlin och mig själv). Några konkreta saker:

      1. "Problemet är dock att kritiken ni levererar fortfarande befinner sig inom NHST-paradigmet och därför har uppenbara brister."

      Detta är en helt orimlig invändning. Både min och Dan Hedlins avsikt är att påvisa att Bygrens et al studie inte håller måttet. Då denna genom bruket av p-värden ansluter sig till det du kallar "NHST-paradigmet" (vilket jag med lite tankeanträngning kom fram till antagligen betyder null hypothesis statistical testing), så räcker det för oss att påvisa att Bygren et al inte håller måttet ens på NHST-paradigmets egna villkor, vilket är precis vad vi gjort. Att kritisera NHST-paradigmet i sig är en annan sak, förvisso angelägen, men den görs nog bäst i andra sammanhang än just med Bygrenstudien i fokus.

      2. "Den uppmätta effektstorleken 2.69 är tillräckligt stor för att vara av medicinskt intresse. Denna slutsats står och faller inte med...".

      Här låter du nästan som om du skulle försvara slutasatsen "Crazy-Cola är godare än Percy-Cola" i det fiktiva exemplet (a) i min bloggpost Statistical significance is not a worthless concept (en bloggpost som du för övrigt skulle ha stor nytta av att läsa noggrant) - vilket i så fall är en helt orimlig ståndpunkt. Poängen, här liksom i Crazy-Cola-exemplet, är att ett slående värde på uppmätt effektstorlek bara är något att bry sig om ifall evidensläget som helhet tyder på att den uppmätta effektstorleken någorlunda väl återspeglar den verkliga effektstorleken, något som inte är fallet vare sig för Crazy-Cola eller i Bygrenstudien.

      3. "fokus på p-värden istället för på riktig vetenskap".

      Med denna kontrast implicerar du att p-värden inte hör hemma i "riktig vetenskap". Trams. Det är sant att missbruket av p-värdesbegreppet är omfattande, men rätt använda är p-värden en värdefull del av den riktiga vetenskapen såsom den praktiseras idag.

      Radera
    2. (1/2)

      Ja, jag anser mig förstå statistisk slutledning bättre än de statistiker som starkt förespråkar NHST.

      Men detta beror inte på att jag som person har bättre koll eller mer kunskap än den statistiska expertisen (det skulle vara befängt), utan för att jag tycker att de statistiker och närliggande professionella som kritiserar NHST (t.ex. Cumming, Kline, Ellis m.fl.) har bättre argument än de som försvarar NHST.

      Ditt kränkthetsresonemang kan också vändas: statistiker behöver inte ha bättre kunskap än forskare om vad forskningsresultat betyder i vetenskapliga kontexter:

      - Försumbara effektmått kan vara statistiskt signifikanta och ibland medicinskt relevanta (aspirin mot hjärtsjukdom) och ibland inte relevanta (skillnad i blodtryck mellan vänster och högre arm).

      - Stora effektmått som har stor medicinsk relevans kan vara statistisk icke-signifikanta. Klassikern Freiman (1978) visade att nästan hälften av publicerade negativa studier i sitt urval (n = 78) hade 50% terapeutisk förbättring inom sitt konfidensintervall. Argumentet att konfidensintervallet nästan / lite grann överlappar nollhypotesen bör alltså även vägas mot vart den andra änden på konfidensintervallet befinner sig.

      Att filtrera dessa tre klasser av resultat genom statistisk signifikant / statistiskt icke-signifikant linsen och tro att det säger något vetenskapligt relevant är ett stort, stort misstag.

      Nu till dina tre punkter:

      1. Er invändning om korrektion för multipla tester är relevant och visar på ett trovärdigt sätt att studien i fråga inte borde ha skrivits på sättet, men det missar att det kan finnas relevanta resultat i studien. För dessa resultat spelar det nästan säkert ingen roll om korrektion gjorts (p-värdet blir något över 0.05) eller ej (p-värdet blir något under 0.05). Er invändning blir därför något av en rökridå. Istället för att tolka resultaten i en vetenskaplig kontext så hoppar man över detta och fokuserar på godtyckliga cut-offs för en nollhypotes vi vet är felaktig (sannolikheten att två populationsparametrar är identiska är a priori nästan noll).

      Personligen tror jag att Bygrens resultat är ett falskt positiv på grund av den biologiska kontexten (oklart varför epigenetik skulle vara biased mot just en sådan nedärvning). Men detta argumentet har betydligt högre vetenskaplig trovärdighet än invändningen "p större än 0.05 efter korrektion!". Men det är likväl ett effektmått som är så stor att man bör ta den på allvar, särskilt med tanke på att konfidensintervallet når så högt. Därför behöver man föra in både aspekter kring korrektion för multipla tester och invändningar mot NHST-fokus.

      Radera
    3. (2/2)

      2. Som jag påpekade i min första kommentar så är det tre saker man framförallt bör fokusera på istället för p-värde: effektmått, precision och vetenskaplig kontext.

      Du har helt rätt att om effektmått var det enda man brydde sig om så är (a) och (b) situationerna identiska. Men jag förde även in två andra aspekter, nämligen precision och vetenskaplig kontext. Med hjälp av dessa behöver jag inte anse att (a) och (b) är identiska. Det är nämligen så att precisionen för skattningen på effektmåttet i (a) är mycket dåligt på grund av låg urvalsstorlek.

      Detta kan jag avgöra utan att beräkna ett p-värde eller ens tänka i termer av sannolikhet för åtminstone lika extrema resultat skulle observeras givet nollhypotesen (som vi redan vet med överväldigande sannolikhet är falsk, se ovan).

      Med andra ord är ditt resonemang en halmdocka. Det är ingen som hävdar att effektmått är det enda man ska ta hänsyn till. Tanken är inte att byta ut kontextlöst p-värde mot en kontextlös effektmått och ha nya, godtyckliga cut-offs. Tanken är att bryta sig ut ur fokuset på ett enskilt värde och huruvida den är större eller mindre än ett godtyckligt cut-off till en bredare metod för att tolka forskningsresultat.

      Ditt påstående att..

      "If we follow Ziliak's and McCloskey's advice to ignore statistical significance and focus instead purely on subject-matter (i.e., in this case, gastronomical) significance, then the two cases are indistinguishable, because in both cases the data indicates that 75% of subjects prefer Percy-Cola"

      ...är därför helt felaktigt. Det finns inget som hindrar oss att ta urvalsstorlek och precision i beaktande om vi släpper NHST utan att gå ifrån "subject-matter". Nu kanske du invänder att det här var ett extremt exempel och att p-värdena kan vara mycket närmare varandra i verkliga fall, men då är mitt svar att det inte spelar någon roll om p är strax under 0.05 (eller vilken cut-off du än väljer) eller strax över.

      3. I ditt inlägg skriver du även att:

      "Statistical significance is a useful way of quantifying how convinced we should be that an observed effect is real and not just a statistical fluctuation"

      ...men ett statistiskt signifikanstest kan endast som bäst särskilja statistiska hypoteser (a = b vs a =/= b), inte substantiva (resultaten beror på mekanism m eller statistisk fluktuation). Detta beror på att p-värde beräknas under antagandet att alla avvikelser från den statistiska nollhypotesen beror på slump. Denna sannolikhet har därför redan antagits vara 1 och p värde kan därför inte användas för att skatta en sådan sannolikhet att resultaten beror på slump (och kan därför inte avgöra mellan "observerade resultat är riktiga" kontra "resultaten beror på en statistisk fluktuation").

      Som ett ytterligare problem är p-värde bara indirekt relaterat till posterior p och prior p kan ha en mycket större påverkan. Jag misstänker att vi båda sett homeopatistudier som har mycket lågt p-värde, men ingen av oss finner ett sådant resultat övertygande.

      Dessutom så är de flesta statistiska signifikanstester gjorde på irrelevanta nollhypoteser (vi är sällan intresserade om a =/= b) som vi redan på förhand nästan helt säkert vet är felaktiga (för sannolikheten att två populationsparametrar skulle vara exakt identiska är försumbart liten).

      Så vad är poängen med att testa irrelevanta och förmodligen falska nollhypoteser med en metod som är kroniskt missförstådd/missbrukad och säger oss nästan inget av vetenskaplig relevans (t.ex. effektmått, precision, kontext, posterior p) även om den skulle används korrekt (vilket den ofta inte görs)?

      Jag ser tydligen inte guldkanten här.

      Radera
    4. Längden på dina kommentarer, Emil, tyder på att du tror att om man bara pratar tillräckligt mycket så adderar det sig till en kraftfull argumentation, oavsett om man pratar strunt. Du dillar om "kränkthetsresonemang", men här finns ingen som är kränkt, däremot en som tycker att det ger ett löjligt intryck att ventilera sin okunskap med den grad av arrogans som du uppvisar. Du bagatelliserar skillnaden mellan p-värdet 0,384 och p-värdet 0,016 genom att kalla det ena "något över 0,05" och det andra "något under 0,05". Du påstår att du kan skilja kraften i Crazy-Colas argumentation i fallen (a) och (b) åt utan att bakvägen smyga in p-värde eller något väsentligen ekvivalent, men du talar inte om hur. Du ger en helt förvirrad redogörelse för filosofin bakom nollhypotestestning, inklusive hur du håller emot den att den inte är bayesiansk ("p värde kan därför inte användas för att skatta en sådan sannolikhet att resultaten beror på slump") vilket skulle ha viss relevans om alternativet du föreslår är bayesianism, något som dock inte kan skönjas i din plädering, varför din kritik enbart framstår som konstig. Etc, etc.

      Du är uppenbarligen i stort behov av att lära dig statistikteorins grunder. För att ge så ett gott och konstruktivt intryck som möjligt kanske jag här borde erbjuda mina tjänster som ciceron i dina studier i ämnet, men nej, en student med din arroganta attityd har jag verkligen ingen lust att ta på mig.

      Radera
    5. Jag göra gärna ett försök att vara mer konstruktiv och förklara ytterligare. Först börjar jag med att sammanfatta de argument som inte verkar ha besvarats och sedan går jag vidare till dina nya resonemang.

      i. Nollhypoteser som a = b är i de allra flesta sammanhang felaktiga. Sannolikheten att två populationsparametrar är identiska är mycket, mycket låg. Vi är också nästan aldrig intresserade av huruvida a =/= b, utan om t.ex. klinisk signifikans. Därför testar man oftast irrelevanta nollhypoteser man på förhand vet är fel.

      ii. Ett p-värde säger inget om effektmått, precision eller om vad resultatet betyder i den vetenskapliga kontexten. Därför saknar p-värde i stora drag vetenskapligt värde.

      iii. Statistiskt icke-signifikanta resultat kan vara vetenskapligt värde om effektmåttet är tillräckligt stora. Man kan inte helt blint stirra sig på hur nära konfidensintervallets ena kant ligger nollhypotesen, utan måste även ta ställning till vart den andra kanten ligger. Även vetenskaplig kontext spelar roll. Skulle du ta ett läkemedel som har ett effektmått som innebär kraftig försämring så länge konfidensintervallet var så stort att det precis omfattar RR = 1?

      iv. Ett statistiskt signifikanstest kan endast testa statistiska hypoteser (t.ex. a = b), inte substantiva (vad orsaken till resultaten är).

      v. P-värde är enbart indirekt relaterat till posterior p, och man behöver ta hänsyn till prior p. Bra p-värden kan vara irrelevanta om prior p är tillräckligt låg (t.ex. homeopati). Det här är inte argumentet "NHST är dåligt för det är inte bayesianskt", endast att prior p spelar roll i tolkningen av forskningsresultat oavsett statistisk filosofi, särskilt p-värde fokuserade studier. Eller förenklat kan man säga att argumentet är att "tidigare ackumulerad kunskap spelar roll".

      I din nyaste kommentar för du fram framför allt två nya argument:

      (1) p-värdet 0.384

      Detta p-värde har du fått fram genom att använda Bonferronikorrektion. Men detta är en statistiskt olämplig korrektion då antalet hypoteser är fler än ett par stycken på grund av den stora förlusten i statistisk styrka. Därför bör man istället använda t.ex. Benjamini-Hochberg metoden (BH/FDR) eller liknande. Det är slående att du just valt att använda Bonferronikorrektion för att göra ditt argument, säkert med full insikt att det är en av de hårdaste korrektionsmetoderna som finns.

      Jag vidhåller att det inte är p-värdet som avgör huruvida ett forskningsresultat är trovärdigt eller ej, utan effektstorlek, precision och vetenskaplig kontext. Jag har gett många exempel där p-värde leder oss fel.

      (2) Crazy-Cola

      "Du påstår att du kan skilja kraften i Crazy-Colas argumentation i fallen (a) och (b) åt utan att bakvägen smyga in p-värde eller något väsentligen ekvivalent, men du talar inte om hur."

      Det kanske inte framgick så tydligt, men min metod var att jag tänkte mig att en så pass låg urvalsstorlek (n = 4) som i fallet (a) inte kan skatta populationsparametern med särskilt hög precision (för det flesta intentioner och syften är n = 4 i detta sammanhang en anekdot, snarare än vetenskaplig evidens). Resonemang utifrån mycket låg urvalsstorlek kan göras utan att utgå från p-värde eller nollhypoteser.

      Radera
    6. Du talade tidigare om "kränkthet", Emil, vilket jag tillbakavisade, men den misstro du nu visar mig med ditt misstänkliggörande "Det är slående att du just valt att använda Bonferronikorrektion för att göra ditt argument, säkert med full insikt att det är en av de hårdaste korrektionsmetoderna som finns" gör mig rent ut sagt förbannad. Du antyder att jag skulle ta till retoriska fultricks för att driva en linje. Inget vore mig mer främmande.

      I originalbloggposten om Bygrenincidenten tog jag fram det korrigerade p-värdet 0,384 med (vad som kan beskrivas som) Bonferronikorrektion. Det finns andra multipelinferenskorrektioner, Benjamini-Hochberg, Holm, och gud-vet-vad. Men det är bara Bonferronikorrektionen som enkelt och kort kan motivieras i en bloggpost riktad till den vetenskapligt intresserade allmänheten utan specialistkunskap. Givetvis kan man börja laborera med mer sofistikerade korrektioner, men det är inte min sak att göra, utan Bygren-gängets, vilket de dock sket i. Om du vill kritisera siffran 0,384 så är du välkommen att tillämpa dessa mer sofistikerade korrektioner. (Jag kan dock redan nu säga att din arbetsinsats kommer att vara förgäves, ty det räcker ju att kika snabbt på Bygrens et al rå-p-värden för att inse att ingen (korrekt) multipelinferens i värden kan pressa ned siffran till något som ens kommer i närheten av något p-värde som legitimt kan användas för att påstå att data tyder på epigenetisk nedärvning. Något sådant finns helt enkelt inte att hämta i (de redovisade) data.)

      Om det är någon som kör med retoriska fultricks i den här diskussionen så är det du. Som din idiotiska fråga "Skulle du ta ett läkemedel som har ett effektmått som innebär kraftig försämring så länge konfidensintervallet var så stort att det precis omfattar RR = 1?" Nej, varför skulle jag göra det? Varför skulle någon överhuvudtaget ta ett sådant läkemedel? Läkemedel tar man för att de skall förbättra ens tillstånd, inte för att det inte är uteslutet att man inte blir sämre av det.

      Det finns egentligen en intressant fortsatt diskussion att föra här, bl.a. om Crazy-Cola-exemplet och hur du, om du tillämpat p-värdestänkande explicit och inte implicit och tillkrånglat via urvalsstorleks- och precisionsresonemang, kunnat klara av att dra den korrekta slutsatsen inte bara i det extremt förenkade fallet Crazy-Cola (a), utan även i det med komplicerade Bygrenfallet, istället för att häva ur dig ditt okunniga "Den uppmätta effektstorleken 2.69 är tillräckligt stor för att vara av medicinskt intresse. Denna slutsats står och faller inte med...". Men jag har ingen lust. Du gör mig på dåligt humör, så det får vara nog nu.

      Radera
    7. Jag tvivlar på att vi kan ha en produktiv diskussion, men jag väljer att ändå korrigera dina felaktigheter oavsett om du publicera den här kommentaren eller ej.

      Jag är totalt ointresserad om du känner dig kränkt eller förbannad, särskilt med tanke på att du började med att kalla mig okunnig (utan att besvara min argument, som du fortfarande inte har gjort). Jag är intresserad av vad som är vettigt. Persondiskussioner kan du ta med någon annan.

      Du använde en korrektionsmetod som är olämplig i sammanhanget för att den offrar för mycket statistisk styrka. Den metoden ger också det bästa resultatet för din position. Huruvida du medvetet gjorde detta dåliga val eller ej är ointressant. Det intressanta är att du gjorde ett felaktigt val. Det är därför ironiskt att du väljer att kalla mig okunnig och lyfter fram din expertis när det kommer till statistisk inferens.

      Poängen med BH-resonemanget är inte att jag tror att man därmed kommer väldigt nära den vidskepliga gränsen p = 0.05, utan att det relevanta måttet som man bör utvärdera sådana resultat med är inte p-värde, utan effektmått, precision och vetenskaplig kontext.

      Ditt främsta motargument har varit halmdockan att om man endast fokuserar på effektmått och inte tänker på andra viktiga aspekter som urvalsstorlek, så hamnar man fel. Detta är så klart uppenbart, men ingen har argumenterat att man ska byta tunnelseende från p-värde till effektmått. Tvärt om efterlyser jag avskaffandet av tunnelseendet totalt.

      Du säger att du inte skulle ta ett sådant läkemedel. Men då visar du ju att det inte är p-värdet som spelar roll (för skillnaden var statistisk icke-signifikant), utan att andra faktorer är betydligt mer relevanta. Ur din beskrivning läser jag in att effektmått samt medicinsk kontext var avgörande för dig, snarare än p-värde. Spelade det icke-signifikanta p-värdet ens någon roll i din bedömning av läkemedlet? Tänkte du någon gång "...men försämringen är ju inte statistiskt signifikant.." eller insåg du genast att det var en dålig idé? Jag tror det senare.

      Här bör man även tillägga att i fallet med läkemedlet gör du samma "okunniga" (ditt ord) resonemang du beskyller mig för: du bedömer icke-signifikanta skillnader som relevanta utifrån ett stor effektmått och vetenskaplig kontext och har satt p-värde nästan helt åt sidan. Tänk så det kan bli.

      Att konstatera att låga urvalsstorlekar ger resultat med låg trovärdighet är inte ett "implicit p-värde resonemang". Det är bara ett konstaterande av att små urval nästan aldrig återspelar populationen man tar urvalet ur, vilket är vad man behöver för att dra trovärdiga slutsatser och det kan man göra utan att diskutera koncept som "p-värde", "nollhypotes" eller att ens tänka i termer av "sannolikhet för åtminstone lika extrema resultat givet nollhypotes".

      Du kanske skulle kunna säga att det är är "implicit p-värde tänkande" för att urvalsstorlek går in i formlerna för att komma till ett p-värde, men då kan man ju lika gärna säga att effektmått är ett "implicit p-värde tänkande" för att även effektmått går in i formlerna. Faller på sin egen orimlighet.

      Tvärt om så skulle beräkning av p-värde göra det onödigt tillkrånglat för att nå en slutsats man kan nå på mycket lättare och mer trovärdigare sätt.

      Radera
    8. OK, nu vänder jag mig inte till Emil Karlsson längre, ty till hans döva öron lär det knappast vara möjligt att nå fram med något sans och förnuft. Istället vänder jag mig till de (gissningsvis ytterst fåtaliga) personer i övriga läsekretsen som orkat följa meningsutbytet så här långt:

      I ursprungsbloggposten om Bygrenincidenten skrev jag följande.

      "Om man gör tillräckligt många olika test så blir till slut sannolikheten att få statistisk signifikans i minst ett av testen stor - även om nollhypotesen genomgående är sann. I det här fallet blir det i genomsnitt förväntade antalet p-värden om 0,016 eller mindre 24∗0,016=0,384. Med andra ord: i genomsnitt ett sådant p-värde i drygt var tredje studie av detta slag. Bygren et al fick ett sådant p-värde. Inte mycket att skriva hem om."

      Inget i detta kan, för den som vet något om statistisk inferensteori, vara det minsta kontroversiellt. Men Emil Karlsson hävdar att siffran 0,384 på något vis skulle vara vilseledande, och att om man tillämpar Benjamini-Hochbergs metod så hamnar värderingen av Bygrens et al "fynd" i ett annat läge. Notera dock att han inte backar upp sitt påstående med något faktiskt utförande av metoden, eller med någon presentation av vad som kommer ut därav. Vi förväntas därför ta Emil Karlsson på orden när han hävdar att resultatet skulle bli så väsentligt annorlunda att mitt ovan citerade resonemang kan dömas ut såsom vilseledande.

      Jag tänker inte publicera fler kommentarer av denne Emil Karlsson i denna tråd med mindre än att han redovisar en korrekt implementering av den Benjamini-Hochberg-procedur han förordar, tillämpad på Bygrens et al data (inklusive en verifiering av att Bygrens et al individuella p-värden har en beroendestruktur som gör Benjamini-Hochbergmetoden giltig) och kommenterar resultatet. Ett mycket rimligt krav på honom, ty jag har en uppsättning specifika agendor med att driva denna blogg, och till dessa agendor hör inte att ge utrymme för ogrundade anklagelser om att jag skulle ha använt mig av "olämpliga" eller "felaktiga" statistiska metoder.

      Var och en med hygglig erfarenhet av multipelinferenskorrektion kan naturligtvis med en snabb titt på Bygrens et al p-värden konstatera att dessa är bortom räddning, oavsett om man tillämpar Benjamini-Hochberg eller vad man vill. Det är lite grand som om jag såg att höjdhoppsribban var placerad på den svenska rekordhöjden 2.45 - det vore en fullkomligt bortkastad ansträngning av mig att ens försöka ta mig över en sådan höjd. Hur man vrider sig och hur man vänder sig kommer man ändå att landa i att Bygrens et al p-värden inte på minsta vis kan anses extrema i förhållande till vad som är att vänta under nollhypotesen.

      Radera
  3. (jag ser alla dina poäng i diskussionen olle, men förstår inte riktigt varför du blir så arg. en onödig kommentar, som du behöver och bör inte publicera. men jag blev bara nyfiken)

    SvaraRadera
    Svar
    1. Jag har en allmän tendens att förargas över kombinationen okunskap-arrogans, och saken blir inte bättre av att EK anklagar mig för ohederligt bruk av statistiska metoder.

      Och för att vara extra tydlig: Okunskapen i sig är sällan något jag blir arg över. Att gå omrking och vara arg över alla som inte begriper sig på statistikteoretiska fundamenta skulle medföra ilska mot långt mer än 99,9% av mina medmänniskor, vilket knappast skulle tjäna någonting till. Det är först när okunskapen, som hos EK, förenas med en arrogant attityd om att tro sig kunna skriva andra på näsan om hur statistik rätt skall bedrivas, som jag blir ordentligt uppretad.

      Det kan tyckas lite tarvligt av mig att i min kommentar 13:43 ovan ge EK en hemuppgift som inte kommer att ge någonting. Men jag vill ändå tro att han, om han försöker sig på den, kan lära sig en läxa på så att säga ett metaplan. Och troligtvis tänkte han inte ens på att Bygrens p-värden har en beroendestruktur som gör att det inte alls är uppenbart att Benjamini-Hochberg överhuvudtaget är tillämpligt, innan han gjorde sitt lite lillgammalt patetiska utfall om att det skulle ha varit fel av mig att inte använda metoden.

      Radera
  4. Klart att man kan förargas över kombinationen okunskap-arrogans, och ännu mer över kombinationen okunskap-arrogans-ovilja att lyssna och åter mer om man lägger till falska anklagelser om oredlighet. Men man behöver inte alltid ge uttryck för det. Åtminstone sa min mentor det åt mig när jag var ung. Men å andra sidan tycker jag fortfarande, efter alla dessa år, att denne mentor hade kunnat använda sin överblick, sina kunskaper och sitt skarpa tänkande till att sätta ner foten lite oftare (t.ex. när en hög chef pratade om "tidsseriebrott" när vi hade en (1) observation).

    Diskussionen ovan blev ju väldigt konstig. Emil Karlsson konstaterar kort i första paragrafen i sin allra första kommentar i ämnet hur det ligger till. Sedan i andra paragrafen börjar han diskutera något annat. Olle Häggström påpekar i punkt 1 i sin första kommentar att denna diskussion som inleds i Emil Karlssons andra paragraf handlar om något annat.

    Jag berörde denna andra, större fråga, i debatten i Qvintensen nr 3/14. Ska statistisk analys verkligen fokusera så hårt på test och i synnerhet på p-värden under 0.05 som den tenderar att göra i en del empiriska vetenskaper? Jag skrev på sidan 16 i nr 3/14:

    "Här har jag skrivit om tolkningen av p-värden och att de lätt kan övertolkas. Man kan i empiriska vetenskaper se en sorts jakt på p-värden som är mindre än den 'magiska' gränsen 0,05. Personligen tycker jag att det är olyckligt att det har blivit så, och jag är säker på att många av forskarna som 'jagar' signifikans tycker det också. Den artikel jag har skrivit om här är verkligen inte ovanlig på det sättet. Det är egentligen väldigt orättvist att lyfta fram just den här artikeln som problematisk i sin statistiska (över-)tolkning: den befinner sig i ett stort sällskap av andra artiklar i många empiriska vetenskaper."

    Sen kan man undra om BMC Genetics hade tagit in artikeln Bygren et al. (2014) om författarna hade skrivit "samtliga resultat är dock statistiskt insignifikanta" eller "vi har inte undersökt om våra resultat är statistiskt signifikanta". Det tror ju inte jag.

    SvaraRadera
  5. Jag har nu råkat se (the pros and cons of narcissist Googling...) att Emil Karlsson fortsatt diskussionen i ett inlägg på sin egen blogg den 10 november. En del av det han där skriver kan man le milt översende åt, som t.ex. det fantasifulla personangreppet...

    "In the end, I think that Häggström did not appreciate being debunked by a person on the Internet and the conversation became an issue of prestige for him. His expertise made him believe that he was surely right and everyone else was wrong. The cognitive dissonance that he experienced by reading my arguments made him lash out in rage, which explains the excessive engagement in personalities from his side. As a side note, Häggström identifies himself as a scientific skeptic and thus becomes just another victim of selective skepticism (like Jerry Coyne on medical psychiatry and psychiatric medication). He is extremely rational in many areas (such as climate change), but then becomes completely irrational in other areas, such as NHST, supercomputers taking over the world in a matrix / terminator scenario and mathematical Platonism."

    ...där "everyone else" uppenbarligen skall förstås som "Emil Karlsson", och "irrational" på liknande vis verkar definieras som "havandes en annan uppfattning än Emil Karlsson".

    Värre är det med hans yttrande...

    "Häggström got so frustrated and upset that he refused to publish anymore of my comments unless I carried out a detailed alternative correction for multiple testing. I provided several elements of such a treatment, but he refused to publish it anyways."

    ... där avslutningen "he refused to publish it anyways" är rent påhitt. Jag har inte emottagit någon bloggkommentar (eller någon annan korrespondens överhuvudtaget) från Emil Karlsson efter hans kommentar 11:37 ovan. Att han i ett desperat försök att låta påskina att han faktiskt har något att komma med i multipelinferensfrågan diktar ihop en sådan sak visar på en så total brist på hederlighet i debatten att han inte kan räkna med att någonsin få lov att återkomma här på bloggen. Vilket är att beklaga, då han ibland levererat viktiga synpunkter, som t.ex. i förra årets bloggpost om psykofarmaka.

    SvaraRadera
    Svar
    1. Eftersom han påstår att du inte publicerar hans kommentarer så vägrar du publicera hans kommentarer. Hade han inte rätt då så har han i alla fall rätt nu. Akademiska diskussioner med dig är verkligen intressanta.

      Karlsson har nu ändå svarat på detta på sin egen blogg med att han är helt enig med dig om det hopplösa i ett fortsatt meningsutbyte.

      Fast sanningen om den försvunna kommentaren är nog som vanligt närmare Hanlons rakkniv. Någon av er har bara klantat sig med knapptryckningarna. Klantighet, inte illvilja. Trist.

      Radera
    2. Min deklaration 08:39 ovan att Emil Karlsson "inte kan räkna med att någonsin få lov att återkomma här på bloggen" triggade honom att inkomma med ännu en kommentar, vilken givetvis gick direkt i papperskorgen, oläst (ett visst mått av konsekvens behöver jag upprätthålla).

      Men han har även lagt till en kommentar på sin egen blogg, där han meddelar att det inte längre finns "any doubt about the intellectually dishonesty of Olle Häggström", och där han försäkrar att han faktiskt skickat in (någon gång mellan 3 och 10 november, tycker jag mig förstå att han menar) en kommentar där han påvisar hur man kan ge en rättvisare tolkning av det bygrenska evidensläget genom att göra multipelinferensanalysen med någon mer sofistikerad metod än Bonferroni. Att han skickat in en kommentar till min blogg under den tidsperioden är väl fullt möjligt, vad vet jag, en sådan kommentar kan ju t.ex. ha försvunnit i postgången. I så fall kan han ju alltid publicera den (eller en rekonstruktion) på sin egen blogg, så att hans läsekrets får möjlighet att se vad han lyckats krysta fram till försvar för sitt felaktiga och ur luften gripna påstående att mitt "usage of Bonferroni correction was statistically inappropriate".

      Radera
    3. Nu har Emil Karlsson lagt upp ännu en kommentar på sin blogg, där han, istället för att backa upp sitt påstående om att jag skulle ha använt Bonferroni felaktigt, nöjer sig med att upprepa dettta samma påstående ännu en gång.

      Höjdpunkten i hans nya bloggkommentar är emellertid en annan, nämligen då han anför det faktum att jag idag, den 25 november 2014, refuserat en kommentar från honom, som stöd för att hans påstående den 10 november om att jag refuserat en kommentar från honom faktiskt skulle vara sant (och alltså inte falskt som jag hävdade den 24 november klockan 08:39 ovan). Detta är helt fantastiskt. Jag skulle tro att alla utom möjligen Emil Karlsson själv håller med om att när han den 10 november 2014 hävdar att jag refuserat en kommentar från honom, så är det underförstått att han menar att detta inträffat senast den 10 november 2014. Jag vidhåller att jag fram till den 10 november 2014 inte hade refuserat någon kommentar av Emil Karlsson, och att dennes påstående om motsatsen alltså var osant. En refusering jag gör den 25 november 2014 (alltså efter den 10 november 2014) kan omöjligt påverka sanningshalten i ett påstående om vilka refuseringar jag gjort eller inte gjort fram till den 10 november 2014. Många galenskaper har jag träffat på i mitt debatterande med kreationister och klimatförnekare genom åren, men jag undrar om inte dessa Emil Karlssons kontrakronologiska bisarrerier tar priset.

      Radera
    4. Och det verkar inte vara någon ände på Emil Karlssons bisarrerier. Trots de många heta debatter jag medverkat i är jag inte van vid att anklagas för rent blåljug, men det är precis vad han nu anklagar mig för. Som grund för sin anklagelse missförstår han (eller, troligare, låtsas han missförstå) mitt tal 08:29 ovan om att upprätthålla "konsekvens". Varje person med någorlunda läskunnighet förstår naturligtvis att "konsekvens" avses relativt den utfästelse jag gör några ord tidigare i samma mening om att Emil Karlsson inte är välkommen tillbaka som kommentator. Emil Karlssons triumfatoriska tolkning ("perhaps without realizing it, he has confessed to the very thing that he so vehemently denied in the first place") om att "konsekvens" istället skulle syfta tillbaka på någon tidigare refusering är ännu ett exempel på den fantasifulla illvilja som präglar den inblick i mitt själsliv han säger sig ha.

      Nej, usch, nu borde jag verkligen inte lägga mer tid och energi på denne till synes helt outtröttlige rättshaverist.

      Radera
  6. Hur ser statistiken ut för denna studie?

    http://www.svt.se/nyheter/regionalt/vasterbotten/mormors-rok-paverkar-barnbarnen

    SvaraRadera