söndag 22 mars 2015

I skottlinjen för rättshaveristiska utgjutelser

Att, som jag gör här på bloggen och annorstädes, rättframt och frispråkigt försvara vetenskap och ett vetenskapligt förhållningssätt är på många vis givande och stimulerande. Det har emellertid också avigsidor, och en sådan är att man får utstå en hel del påhopp och dynga från debattörer som inte delar ens vetenskapssyn. I mitt fall har dessa påhopp mestadels kommit från klimatförnekarna i och kring Stockholmsinitiativet och deras blogg The Climate Scam.1 Bland de hundratals exempel på detta som går att hitta på nätet, se t.ex. Göran Ahlgrens besynnerliga tillmäle "självutnämnt mattesnille", och Lena Krantz evinnerliga tjat i höstas om att jag är "en extremt otrevlig figur". Dock händer det emellanåt att påhoppen dyker upp från annat håll, och i dagens bloggpost skall jag ge ett exempel.

I min förra bloggpost Geoff Cummings dansande p-värden skrev jag om en "högljudd skara av mestadels statistikteoretiskt okunniga anti-p-värdesfundamentalister" som vaknat till i samband med tidskriften Basic and Applied Social Psychologys vettlösa tilltag att förbjuda p-värden. En typisk företrädare för denna högljudda skara är en herre vid namn Emil Karlsson, som bloggar flitigt om vetenskapsfrågor, och som (om jag förstått saken rätt) är en något överårig biologistudent utan några som helst vetenskapliga meriter. Hans modus operandi verkar vara att leta sig fram till enstaka publikationer där någon forskare uttrycker starka åsikter, och att på ett närmast utantillinlärningsaktigt sätt ta till sig denna forskares argumentation, som han sedan bombastiskt torgför, dock utan att överblicka den relevanta ämnesmässiga kontexten (vilket gör att han emellanåt gör sig till åtlöje). I alla fall är det så han gjort i fallet med hans korståg mot de statistiska metoder som inbegriper p-värden och det han kallar NHST (null hypothesis significance testing). Som ett led i detta korståg har han de senaste veckorna författat två bloggposter rubricerade Debunking statistically naive criticisms of banning p values och The laughable desperation of NHST proponents. Dessa är riktade specifikt mot mig och mina bloggposter i ämnet; det är alltså mig han (med för all del beundransvärd oförvägenhet) anklagar för att vara "statistiskt naiv" och "skrattretande desperat". Hans båda bloggposter är så till brädden fyllda av bombastiskt formulerade missförstånd att jag inte ids gå in på mer än en bråkdel, men låt mig i alla fall ta upp fyra saker. De första två (punkterna (1) och (2)) är ämnade att påvisa hans skriande okunskap i ämnet han diskuterar, medan de två sista (punkterna (3) och (4)) påvisar den fullkomligt ogenerade ohederlighet han tillgriper i sin argumentation.
    (1) I den första av sina båda bloggposter söker han tillbakavisa mitt påstående att välgrundade val av stickprovsstorlek kräver NHST-statistikens begreppsapparat,2 och framhåller följande:
      First of all, bigger sample sizes are always better (all other things equal) for accurately estimating the population parameters under study (unless we are using NHST in which case big sample sizes cause studies to be overpowered). So an initial rule of thumb for sample size decisions might be "as many as you can afford and have the time for".
    Detta tyder på en närmast total okunskap från Emil Karlssons sida om hur forskning i verkligheten går till. Största möjliga stickprovsstorlek, jo jag tackar, men det är inte till någon ledning när man har en begränsad forskningsbudget och behöver väga försöks- eller stickprovsstorlek mot andra kostnader, eller när ett forskningsprojekt inbegriper mer än ett stickprovsförfarande som ur budgetsynpunkt därmed behöver vägas mot varandra. Även utan direkta forskningsbudgetfrågor finns situationer där viktiga aspekter talar för en begränsning av stickprovsstorleken, t.ex. då nya läkemedel prövas för biverkningar, varvid bruk av onödigt stora stickprov är direkt oetiskt.3

    (2) Emil Karlsson avslutar sin andra bloggpost i ämnet med att hävda att jag inte lyckats producera något exempel där NHST:s begreppsapparat är oundgänglig. Det kan ju låta som en utmaning som jag borde besvara, men jag lider något av en embarrassment of riches eftersom NHST-begrepp behövs inom merparten av all frekventistisk statistisk slutledningsteori, inklusive det av Emil Karlsson omhuldade bruket av konfidensintervall. Låt mig dock nämna ett annat exempel, nämligen studier av multipelinferenskaraktär, dvs sådana där mer än en statistisk slutledning görs. Att i sådana studier komma fram till om de erhållna resultaten avviker från vad som typiskt skulle vara fallet om alla effektstorlekar vore noll skulle i de flesta fall vara extremt klunsigt och besvärligt om man förbjöds laborera med p-värden. Ett exempel är den KI-studie om epigenetik som Emil Karlsson själv nyligen var med och diskuterade här på bloggen. Med sin begränsade förståelse för NHST-statistik var han dessvärre oförmögen att se det som för den som är van vid p-värdesberäkningar är uppenbart: att studiens erhållna resultat var helt i linje med vad som kan förväntas om ingen epigenetiska nedärvning förekommer, och därför inte kan tolkas som evidens för existensen av sådan nedärvning.

    (3) I sin andra bloggpost i ämnet skriver Emil Karlsson också att "Häggström seems to be under the impression that if he can find rare and complicated counterexamples, he can undermine the entire case for confidence intervals". Förutom hans ogrundade "rare and complicated" är hans framställning av min stånpunkt en - excuse my French - ren jävla halmgubbe. I exakt den passage han kritiserar i min bloggpost Geoff Cummings dansande p-värden framhåller jag ju att det i vissa sammanhang finns goda skäl för användandet av konfidensintervall:

      Cumming har helt klart en poäng i att det ofta kan vara mer upplysande att redovisa sina vetenskapliga resultat i termer av konfidensintervall jämfört med att bara uppge p-värden.
    Man kan undra vilken del av denna skäligen enkla mening det är som Emil Karlsson inte förstår.

    (4) Ett annan ohederlighet som Emil Karlsson begår i sin andra bloggpost är följande:

      Even more bizarrely, some people (including Häggström) thinks that a failure to reject the null hypotheses means that you can accept it, apparently selectively oblivious (going so far as to call it semantical hairsplitting) to the fact that the failure to reject the null hypothesis could be due to low statistical power and not because it is true.
    Om Emil Karlsson verkligen kunde påvisa att jag skulle lida av föreställningen att "failure to reject the null hypotheses" skulle innebära att nollhypotesen kan slås fast såsom sann så vore det verkligen remarkabelt, helt i nivå med om en geografiprofessor trodde att Kanada låg i Asien eller om en kemiprofessor trodde att vatten var ett grundämne. Vad han gör här är emellertid att förväxla den formella användningen inom NHST-teorin av ordet "acceptera" med en av ordets mer vardagliga betydelser. Jag kan inte förstå denna förväxling som annat än avsiktlig från Emil Karlssons sida, eftersom jag explicit tillbakavisar den tolkning han gör på två ställen som han rimligen måste ha tagit del av. För det första gör jag det lite längre fram i just den diskussionstråd som Emil Karlsson triumfatoriskt hänvisar till. För det andra gör jag det i min uppsats Statistisk signifikans och Armageddon som jag inleder den av Emil Karlsson kritiserade bloggposten med att hänvisa statistiskt okunniga läsare till, och som samme Emil Karlsson när uppsatsen var ny (2012) entusiastiskt deklarerade att han avsåg läsa. Se följande kommentar på uppsatsens sida 4 om det genomgående slantsinglingsexemplet:
      Betyder den uteblivna statistiska signifikansen att vi kan dra slutsatsen att nollhypotesen ̈ar sann och att myntet alltså är symmetriskt? Svar nej! Den uteblivna statistiska signifikansen betyder bara att erhållna data (2 krona av 10) inte talar särskilt starkt emot nollhypotesen q=0,5. Men det finns en uppsjö andra hypoteser som data inte heller talar emot, som t.ex. den att q=0,2, eller den att q=0,3, etc.

Sammanfattningsvis kan om de båda bloggposter av Emil Karlsson som här diskuterats sägas att de ger ett närmast rättshaveristiskt intryck, och att de passar påtagligt illa till den slogan "Defending science against the forces of irrationality" som pryder hans blogg. De hade passat betydligt bättre om det hetat "Attacking science using the methods of irrationality".

Fotnoter

1) Jag känner såklart till att bloggen numera bär det orwellskt klingande namnet Klimatupplysningen, men finner namnbytet onödigt, givet t.ex. det senaste blogginlägget av deras senaste stjärnskott (obs, ironiskt ordval) Jacob Nordangård, som hävdar att klimathotet är en ren fiktion; han levererar en fantastisk konspirationsteori där klimathotet sägs användas som skrämselpropaganda syftandes till att skapa en världsregering. Ett nyskapande inslag, jämfört med andra klimatkonspirationsteoretiker, är att han framhåller även kärnvapenhotet som en fiktion. Notabelt är att hans inlägg nästan enhälligt besvaras med instämmanden och beröm i kommentarsfältet. Se Lars Karlsson på Uppsalainitiativet för ytterligare reflektioner kring Nordangårds bisarra bloggpost.

2) Här bör vi vara lite noga med vad som menas med "NHST-statistikens begreppsapparat". Jag menar naturligtvis inte att bruket av själva orden "p-värde" och "statistisk signifikans" skulle vara nödvändiga; dessa storheter kan givetvis döpas om, eller vi kan befatta oss med transformerade storheter och på så vis laborera med p-värden i mer maskerad form. Vad jag menar är att man någonstans i argumentationen behöver beräkna eller åtminstone uppskatta storheter av följande typ: givet de-och-de parametervärdena, vad är sannolikheten att få minst så-och-så extrema data? Med andra ord, vi behöver beräkna eller åtminstone uppskatta p-värden.

3) Emil Karlsson framhåller också att...
    there are formal statistical methods (described in Cumming (2012)) for calculating suitable sample sizes in order to get an expected length of confidence intervals (precision) at least a certain percent of the time (assurance). Notice that no part of precision or assurance arguments about sample size relates to doing a statistical test or talking about null hypotheses, so this is not "just secretly doing NHST".
Här har han helt enkelt fel. Dessa argument inbegriper visst NHST-begrepp (och vore annars omöjliga att genomföra). Dock tydligen inte tillräckligt explicit (med själva ordet "p-värde", etc; se Fotnot 2) för att Emil Karlsson, med sin ytterst begränsade förståelse för statistisk slutledningsteori, skall begripa det.

*

Edit 25 mars 2015: Emil Karlsson har nu författat ett enormt långrandigt och substanslöst svar, där han ägnar mycket utrymme åt en mängd avledande manövrar i nivå med hans påstående att jag har fel då jag hävdar att han anklagat mig för statistisk naivitet, eftersom han enbart framhållit att mina argument är statistiskt naiva (en distinktion som givetvis bara kan vara viktig om man anser det fullt normalt att statistiskt icke-naiva tänkare torgför statistiskt naiva argument). Hans bloggpost är full av sådana dumheter, men låt mig här nöja mig med att lyfta fram två enskildheter som visar att han inte ens behärskar de elementa som vi lär ut till studenter i introduktionskurser i statistik:
    (a) Angående Emil Karlssons bisarra anklagelse att jag skulle tro att "failure to reject the null hypotheses" innebär att nollhypotesen kan slås fast såsom sann konstaterar jag i punkt (4) ovan att han "förväxlar den formella användningen inom NHST-teorin av ordet 'acceptera' med en av ordets mer vardagliga betydelser". På det svarar han nu följande:
      Häggström responds by insisting that he really meant "accept" in a non-statistical sense and not at all the way the term is used in NHST and that he certainly does not believe that statistical non-significance implies the falsehood of the null hypothesis.
    Låt mig generöst anta att ordet "falsehood" är ett skrivfel, och att han egentligen menar "truth"; i annat fall blir hans påstående helt obegripligt. Även med den rättelsen gjord utgör emellertid hans påstående en fatal omkastning. När jag skrev att Emil Karlsson "förväxlar den formella användningen inom NHST-teorin av ordet 'acceptera' med en av ordets mer vardagliga betydelser" menade jag att det var jag som i sammanhanget använde ordet i dess formella NHST-betydelse (nämligen att data konstateras vara fullt normala givet vad man kan vänta sig under nollhypotesen), och han som vantolkade det som avseende en av ordets mer vardagliga meningar (nämligen att nollhypotesen slås fast som sann). Den citerade meningen visar att Emil Karlsson förstått saken tvärtom, och att han föreställer sig att det är den betydelse han själv här lägger i ordet "acceptera" (nämligen, som sagt, att nollhypotesen slås fast som sann) som är etablerad formell NHST-terminologi. Denna vanföreställning från Emil Karlssons sida visar att han inte begriper ens den mest grundläggande terminologin inom den NHST-teori som han så ilsket attackerar. Inte undra på att han hamnar snett...

    (b) Längre fram i Emil Karlssons bloggpost kan vi läsa följande:

      Häggström implicitly quoted R. A. Fischer when claiming that statistical significance either means that the null hypothesis is false or that something unlikely has happened. This is false, as large sample sizes can yield statistical significance for even minute differences that could be observed with high probability even if the null hypothesis was true.
    Fel, fel, fel. Emil Karlsson har uppenbarligen inte begripit vad statistisk signifikans betyder. (Här är det frestande att råda honom att, för att få ordning på begreppen, ännu en gång läsa min uppsats Statistisk signifikans och Armageddon, eller ännu hellre läsa någon Statistics 101-kurs, men jag tror uppriktigt talat inte att det är någon idé, då han inte alls verkar intresserad av att lära sig något utan bara av att bjäbba.)
Jag menar absolut inte att moralisera över den nivå av statistkteoretisk okunskap som Emil Karlsson med dessa exempel ger utryck för; det är knappast någon överdrift att påstå att minst 99% av alla människor, inklusive en försvarlig andel av forskarkåren, är minst lika okunniga. Min indignation handlar alltså inte om okunskapsnivån i sig. Men i kombination med hans benägenhet att i ett både lillgammalt och framför allt mästrande tonfall vilja lära andra hur statistik rätt skall förstås och bedrivas gör den honom till en desinformatör och en fåntratt.

*

Edit 27 mars 2015: Emil Karlsson har nu, som respons på ovanstående tillägg den 25 mars, författat ännu en bloggpost i ämnet där han driver sin bisarra demagogi till höjder som knappast kan förstås som annat än självparodi. Jag avstår denna gång från ytterligare kommentarer.

3 kommentarer:

  1. EK: " Even more bizarrely, some people (including Häggström) thinks that a failure to reject the null hypotheses means that you can accept it, ..."

    Om det hade varit sant om dig (vilket jag inte kan tänka mig att det är), så hade det gjort dig likvärdig med statistikcharlataner som Björnbom och hans gelikar från klimatförvillarbloggen "Klimatupplysningen". De använder den typen av felaktiga resonemang för att "bevisa" att vi har en "uppvärmningspaus".

    SvaraRadera
  2. Karlsson är ett lysande exempel på Dunning–Kruger-effekten.

    Wiki: "Dunning–Kruger-effekten är en kognitiv bias som innebär att den som är inkompetent också är oförmögen att förstå att denne är inkompetent. Detta får till följd att inkompetenta överskattar sin kompetens i högre grad än kompetenta."

    SvaraRadera
  3. jag kommenterade emil karlssons senaste post så här:
    "i wonder whether you really did not understand olle's argument or you are just mixing up things intentionally."
    han publicerade inte kommentaren, vilket tyder på det senare alternativet.

    SvaraRadera