Comments on Häggström hävdar: De empiriska vetenskapernas desperata behov av statistisk kompetens

Jag skulle ge mig ut på alltför hal is om jag förs...

2012-04-03T07:53:15.901+02:00

Jag skulle ge mig ut på alltför hal is om jag försökte kvantifiera detta, Emil.

Hur vanligt skulle du säga man i en typisk NHST di...

2012-04-02T19:37:55.543+02:00

Hur vanligt skulle du säga man i en typisk NHST disciplin finner sig i sådana situationer du anger där konfidensintervall har betydande begränsningar jämfört med i förhållande ganska lätta fall där man jämför t. ex. en aktiv behandling med placebo eller använder sig av andra typiska experimentdesigner?

Thanks, Dan! Sharing the pragmatic view on stati...

2012-04-02T18:54:45.338+02:00

Thanks, Dan!

Sharing the pragmatic view on statistics that you express in the final sentence, I have almost never felt any urge to join either side of the old Bayesian vs frequentist quarrel.

As a statistician who is currently "for my si...

2012-04-02T18:42:27.544+02:00

As a statistician who is currently "for my sins" working in a Ecology department, I really enjoyed this paper!

My only problem with it is the last sentence of Section 5, where Bayesian statistics is somewhat thrown under a bus! It has always puzzled me why Bayesian statistics always seems to have an "Achilles heel" (prior specification), while frequentist inference has "underlying assumptions that are needed to justify the procedure". (Can you tell this is a pet hate?)

On the up side, you also decimated one of my other pet hates, namely the use of idiotic prior distributions in induce artificial Bayesian/Frequentist "paradoxes".

This reminds me slightly of a conversation I had with a (mathematical) statistician last week who seemed surprised when I suggested that presence/absence of priors was probably not the most important difference between Bayesian and frequentist statistics (in that, for simple cases, there are straightforward weakly informative priors), but rather the interpretation of results. I've always (always!) felt that the choice of inferential framework should be, at least partially, driven by the question that you're trying to answer and the data that you have.

Tack Emil för kommentar! 1. Jag uppfattar medicin...

2012-04-02T17:34:02.468+02:00

Tack Emil för kommentar!

1. Jag uppfattar medicin som en "typisk NHST disciplin". Detta hindrar inte att det också finns andra mycket vanliga statistiska begrepp och metoder inom medicinsk statistik, och naturligtvis kan praxis variera mellan olika subdiscipliner.

2. Du har rätt i att mycket vore vunnet om statistikpraktiker i många fall kunde förmås övergå från NHST till konfidensintervall - eller till konfidensmängd som det mer generellt blir. Men någon universallösning är det inte. Konfidensmängden är visserligen strikt mer informativ än p-värdet, men den låter sig inte alltid beräknas. I enkla skolboksexempel, som stickprovsbaserad skattning av väntevärde i endimensionell normalfördelning, är det i princip lika lätt som att beräkna p-värdet, men i mer komplicerade situationer kan det vara närmast ogörligt, i och med att det kräver att man beräknar (eller i alla fall uppskattar) teststatistikans fördelning inte bara i den parameterpunkt som svarar mot nollhypotesen utan i samtliga punkter. Dessutom händer det ju att man testar en nollhypotes i ett sammanhang där man inte ens bäddat in den i ett parameterrum, och då är ju inte konfidensmängdsbegreppet applicerbart. Slutligen kan det vara så (speciellt i flerdimensionella parameterrum) att även om en konfidensmängd i princip är välbestämd så blir den så risig att den inte låter sig presenteras på något lättbegripligt vis.

3. Jag håller i stort sett med dig (även om du uttrycker dig lite för svepande i de två första meningarna). Att p<0.05 i sig skulle vara en stark indikation på att nollhypotesen fallerar är ett (tyvärr väldigt utbrett) missförstånd. Händelser som har 5% sannolikhet händer allt som oftast. En diskussion för ett par år sedan som jag kort dök ned i illustrerar hur starkt många överskattar kraften i p<0.05. Min avslutande kommentar i den diskussionen, som tyvärr verkade göra föga intryck på de övriga, löd så här:

"Jane, you are absolutely right that the appropriate choice of significance level is context-dependent. However, it it very rarely the case that translating p<.05 into 'beyond reasonable doubt' is appropriate. As a general translation, something like 'data suggest something might be going on here, worth investigating further' would be better. At what point I’d be prepared to use language like 'beyond reasonable doubt' again depends on circumstances (how much is at stake, what do we have prior reasons to expect, etc), but typically perhaps around p<0.0001."

En välbehövlig artikel i många avseenden, men jag ...

2012-04-02T14:48:32.911+02:00

En välbehövlig artikel i många avseenden, men jag skulle tänka mig följande problematiseringar.

1. Du väljer att ta medicin som exempel i din diskussion om felslutet att tolka p värde som sannolikheten att nollhypotesen är sann givet erhållen data. Kanske var detta tänkt som ett exempel bland många, men är just medicin en typisk NHST disciplin? Brukar man inte ofta snarare rapporterar effektstorlekar och konfidensintervall?

2. Du väljer inte att gå så långt som vissa kritiker till NHST utan resonerar att

"While they are absolutely right that single-minded focus on statistical significance is bad practice, throwing out the use of significance tests would be a mistake, because it is a crucial tool for concluding with confidence that what we see really is a pattern, as opposed to just noise (cf. item (a) in Section 1). To be able to conclude that we have reasonable evidence in favor of an important deviation from the null hypothesis, we need both
statistical and subject-matter significance."

Kan du komma på något man kan få ut av p-värde som man inte kan få ut av t. ex. konfidensintervall? Jag har svårt att hitta viktiga exempel. Kan du komma på något som man får ut av konfidensintervall som man inte (direkt) kan få ut av p-värde? Vi kan säkert massor av exempel här.

Man kan utföra ett signifikanstest med konfidensintervall, men detta är ju lite som att använda en guldtacka som pappersvikt. Visst, det funkar, men verkar slöseri. Dessutom så spelar det inte så stor roll om konfidensintervallet precis överlappar t. ex. den okända med fixerade populationsparametern eller om konfidensintervallet precis inte gör det, för trovärdigheten ("relative likelihood") varierar inom ett konfidensintervall och skillnaden mellan de två är mycket liten.

I slutet av dagen kommer vi behöva göra ett beslut om vårt resultat ska anses vara en viktig avvikelse från nollhypotesen, men borde inte en sådan slutsats vara baserad på så mycket belägg det går?

Om NHST ofta ger felaktig guidning, är förpestad med missförstånd, leder till svartvitt tänkande och publikationsbias etc. medan saker som effektstorlek och konfidensintervall presenterar nästan all relevant tillgänglig evidens och undviker de flesta av bristerna med NHST, finns det verkligen någon poäng att klamra sig fast vid NHST?

3. Endast mycket låga p värden t. ex. *** resultat ger rimligen användbar information. Större värden på p (även om de är, säg, < 0.05) ger nästan ingen relevant information och är en dålig bas för statistisk inferens. Detta beror på att variabiliteten i p värde vid replikation är relativt stor. Cumming (2008) menar att "In one simulation of 25 repetitions of a typical experiment, p varied from <.001 to .76, thus illustrating that p is a very unreliable measure. This article shows that, if an initial experiment results in two-tailed p = .05, there is an 80% chance the one-tailed p value from a replication will fall in the interval (.00008, .44), a 10% chance that p <.00008, and fully a 10% chance that p >.44. Remarkably, the interval—termed a p interval—is this wide however large the sample size. p is so unreliable and gives such dramatically vague information that it is a poor basis for inference"

Cumming, G. (2008). Replication and p Intervals: p Values Predict the Future Only Vaguely, but Confidence Intervals Do Much Better. Perspectives on Psychological Science, 3(4), 286-300. doi: 10.1111/j.1745-6924.2008.00079.x