Det tycks mig en smula ironiskt att USA:s idag troligtvis mest välkände statistiker inte är utbildad statistiker. Jag vill dock inte racka ned alltför mycket på
Nate Silver för denna brist i hans CV, då han är mycket begåvad och genom praktisk erfarenhet skaffat sig omfattande kunskaper i ämnet. Han har en examen i nationalekonomi från 2000, hade ett enligt egen utsago tråkigt jobb i en ekonomisk konsultfirma fram till 2003, och utveckalde samtidigt på sin fritid programmet
PECOTA (Player Empirical Comparison and Optimization Test Algorithm) för prediktering av professionella basebollspelares framtida prestationer, vilket blev så framgångsrikt att han till slut hade råd att säga upp sig och satsa helhjärtat på sina egna projekt (inklusive en kort period som professionell pokerspelare). Sin stora berömmelse vann han som prediktionsguru inte inom baseboll utan inom amerikansk politik. I mars 2008 lanserade han sin blogg
FiveThirtyEight1, och kom snabbt att väcka stor uppmärksamhet för sina träffsäkra prognoser. I presidentvalet mellan Obama och McCain i november 2008 prickade han rätt vinnare i 49 av 50 delstater, och fyra år senare mellan Obama och Romney klarade han alla 50.
Nate Silvers bok
The Signal and the Noise: The Art and Science of Prediction utkom i september förra året och tog sig snabbt in på bästsäljarlistorna. Den 500-sidiga boken är skriven med ett utpräglat journalistiskt driv, och är både lättläst och bitvis så intressant att den är svår att lägga ifrån sig. Flertalet kapitel behandlar prediktion inom något specifikt område, från meteorologi och jordbävningar till poker och finansmarknader, och så naturligtvis Silvers egna specialområden baseboll och amerikansk politik.
Silver är mycket skicklig på att utveckla framgångsrika prediktionsmodeller och -algoritmer, och det finns väldigt mycket att hålla med om när det gäller allmänna råd och recept för framgångsrik prediktion. Exempelvis är det bara att instämma då han framhåller vikten av mekanistisk förståelse (att sätta sig in i de kausala samband som ligger bakom det fenomen man modellerar, i motsats till det slags kurvanpassning där man inte bryr sig mycket om vad kurvorna egentligen står för). Detsamma gäller hans ställningstagande mellan
hedgehogs och foxes i Isaiah Berlins instruktiva tankefigur där en igelkott (hedgehog) har en enda stor idé att arbeta med, medan en räv har många små; mycket av Silvers framgång som prognosmakare består i att han förmår kombinera informationen i många olika (slags) kunskapskällor snarare än att ensidigt fokusera på en eller några få. Den tankefigur som bokens titel fömedlar - vikten av att kunna skilja ut den relevanta signalen i vad som ofta är ett hav av brus - är också mycket användbar och viktig. Och ännu en viktig lärdom är att man inte bör nöja sig med att ange vilket utfall man finner allra sannolikast - i de flesta beslutssituationer finns all anledning att försöka precisera en fördelning som ger sannolikheter för alla möjliga utfall.
Mycket klok är också Silvers betoning av hur viktigt det är att försöka göra en så träffsäker prediktion som möjligt. Detta kan i förstone synas så självklart att det inte ens behöver nämnas, men han ger genom boken en rad exempel på hur prognoser förvrids då prognosmakare har andra incitament än att prognosticera så träffsäkert som möjligt. Till exempel framstår det initialt som en smula gåtfullt hur amerikanska TV-stationer tenderar att göra betydligt sämre väderprognoser än den federala väderbyrån NWS (National Weather Service), trots att de har gratis tillgång till prognoserna från NWS och därmed kan försäkra sig om att göra lika bra prognoser genom att helt enkelt apa efter. Det visar sig emellertid att TV-stationernas önskan att hålla sig väl med sina tittare skapar en bias i deras väderprognoser. Tittare tenderar att bli argare då prognoserna förutsagt sol medan verkligheten levererat regn än vice versa, något som får TV-stationerna att i överlag överdriva risken för regn. Silver ger också exempel på hur liknande asymmetrier bland fondförvaltare på Wall Street kan bidra till flockmentalitet och kollektiv oförmåga att rätt bedöma risken för börsnedgångar och krascher.2
Jag har som synes mycket gott att säga om Nate Silvers bok. Den bjuder på många klokskaper, och jag bedömer att den kan njutas med stor behållning av ett brett spektrum av läsare på alla nivåer från gymnasister till professorer. Likväl är det något med den som inte känns bra. Silver talar genomgående med stor auktoritet, men kan vi verkligen lita på att han har täckning för det?
Mina egna förkunskaper om de ämnen bokens olika kapitel tar upp varierar kraftigt, från näst intill total okunnighet (som Kapitel 3 om baseboll, Kapitel 5 om jordbävningar och Kapitel 10 om poker) via ett lite bättre hum (som Kapitel 4 om meteorologi och Kapitel 7 om epidemier och infektionssjukdomar) och riktigt hygglig pålästhet (Kapitel 12 om klimatvetenskap) till vad jag dristar mig kalla expertis (Kapitel 8 om statistiska slutledningsprinciper och Kapitel 9 om schack). Överlag kan om min upplevelse av boken sägas att den var som mest njutbar i de kapitel som behandlar ämnen jag visste mycket lite om, medan ju mer jag behärskade ämnet desto oftare stötte jag på tveksamheter och rena felaktigheter i texten, och vad gäller de tre sistnämnda kapitlen tycker jag att de inte håller måttet för vad man kan begära av god populärvetenskap i fråga om vederhäftighet. Man kan nu fråga sig om det är en tillfällighet att just de tre kapitel vilkas innehåll jag kan något om är så dåliga, eller om det möjligen kan vara så att övriga kapitel är lika dåliga men att jag helt enkelt saknar de specialkunskaper som krävs för att genomskåda detta. Jag lämnar detta som en öppen fråga, men vill avsluta med att ge exempel på störande dumheter i Kapitel 8, 9 och 12.
Kapitel 8 om statistisk slutledning.
Vad gäller metodologi är detta bokens centrala kapitel. Nate Silver förordar
bayesiansk uppdatering av a priori-sannolikheter i ljuset av data. Utan tvivel är detta en stor del av "hemligheten" bakom hans framgångar som prognosmakare, och på områden som poker och oddssättning på vadslagningsbyråer kan man lugnt säga att hans förhållningssätt är det enda rimliga. Men när han mer allmänt tar ställning i frågan om bayesianska kontra frekventistiska metoder
3 - en av de mest debatterade principfrågorna inom den matematiska statistiken under större delen av 1900-talet och framåt - gör han det onyanserat och ovederhäftigt. Hans beskrivningar av frekventistisk statistik är aggressivt tendentiösa och ofta direkt felaktiga, som att
"sampling error [is]
the only type of error that frequentist statistics directly accounts for" (sid 252) eller att
"frequentist methods - in striving for immaculate statistical procedures that can't be contaminated by the researcher's bias - keep him hermetically sealed off from the real world" (sid 253). Precis som ekonomerna Thomas Ziliak och Deidre McCloskey i deras uppmärksammade bok
The Cult of Statistical Significance (som jag skrivit om
här) övergår Silver i sina attacker på frekventismen till att även attackera personen
Sir Ronald Fisher (1890-1962), allmänt känd som den frekventistiska statistikens fader. Fisher var en inbiten rökare, och vägrade hårdnackat (och pinsamt nog för en vetenskaplig frontfigur som han) att acceptera slutsatsen att rökning orsakar lungcancer. Korrelationen kunde han inte förneka, men föreslog alternativa kausalsamband, som att någon viss defekt i lungan skulle dels på sikt ge upphov till lungcancer, dels ge en retning som triggar folk att som lindring börja röka. Med facit i hand kan vi skratta åt detta, men Silver är helt fel ute när han hävdar att det var Fishers frekventistiska tankesätt som tillät honom hans ståndpunkt. Silver tycks mena att om Fisher varit bayesian, så hade han haft förstånd att representera långöktheten i han alternativa kausalteori med en mycket låg a priori-sannolikhet, och därmed ge hög sannolikhet åt det gängse kausalsambandet mellan rökning och lungcancer. Silvers argumentation här är helt orimlig, för det första för att Fisher, färgad av önsketänkande, givetvis inte hade valt en sådan a priori-fördelning, och för det andra (och viktigare!) för att vetenskapliga frågor inte skall avgöras genom val av a priori-fördelning utan genom fortsatt anskaffning av allt bättre evidens av olika slag.
Opinionsläget i fråga om bayesianism kontra frekventism bland akademiska matematiska statistiker är idag betydligt mindre upphettat för några år sedan, och de flesta i den yngre generationen av forskare inser att bayesianska metoder passar bra för vissa problem, frekventistiska passar bättre för andra, medan åter andra lämpligen kan behandlas med hybrider och kombinationer av de båda verktygslådorna. När Silver ger sin sammanfattning av läget med (sid 260)...
Recently [...] some well-respected statisticians have begun to argue that frequentist statistics should no longer be taught to undergraduates. And some professions have considered banning Fisher's hypothesis test from their journals. In fact, if you've read what's been written in the past ten years, it's hard to find anything that doesn't advocate a Bayesian approach.
...så är påståendena i de två första meningarna i sak riktiga men tendentiöst utvalda, medan den tredje meningen är ett rent påhitt och ger en helt missvisande bild av hur det ligger till.
Kapitel 9 om schack. I detta kapitel, som mestadels uppehåller sig vid kampen mellan människa och schackdator, är det tydligt hur Silver låtsas behärska schacklig jargong och avancerade koncept men sätter ihop de fina nyckelorden på ett sätt som avslöjar hur lite han förstår om schack. Jag vill inte uppehålla mig vid detta4, mer än att konstatera det lite lustiga faktum att Silver gör sig skyldig till den (troligtvis) mest felaktiga sifferuppskattning jag någonsin sett. I sin förklaring till varför schackdatorer inte kan jobba sig igenom alla tänkbara varianter när de väljer ett drag framhåller Silver det (mer än) astronomiska antalet möjliga partier att tugga sig igenom, och den praktiska orimligheten i att göra det. Detta är helt riktigt, men den konkreta siffra han anger - 101050 - för det ungefärliga antalet möjliga schackpartier är fullkomligt hårresande uppåt väggarna, och det förvånar mig att Silver, som ändå besitter den allmänmatematiska kompetens som krävs för att snabbt konstatera detta, okritiskt släpper ifrån sig en sådan uppgift.5,6
Kapitel 12 om klimatvetenskap. Detta kapitel bedömer jag vara avsevärt bättre än Kapitel 8 och 9, och Silver gör många kloka påpekanden, inte minst då han betonar att vår gedigna förståelse för växthuseffekten och andra fysikaliska mekanismer inblandade i klimatsystemet gör våra kunskaper om klimatförändringarna och deras orsaker mycket solida. Sedan ägnar han emellertid alldeles för mycket kraft åt att analysera hur väl scenarier och förutsägelser gjorda för några få år sedan7 och avsedda för återstoden av århudradet har fallit ut de senaste åren - i stort sett meningslösa räkneövningar då så korta tidsskalor gör att trenderna rätt och slätt drunknar i klimatsystemets brus. Silver är på tok för otydlig på denna punkt.
Fotnoter
2) Silvers förklaring är så instruktiv att den förtjänar att citeras. Tänk dig att du är en aktiehandlare vars framtida lönekuvert och bonusar naturligtvis är beroende av hurpass väl du lyckas med att tjäna pengar åt din arbetsgivare. Det är viktigt att du rätt kan förutse huruvida marknaden är på väg upp (Köp! Köp! Köp!) eller ner (Sälj! Sälj! Sälj!), men du bör också beakta vilka de eventuella konsekvenserna blir om du gissar fel. Här föreligger (sid 355, originalets fetning) en viss asymmetri:
- The trader buys but the market crashes. This is no fun: he's lost his firm a lot of money and there will be no big bonus and no new Lexus. But since he's stayed with the herd, most of his colleagues will have made the same mistake. Following the last three big crashes on Wall Street, employment at securities firms decreased by about 20 percent. That means there is an 80 percent chance the trader keeps his job and comes out okay; the Lexus can wait until the next bull market.
- The trader sells but the market rises. This scenario, however, is a disaster. Not only will the trader have significantly underperformed his peers - he'll have done so after having stuck out his neck and screaming that they were fools. It is extremely likely that he will be fired. And he will not be well-liked, so his prospects for future employment will be dim. His career earnings potential will have been dramatically reduced.
Med sådana incitament, påpekar Silver, behöver man känna sig
väldigt säker på att en nedgång är nära förestående innan man vågar satsa på att så är fallet.
3) Någon text som helt ägnas denna debatt har jag inte författat, men
här,
här och
här delar jag med mig av min balanserade syn på frågan.
4) Här, emellertid, är ett typiskt exempel: I första matchpartiet 1997 mellan dåvarande världsmästaren Garri Kasparov och datorprogrammet Deep Blue överraskade den förstnämnde med att efter inledningsdragen 1. Sf3 d5 2. g3 Lg4 (onödigt svåra att rekonstruera ur Silvers bok på grund av ett fel i diagrammet på sid 271) avvika från gängse spelöppningsteori med det ovanliga 3. b3. Om detta skriver Silver (sid 270) att Deep Blues spelöppningsdatabas "relied on the assumption [...] that Kasparov would respond as almost all players had when faced with this position, by moving the knight back out of the way", följt av en fotnot om löparparets värde som ger (det helt orimliga) intrycket av att detta (löparparets värde) är något som Kasparov men inte Deep Blue kände till. Mycket rimligare hade varit att säga något om den försvagning av vits bondestruktur som ett byte på f3 skulle åstadkomma, och hur denna kan vägas mot fördelen av att inneha löparparet. För övrigt skulle ingen enda någorlunda kunnig schackspelare i ställningen efter svarts andra drag mer än för högst ett ögonblick överväga "moving the knight back out of the way" (till g1 alltså). Vad däremot många gjort i ställningen är att kasta springaren framåt (3. Se5), men klart vanligast är faktiskt 3. Lg2, vilket tillåter bytet på f3 men undviker den vidhängande bondeförsvagningen (varefter svart som regel avstår från att slå springaren).
5) Om
a är en övre gräns för maximala antalet tillgängliga drag i en ställning, och
b är en övre gräns för antalet drag i ett schackparti, så är
a2b en övre gräns för antalet möjliga schackpartier. Med hjälp av
50-dragsregeln går det lätt att härleda att
b är högst 5950, och en grov övre gräns för
a är
169 321. Antalet möjliga schackpartier är därför högst lika med
169 321
11900 vilket är mindre än 10
26512 29828 - förvisso ett ofattbart stort tal, men ändå rent ut sagt löjligt litet jämfört med 10
1050.
6) Det är oklart var Silver fått sin siffra ifrån. Han hänvisar till Kasparovs intressanta essä
The Chess Master and the Computer i
New York Review of Books för ett par år sedan, men i denna text anger Kasparov antalet till 10
120. Ironiskt nog är även denna siffra alldeles på tok, och faktiskt (dess enorma astronomiska storlek till trots) för liten. Det är inte svårt att rigoröst konstruera en uppsättning schackpartier som till antalet överstiger 10
500 eller mer.
7) Exempelvis diskuterar Silver i detalj (sid 381 och framåt) den vadslagning rörande global temperaturutveckling som en klimatförnekare vid namn
Scott Armstrong 2007 föreslog Al Gore. Att jämföra hur många månader som sedan dess kommit närmare den temperaturutveckling Armstrong föreslog åt sig själv än den han tillskrev Gore, ger data med ett så dåligt signal/brus-förhållande att de i princip är värdelösa.
Edit 19 januari 2013: Jag vill inte längre stå för Fotnot 5:s skattning a=169, utan korrigerar för att vara på den säkra sidan till a=321. När jag härledde a=169 tyckte jag att jag var fiffig som tog i beaktande att bönder som står på sjunde raden kan ha upp till 12 olika drag att välja mellan, tack vare att det finns fyra olika pjäser att promovera till. Desto märkligare att jag glömde att beakta den ökade rörelsefrihet som promoverade bönder kan ha. Min nya försiktigare skattning a=321 bygger på värsta fall-scenariot att den som är vid draget har nio damer (och således noll bönder). Med lite skicklighet bör det gå att pressa ned skattningen rejält. J.E. Littlewoods motsvarande skattning (i det
manus som diskuteras i kommentarstråden nedan) är 332. Diskrepensen mot mitt nya 321 ser ut att bero på att Littlewood skattat maximala antalet rutor en löpare kan nå med 14 istället för optimala 13, och motsvarande ickeoptimalitet för damer.