1. Sammanfattning
Göran Lambertz, tidigare justitiekansler och därefter justitieråd i Högsta domstolen, har författat och på sin hemsida nyligen publicerat en rapport rubricerad
Vem mördade sannolikt Olof Palme?, där han utger sig för att analysera frågan med bayesiansk statistisk metod, men gör det med så bottenlös inkompetens att de siffror han presenterar är värdelösa för den som vill bilda sig en uppfattning om vem som mördade Palme. Huvudpunkten i denna bloggpost (se Avsnitt 4 nedan) är en presentation av ett urval av de grövsta matematisk-statistiska fel som Lambertz begår i sin rapport.
2. Syfte
Jag håller för tämligen osannolikt att någon läsare av min blogg skulle känna sig frestad att vända sig till Lambertz rapport för vägledning i frågan om vem som mördade Olof Palme, och fastän jag avråder starkt från sådan vägledningshänvändelse är detta inte mitt primära syfte. Ej heller handlar det om att tala Göran Lambertz till rätta; vis av erfarenhet betraktar jag detta som näst intill omöjligt.1 Nej, huvudsyftet med min bloggpost är att illustrera (a) några fallgropar som den matematisk-statistiskt oerfarne kan hamna i i sina försök att tillämpa de ytligt sett ganska enkla redskap som den bayesianska statistiken tillhandahåller, och (b) ett visst slags psykologi som kan få högt begåvade personer att kraftigt överskatta sin egen kompetens.
3. Bakgrund
Våren 2015 publicerade Göran Lambertz sin bok
Quickologi, som handlade om det så kallade Quickärendet - ett av de allra mest uppmärksammade i modern svensk rättskipning. Bokens centrala budskap är att Thomas Quick (även känd som Sture Bergwall) med 183%-ig sannolikhet är skyldig till de mord denne anklagats för. Ack så fånigt, tänkte jag när jag fick se den då nyutgivna boken, och bestämde mig för att inte engagera mig i frågan, men när veckorna gick och de kommentatorer som höjde sina röster mot Lambertz matematik samtliga verkade stanna vid (det i och för sig korrekta) konstaterandet att 183% inte är en matematiskt giltig sannolikhet ändrade jag mig, då jag bedömde chanserna goda att debatten skulle gagnas av en matematiskt kompetent genomgång av de resonemang i boken som fick Lambertz att landa i sin stolliga siffra. Jag läste boken och levererade mina (ganska beska) sammanfattande omdömen i bloggposten
Quickologisk sannolikhetskalkyl. Därefter vidtog en diskussion med Lambertz som med varierande intensitet pågick i mer än ett år, delvis på min blogg (se t.ex.
denna bloggpost, och
denna, och
denna, och
denna) men också i mer privata kanaler. Denna diskussion var extremt frustrerande, och även om den på ett plan kan ha förefallit uppvisa viss progression - från Lambertz insisterande på sin totalflänga
additionsformel, via hans hopp till sin kosmetiskt mer tilltalande men i själva verket precis lika odugliga
multiplikationsformel, till att han slutligen landade i att tillämpa den välkända och matematiskt korrekta
Bayes sats - så hjälpte detta inte alls, eftersom alla matematiska verktyg oavsett om de är nonsens eller i sig helt riktiga leder till rena dumheter när de brukas med lambertzk omdömeslöshet och inkompetens.
När jag framåt hösten 2016 explicit avsade mig fortsatt engagemang rörande Lambertz matematiska äventyrligheter så rådde jag honom i så otvetydiga ordalag jag förmådde att inte på egen hand arbeta vidare på det bayesianska spåret, då det ju var lätt att förutse vilket slags trams det skulle resultera i. Om han ville fortsätta framåt längs denna väg så var det absolut nödvändigt, framhöll jag, att han gör det i samarbete med matematisk-statistisk expertis.
Dessa råd föll dessvärre för döva öron, och Lambertz har under de år som gått sedan 2016 fortsatt att redovisa en rad på Bayes sats baserade analyser av Quickärendet. Det har hänt att jag kastat ett öga på dessa och då förfärats av det jag sett, men jag har avstått från närmare dissekering, då jag även vid tillfällen då vi befinner oss på landet med hyfsat långt till närmsta granne ändå som regel haft min hustru på plats i samma hus, och då jag vet att hon ogillar när jag sliter mitt hår, dunkar huvudet i skrivbordet och ropar okvädningsord rakt ut i luften. En annan bidragande orsak till min avhållsamhet är hur hjärtinnerligt trött jag var på den Quickologiska sannolikhetskalkylen i alla dess skepnader. Därför kändes det snudd på nytt och fräscht (nej jag överdriver, fräscht var det sannerligen inte) när Lambertz i den rapport han i mellandagarna publicerade valde att (tillfälligt?) lägga Quickärendet åt sidan och istället tillämpa det han inbillar sig kunna om bayesiansk metodik på Palmemordet. Ok, sade jag till mig själv, jag kan väl ta en titt på detta för att se om nära ett decennium av autodidaktiskt övande på tillämpning av Bayes sats eventuellt börjat ge resultat i form av förbättrade färdigheter. Men ack nej, någon sådan förbättring kan knappast skönjas.
4. Rapportens innehåll och ett urval av dess brister
Göran Lambertz nya rapport
Vem mördade sannolikt Olof Palme? gör anspråk på att med bayesiansk metodik uppskatta sannolikheterna för fem olika gärningspersoner eller kategorier av sådana, nämligen (a)
Christer Pettersson, (b)
Stig Engström, (c) pseudonymen
Christer Andersson, (d)
Sydafrikaspåret och (e)
annan konspiration. Det förtjänar här inskärpas att det är en mycket bra idé att göra en sådan analys, då bayesiansk metodik enligt min mening är den principiellt rätta att tillämpa i brottmål där osäkerhet om gärningsperson och andra omständigheter i sak föreligger. Jag tror att rättsväsendet, både i Sverige och internationellt, skulle ha väldigt mycket att vinna på om det bayesianska tillvägagångssättet sattes i system, och att många förfärliga rättsskandaler hade kunnat unndvikas med en kompetent genomförd sådan praxis; det ökända
Sally Clark-fallet i Storbritannien är ett lärorikt paradexempel.
Problemet med Lambertz analys är emellertid att den är så urbota inkompetent genomförd att de siffror han presenterar i rapporten genom att ge ett bedrägligt intryck av precision är ännu sämre än att inte ge några siffror alls. I det följande ger jag en (icke-uttömmande) lista över fyra av de mest flagranta dumheterna i hans analys. Jag väljer att i mitt urval särskilt fokusera på gärningsmannakandidaten Stig Engström, då jag finner denne vara av särskilt intresse i kraft av att ha pekats ut som misstänkt gärningsman i samband med nedläggningen 2020 av Palmemordsutredningen.
4.1. A priori-sannolikheten för Engström. I en bayesiansk analys behöver de händelser vilkas sannolikhet vi är ute efter att uppskatta tilldelas så kallade a priori-sannolikheter (av Lambertz kallade ursprungssannolikheter). Vad gäller händelsen att det var Stig Engström som sköt Palme väljer Lambertz a priori-sannolikheten 0,001. Någon närmare motivering till detta val ger inte Lambertz, utöver påpekandet på s 31 i rapporten att "man brukar ange en mycket låg sådan sannolikhet utifrån tanken att alla personer i någorlunda närhet till brottet som utgångspunkt är ungefär lika möjliga som gärningsmän". Grundprincipen här är vettig, men problemet i det aktuella fallet är att 0,001 inte alls är någon särskilt låg sannolikhet, utan tvärtom uppseendeväckande hög. Om jag själv hade givit mig på att analysera Palmemordet med bayesianska metoder hade jag nog på sin höjd satt a priori-sannolikheten till 0,000 001 (eller troligtvis ytterligare något lägre), med stöd i att allt tyder på att mördaren är en man, och i att det i Stockholmsområdet finns i storleksordningen en miljon män. För att motivera en så hög siffra som 0,001 skulle Lambertz behöva ange (åtminstone på ett ungefär) någon a priori-avgränsning av en population om cirka 1000 personer2 vilken inkluderar såväl Stig Engström som Christer Pettersson och Christer Andersson vilka båda också åstätts a priori-sannolikhet 0,001, men rörande hur en sådan (i storstadssammanhang ytterst liten) population skall definieras lämnar Lambertz läsaren fullkomligt i sticket.
Intrycket jag får här är att Lambertz uppfattar såväl 0,001 som 0,000 001 som pyttesmå sannolikheter och tänker (om han nu alls ägnat saken någon medveten tanke, vilket såklart inte kan tas för givet) att valet mellan dem inte rimligtvis kan spela någon större roll. Här tar han i så fall miste, eftersom det inte främst är den ringa differensen 0,000 999 mellan talen som gör valet betydelsefullt, utan (den betydligt större) kvoten mellan dem, som är 0,001/0,000 001 = 1000. Om man genomför Lambertz analys av gärningsmannakandidaten Engström med modifieringen att a priori-sannolikheten sätts till 0,000 001 istället för 0,001, så landar a posteriori-sannolikheten att Engström är mördaren på cirka 0,01% istället för de 10% som Lambertz anger. Skillnaden mellan dessa resultat är betydande: 10% är en högst påtaglig misstankegrad medan 0,01% är en snudd på försumbar sådan.
En bayesiansk analys blir sällan bättre än de siffror som matas in i formlerna, och det är därför i någon mån ett bekymmer att bayesianen ofta behöver höfta. Skillnaden är dock avgrundsdjup mellan välgenomtänkta höftningar och att på Lambertz vis lite på måfå dra fram sina siffror ur röven.
4.2. Engströms närvaro vid brottsplatsen. Stig Engström är bunden vid brottsplatsen, och att han var där är såklart en viktig omständighet att ta hänsyn till i en bedömning av sannolikheten att han också begick mordet. För att tillämpa Bayes formel behöver vi sätta in värden dels på den betingade sannolikheten att Engström skulle vara där givet att han är mördaren, dels motsvarande betingade sannolikhet givet att han inte är mördaren. Den första sätter Lambertz till 1, vilket är helt rimligt: för att kunna begå mordet behöver givetvis Engström ha varit närvarande på brottsplatsen. Men sedan kommer den stora överraskningen, nämligen att Lambertz sätter även den andra betingade sannolikheten till 1. Att dessa båda sannolikheter är lika betyder att Engströms närvaro vid brottsplatsen överhuvudtaget inte förmår rubba a priori-sannolikheten att han är mördare, eller med andra ord att denna närvaro inte har någon betydelse för misstankegraden mot Engström.
Detta måste Lambertz rimligtivis hålla med om är orimligt, och jag misstänker att den andra ettan i hans kalkyl (sannolikheten att Engström skall finnas vid brottsplatsen givet att han inte är mördaren) helt enkelt är frukten av ett tillfälligt hjärnsläpp. Kanske tänkte Lambertz att "jamen vi vet ju att han var där, så då måste väl sannolikheten vara 1", men det är inte så man i detta slags sammanhang behandlar sannolikheter. I så fall skulle ju alla säkra bevisomständigheter automatiskt bli betydelselösa i bevissammanvägningen, något som självklart är orimligt och som dessutom skulle få förödande följder för snart sagt alla brottsutredningar.
4.3. Urvalet av evidensomständigheter att peta in i uträkningen. På sidan 36 i rapporten ränkar Lambertz upp de tio evidensomständigheter han bedömer ha störst betydelse för att avgöra Engströms eventuella skuld till mordet, varav fem sägs peka mot hans skuld medan de återståede fem sägs peka mot hans oskuld. När Lambertz sedan börjar sätta in siffror i Bayes sats så gör han det enbart för de första fem omständigheterna, och inte för de återstående fem. Att på detta sätt räkna in omständigheter som pekar i den ena riktningen men inte i den andra går inte an, utan förvränger såklart resultatet systematiskt i riktning mot Engströms skuld. (Man kan överhuvudtaget inte hoppa över några evidensomständigheter med mindre än att man bedömer dem vara av försumbar betydelse.)
Något förbryllande hävdar Lambertz (tre rader från botten av s 36) rörande hans tillämpning av Bayes sats på de fem första evidensomständigheterna att han genomför den "med beaktande av de omständigheter som talar emot att Stig Engström är skyldig" (dvs av de övriga fem). Men detta går helt emot den bayesianska systematik som Lambertz försöker tillämpa, där man räknar på effekterna av en evidensomständighet i taget. Eftersom Lambertz inte säger något konkret eller kvantitativt om detta "beaktande" lämnas läsaren helt i det blå rörande hur stor inverkan de enskilda omständigheterna har (såväl de första fem som de återstående fem).
Låt mig erbjuda en analogi. Antag att vi är intresserade av avståndet med bil mellan Stockholm och Göteborg längs E4:an och Riksväg 40. Eftersom Linköping och Jönköping ligger längs denna färdväg kan vi om vi så vill dela upp sträckan Stockholm-Göteborg på delsträckorna Stockholm-Linköping (20 mil), Linköping-Jönköping (13 mil) och Jönköping-Göteborg (14 mil), och räkna ut totalavståndet som 20 + 13 + 14 = 47 mil. So far so good, man antag nu att vi på Lambertz vis vill förenkla uträkningen genom att hoppa över den sista delsträckan och istället ta den i "beaktande" i angivandet av de två första. I så fall kan vi t.ex. erhålla sträckan Stockholm-Göteborg som sträckan Stockholm-Linköping (30 mil) plus sträckan Linköping-Jönköping (17 mil), och få totalsträckan 47 mil, vilket i och för sig råkar vara korrekt, men utan att ge någon som helst ledning om hur långa de olika delsträckorna är, så för den stackars läsaren blir uträkningen helt meningslös - lika meningslös som Lambertz låtsas-bayesianska uträkning av sannolikheten för Stig Engströms skuld.
4.4. Övriga tänkbara mördare. Lambertz fel på denna punkt är mer subtilt och mer förlåtligt än de ovanstående, men har enligt min mening visst pedagogiskt värde att redovisa. Låt A
1, A
2, A
3, A
4 och A
5 beteckna respektive händelser att Pettersson är mördaren, att Engström är mördaren, att Andersson är mördaren, att Sydafrika ligger bakom och att någon annan konspiration ligger bakom. Då är det naturligt att även införa A
6 som beteckning för att någon eller något som inte täcks av A
1, ..., A
5 ligger bakom mordet. De sex händelserna utgör då en så kallad
partition av det totala utfallsrummet, vilket medför att
P(A1) + P(A2) + P(A3) + P(A4) + P(A5) + P(A6) = 1.
Om vi känner till de fem första sannolikheterna kan vi därför räkna ut den sjätte enligt
P(A6) = 1 - (P(A1) + P(A2) + P(A3) + P(A4) + P(A5)).
Detta samband visar sig vara fortsatt giltigt om vi betingar på någon viss uppsättning E av evidensomständigheter:
P(A6|E) = 1 - (P(A1|E) + P(A2|E) + P(A3|E) + P(A4|E) + P(A5|E)).
Det är detta generaliserade samband (vilket vi kan kalla
betingade partitionsformeln) som Lambertz implicit försöker tillämpa på s 50 i sin rapport. Han summerar sina uppskattningar av de fem första sannolikheterna och får dem till 67,5%, varpå han föreslår att restposten A
6 därigenom får sannolikhet 100% - 67,5% = 32,5%. Problemet är bara att betingade partitionsformeln inte gäller i Lambertz situation, eftersom hans uträkning av sannolikheterna för A
1, ..., A
5 inte sker betingat på en och samma uppsättning E av bevisomständigheter, utan på fem olika sådana uppsättningar. I själva verket är det ren flax att de fem sannolikheter Lambertz fått fram summerar sig till något som understiger snarare än överstiger 100%. Summan hade mycket väl kunnat bli exempelvis 183%, varpå tillämpningen av betingade partitionsformeln hade givit honom det penibla resultatet att sannolikheten för A
6 landar på -83%, trots att negativa sannolikheter som bekant(?) inte existerar.
Detta visar på vådan av att betinga på olika evidensomständigheter i uppskattningen av sannolikheten för olika lösningar på mordgåtan. För en samlad och integrerad bild av evidensläget rörande Palmemordet behöver vi betinga på en och samma evidensomständighetsuppsättning för varje lösningskandidat. Detta är i själva verket ett exempel på det jag parentetiskt påpekade redan i Avsnitt 4.3, nämligen att man behöver betinga på samtliga föreliggande icke-försumbara evidensomständigheter. Om, säg, någon viss omständighet talar för att Stig Engström är mördaren, så talar den därigenom ofta emot att Christer Pettersson är mördaren, och behöver därför komma med även i den uträkningen.
5. Slutsatser
Bayesiansk statistik må förefalla enkelt för den som bekantat sig med Bayes sats, men att få det att fungera i praktiken kräver i själva verket färdigheter i matematiskt och statistiskt tänkande som går långt bortom själva satsen och som tar lång tid att lära sig. De fallgropar jag går igenom ovan är blott ett skrap på ytan vad gäller dessa svårigheter.
Jag välkomnar när forskare och andra utan matematisk-statistisk bakgrund försöker lära sig dessa saker för att sedan tillämpa dem, men det kräver ett visst mått av ödmjukhet inför alla de komplikationer som tenderar att dyka upp. Detta behov av ödmjukhet är såklart inte specifikt för bayesiansk statistik, utan gäller de flesta akademiska ämnesområden och profesionella och andra färdigheter. För många kommer den naturligt, medan andra har en tendens att alltför snabbt konstatera "nu begriper jag det här, nu är jag fullärd" och sedan fortsätta framåt som en bulldozer utan att lägga märke till alla de fel man gör. Jag tycker mig se en typ av allmänt akademiskt högpresterande individer som, vana vid hur de under sina studieår snabbt lärde sig behärska allt som kom deras väg, har extra lätt att falla i bulldozerfällan. Göran Lambertz hör helt klart till denna typ, och jag befinner mig själv i ett slags riskzon,4 med min eklektiska iver att klampa in på andra ämnesområden än de jag en gång utbildades för. En skillnad jag dock tycker mig se (med reservation för att inrospektion ibland kan vara förrädisk) är att jag är något mer medveten än Lambertz om denna min tendens, och kan göra medvetna ansträngningar att korrigera för den. Lambertz verkar ha svårare för den saken, och inte ens när han explicit blir varnad för svårighetsgraden inom ett ämnesområde verkar han ta någon notis. Jag syftar såklart här på interaktionen honom och mig emellan då när det begav sig, 2016.
Eller hade jag måhända en tråkig ton som försvårade för mitt budskap att nå fram? Även om jag inte tror att det var huvudorsaken så kan det såklart ha spelat in. Kanske borde jag gå tillbaka i ovanstående text och försöka hitta snällare formuleringar här och var? Fast nej, jag är lite för förtjust i att vara rak i min framställningskonst, och har lite för stark aversion mot att lägga på lager på lager av otydlighetsskapande diplomatisk fetvadd för att vilja göra det. Det får vara.
Fotnoter
1) Som mest kan jag föreställa mig att Lambertz tar till sig de specifika punkter jag pekar ut som felaktigheter i hans Palmemordsanalys, men min ganska säkra prediktion är att han i så fall inte kommer att acceptera påståendet att dessa blott utgör exempel på felaktigheter, utan tvärtom kommer att hävda att hans analys bortsett från de specifika punkterna är klanderfritt genomförd, och dessutom insistera på att hans diverse bayesianska analyser av Quickärendet håller föredömligt god kvalitet.
2) Eller egentligen snarare 870 personer, eftersom konspirationskategorierna (d) och (e) uppges omfatta totalt 13% av Lambertz a priori-fördelning,3 så att endast 87% återstår att fördela över enskilda gärningspersoner.
3) Av dessa 13% tilldelas hela 3% Sydafrikaspåret. Det betyder att maximalt 10% återstår att fördela över andra länders säkerhetstjänster, och såledels att maximalt tre ytterligare länder kan få lika hög eller högre sannolikhet än Sydafrika. Vadan denna särställning för ett land som varken ligger särskilt nära Sverige eller särskilt högt på någon topplista över världens folkrikaste eller mäktigaste länder? Om detta säger Lambertz inte ett pip. Frestande att anföra här skulle kunna vara den sydafrikanska regeringens fientliga inställning till Palme eller deras våldsbenägenhet, men båda dessa saker kommer med som evidensomständigheter i Lambertz kalkyl, och att då samtidigt ta hänsyn till dem i bildandet av a priori-sannolikheten vore ett slags dubbelräkning som riskerar att förvränga reusltatet av analysen.
4) Ett tredje exempel jag tycker mig se, som kan vara värt att framhålla i kraft av dess tydlighet, finns hos den eminente amerikanske fysikern, vetenskapspopularisatorn och poddaren Steven Hsu. I ett avsnitt i somras av hans podd Manifold berättar han bland mycket annat om hur han som barn intresserade sig för schack, och varför han gav upp det intresset. Det vore mig fjärran att kritisera någon för att välja annat än schack att syssla med, men det skäl han anger tyder på det slags tendens till självöverskattning jag talar om här. Han läste under sin schackspelande period i barndomen en del schackböcker och tyckte sig begripa vad som stod i dem, inklusive klassikern Bobby Fischer Teaches Chess. Detta att han till och med begrep vad som anfördes i en bok av Fischer fick honom att dra slutsatsen att han hade snappat upp spelets grundprinciper, och även om han såklart insåg att det fanns potential för honom att bli en säkrare och starkare schackspelare så gjorde han (och verkar än idag göra) bedömningen att det inte fanns något mer för honom att hämta vad gäller spelets idéer, och därmed kändes schacket alltför torftigt för att vara värt en fortsatt satsning. Men Bobby Fischer Teaches Chess är en nybörjarbok! Jag läste den själv i 11-årsåldern, och kan intyga att de schackliga idébatterier jag plockade upp under de decennier som följde vida översteg dem jag mötte i Fischers bok - samtidigt som jag inser att spelare som Fischer och Magnus Carlsen hade eller har en idérepertoar och en idéförståelse som får min egen att mer likna salongsberusad fia med knuff.