I ett (på nätet opublicerat) kåseri i
Axess 5/2012 skriver Johan Hakelius, på tal om de stigande siffrorna i svensk befolkningsstatistik, att dessa i förstone
...kan framstå som goda nyheter för oss som nått den erfarenhetsmättnad som gör att allt färre bekantskaper verkar värda namnet. Enligt samma princip som ger vid handen att en apa kommer att producera Shakespeares samlade verk, om bara tillräckligt många apor tillåts knacka på tangentborden till tillräckligt många datamaskiner tillräckligt länge, borde ett större utbud svenskar öka chanserna för att en eller två av dem är uthärdliga att umgås med.
Men det är inte säkert. [Det är] lätt att tvivla på aptesens korrekthet: det är nästan tio år sedan bloggandet blev allmänt. I allt väsentligt har med andra ord aptesen prövats i stor skala under längre tid, utan att något som ens liknar Shakespeares prosa sett dagens ljus.
Hakelius skämtsamt raljanta tonfall är inte att ta miste på, men det finns inget som hidrar mig från att låtsas ta honom på allvar och göra några enkla matematiska uppskattningar för att utröna i vad mån han har rätt om aporna och tangentborden. Hur det än förhåller sig med den saken torde det väl ligga en hel del i hans retoriska poäng att jämföra bloggosfären med en på tangentbord slumpmässigt hackande apflock (oaktat mina egna fåfänga försök att höja mig över de slumpmässiga teckenföljdernas nivå).
Det Hakelius kallar aptesen är en klassisk illustration till sannolikhetsteorin, och den ligger mig tillräckligt varmt om hjärtat för att jag skall känna mig manad att med sakliga argument försvara den. Aptesen bygger på följande modell. Antag att en apa sitter vid tangentbordet till en dator, och en gång per sekund trycker på en på måfå vald tangent. Vi antar att det finns 50 tangenter1,
och vi bortser från shift-tangenten genom att godkänna en återgivning av Hamlet oavsett bruk av stor och liten bokstav. Varje tangentnedtryckning kommer, oberoende av de tidigare, att producera ett givet tecken bland de 50 möjliga med sannolikhet 1/50.
Om apan får hålla på obegränsat länge, kommer han då att förr eller senare ordagrant återge (den uppskattningsvis 200 000 tecken långa) originaltexten till Hamlet? Enligt aptesen är svaret "ja", vilket också mycket riktigt är det korrekta svaret.2,3
Aptesen är ett specialfall av ett viktigt sannolikhetsteoretiskt resultat som går under namnet
Borel-Cantellis andra lemma (och som jag faktiskt själv ofta haft nytta av i min matematiska forskning). Lemmat säger att om vi gör en obegränsad följd av oberoende försök, och om sannolikheterna för ett visst försöksutfall A summerar sig till ∞ då vi summerar över de olika försöken, så kommer förr eller senare något av försöken att ge utfallet A.
Betrakta först apans tangentnedtryckningar var för sig - kommer vi någonsin att få se bokstaven 'h'? Varje försök - varje tangentnedtryckning - ger i detta fall det önskade utfallet 'h' med sannolikhet 1/50, oeroende av de övriga. Eftersom 1/50+1/50+1/50+...=∞ så ger Borel-Cantellis andra lemma att apan förr eller senare kommer att producera ett 'h'.
Samma resonemang kan tillämpas på godtyckliga ändliga teckenföljder. Sannolikheten att apan omdelbart skriver 'Heja Elfsborg' är (1/50)13 ≈ 0.00000000000000000000008192, vilket visserligen är ett väldigt litet tal, men ändå positivt, vilket gör att (1/50)13⋅∞=∞, så om vi grupperar tangentnedtryckningarna i grupper om 13 så ger Borel-Cantellis andra lemma att apan förr eller senrare får ur sig ett 'Heja Elfsborg'. Och på samma sätt blir det med Hamlets originaltext.
Dessa resonemang är tämligen grovhuggna, på så vis att vi bortser från hur lång tid det kan väntas ta innan vi får se den önskade teckenföljden. Om vi bara är ute efter 'h', så kommer ett sådant i genomsnitt var 50:e sekund, dvs drygt ett i minuten. Om vi väntar på 'he' så kan vi räkna med i genomsnitt ett sådant per 502=2500 sekunder, dvs drygt ett 'he' i timmen. När det gäller 'Heja Elfsborg' så får vi i genomsnitt ett sådant per 5013 ≈ 12210000000000000000000 sekunder, dvs ett per 400000000000000 år,4 vilket är cirka 30 000 gånger mer än den tid som förflutit sedan Big Bang. Detta är naturligtvis en fullkomligt groteskt lång tidsrymd att tänka sig att sitta och vänta, och värre blir det om vi vill se hela Hamlet: ett sådant textstycke kan vi vänta oss en gång per 50200 000 sekunder, vilket är långt mer än 10300 000 år - en fullkomligt obegripligt lång tidsrymd som får universums ålder att framstå som rent ut sagt löjligt liten.
Att ta hjälp av fler apor än en hjälper inte mycket. Om vi har en miljon apor kan vi kapa förväntade tiden till första förekomst av 'Heja Elfsborg' med en faktor en miljon, och vi landar på 400 miljoner år. Även för Hamlet ger naturligtvis en utökning till en miljon apor en uppsnabbning med en faktor en miljon, men eftersom 10300 000/106=10299 994 är det inte mycket att hurra över.
Vad innebär detta för Hakelius jämförelse med bloggosfären? Förutom att göra antagandet att vi bloggare skriver som aporna i aptesen, behöver vi uppskatta hur många tecken den samlade bloggosfären har producerat. Om vi (en smula generöst) höftar till med en miljard bloggare som i tio år producerat tusen tecken var om dagen, landar vi på en total produktion om 4⋅1015 (4 miljoner miljarder) tecken. Detta är ungefär dubbelt så mycket som 509, varför vi kan räkna med att i bloggosfären hitta på sin höjd ett par-tre förekomster av 'Heja Elfs'. Om vi har lite tur kan det visa sig att någon av dem följs av 'b', så att vi får teckensekvensen 'Heja Elfsb' (sannolikheten för detta är cirka 0,04). Oddsen mot att någon av dem följs av 'borg' är däremot överväldigande.5 För att inte tala om hur spektakulärt otillräckligt det gångna decenniet av idogt bloggande är för att någon skall ha råkat få ur sig hela Hamlet. Någon evidens mot aptesen har Hakelius alltså inte. Han behöver bara öva på sitt tålamod.
Fotnoter
1) Uppskattningen 50 här är, liksom de ytterligare sifferantaganden som kommer i det följande, grovt höftad. Den läsare som tycker sig kunna ange exaktare siffror är välkommen att göra det och modifiera mina uträkningar. De kvalitativa slutsatserna om aptesen kommer emellertid att bli desamma.
2) Ibland kräver man (liksom Hakelius ovan) inte bara Hamlet av apan, utan hela Shakespeares samlade verk. Resonemangen och resultaten blir väsentligen desamma som för Hamlet.
3) Aptesen yttrar sig bara om vad som följer
av de givna antagandena, och alltså inte om huruvida dessa antaganden är realistiska.
Wikipedia rapporterar att ett försök faktiskt gjorts med en grupp riktiga apor, men med nedslående resultat:
Not only did the monkeys produce nothing but five pages consisting largely of the letter S, the lead male began by bashing the keyboard with a stone, and the monkeys continued by urinating and defecating on it.
4) För att omvandla sekunder till år delar man med 30 miljoner, vilket approximativt är antalet sekunder på ett år (en sifferuppgift som borde ingå i vars och ens allmänbildning).
5) Med de gjorda modellantagandena om bloggosfären kan vi räkna med i genomsnitt en förekomst av frasen 'Heja Elfsborg' per drygt 30 miljoner år.
6 Ändå har frasen redan dykt upp
gång på
gång på
gång på
gång i bloggosfären. Det sker rentav så ofta att det enligt min mening ger anledning att ifrågasätta Hakelius antaganden om bloggosfärens apflocksegenskap.
6) Vi ser alltså att bloggosfären som helhet jobbar på mer än 10 gånger snabbare än den tänkta flocken om en miljon apor (något som läsaren givetvis lätt kan kontrollera med en mer direkt uträkning).