Häggström hävdar: Hakelius, aporna och bloggosfären

torsdag 6 september 2012

Hakelius, aporna och bloggosfären

I ett (på nätet opublicerat) kåseri i Axess 5/2012 skriver Johan Hakelius, på tal om de stigande siffrorna i svensk befolkningsstatistik, att dessa i förstone

Men det är inte säkert. [Det är] lätt att tvivla på aptesens korrekthet: det är nästan tio år sedan bloggandet blev allmänt. I allt väsentligt har med andra ord aptesen prövats i stor skala under längre tid, utan att något som ens liknar Shakespeares prosa sett dagens ljus.

Hakelius skämtsamt raljanta tonfall är inte att ta miste på, men det finns inget som hidrar mig från att låtsas ta honom på allvar och göra några enkla matematiska uppskattningar för att utröna i vad mån han har rätt om aporna och tangentborden. Hur det än förhåller sig med den saken torde det väl ligga en hel del i hans retoriska poäng att jämföra bloggosfären med en på tangentbord slumpmässigt hackande apflock (oaktat mina egna fåfänga försök att höja mig över de slumpmässiga teckenföljdernas nivå).

Det Hakelius kallar aptesen är en klassisk illustration till sannolikhetsteorin, och den ligger mig tillräckligt varmt om hjärtat för att jag skall känna mig manad att med sakliga argument försvara den. Aptesen bygger på följande modell. Antag att en apa sitter vid tangentbordet till en dator, och en gång per sekund trycker på en på måfå vald tangent. Vi antar att det finns 50 tangenter¹, och vi bortser från shift-tangenten genom att godkänna en återgivning av Hamlet oavsett bruk av stor och liten bokstav. Varje tangentnedtryckning kommer, oberoende av de tidigare, att producera ett givet tecken bland de 50 möjliga med sannolikhet 1/50.

Om apan får hålla på obegränsat länge, kommer han då att förr eller senare ordagrant återge (den uppskattningsvis 200 000 tecken långa) originaltexten till Hamlet? Enligt aptesen är svaret "ja", vilket också mycket riktigt är det korrekta svaret.^2,3

Aptesen är ett specialfall av ett viktigt sannolikhetsteoretiskt resultat som går under namnet Borel-Cantellis andra lemma (och som jag faktiskt själv ofta haft nytta av i min matematiska forskning). Lemmat säger att om vi gör en obegränsad följd av oberoende försök, och om sannolikheterna för ett visst försöksutfall A summerar sig till ∞ då vi summerar över de olika försöken, så kommer förr eller senare något av försöken att ge utfallet A.

Betrakta först apans tangentnedtryckningar var för sig - kommer vi någonsin att få se bokstaven 'h'? Varje försök - varje tangentnedtryckning - ger i detta fall det önskade utfallet 'h' med sannolikhet 1/50, oeroende av de övriga. Eftersom 1/50+1/50+1/50+...=∞ så ger Borel-Cantellis andra lemma att apan förr eller senare kommer att producera ett 'h'.

Samma resonemang kan tillämpas på godtyckliga ändliga teckenföljder. Sannolikheten att apan omdelbart skriver 'Heja Elfsborg' är (1/50)¹³ ≈ 0.00000000000000000000008192, vilket visserligen är ett väldigt litet tal, men ändå positivt, vilket gör att (1/50)¹³⋅∞=∞, så om vi grupperar tangentnedtryckningarna i grupper om 13 så ger Borel-Cantellis andra lemma att apan förr eller senrare får ur sig ett 'Heja Elfsborg'. Och på samma sätt blir det med Hamlets originaltext.

Dessa resonemang är tämligen grovhuggna, på så vis att vi bortser från hur lång tid det kan väntas ta innan vi får se den önskade teckenföljden. Om vi bara är ute efter 'h', så kommer ett sådant i genomsnitt var 50:e sekund, dvs drygt ett i minuten. Om vi väntar på 'he' så kan vi räkna med i genomsnitt ett sådant per 50²=2500 sekunder, dvs drygt ett 'he' i timmen. När det gäller 'Heja Elfsborg' så får vi i genomsnitt ett sådant per 50¹³ ≈ 12210000000000000000000 sekunder, dvs ett per 400000000000000 år,⁴ vilket är cirka 30 000 gånger mer än den tid som förflutit sedan Big Bang. Detta är naturligtvis en fullkomligt groteskt lång tidsrymd att tänka sig att sitta och vänta, och värre blir det om vi vill se hela Hamlet: ett sådant textstycke kan vi vänta oss en gång per 50^{200 000} sekunder, vilket är långt mer än 10^{300 000} år - en fullkomligt obegripligt lång tidsrymd som får universums ålder att framstå som rent ut sagt löjligt liten.

Att ta hjälp av fler apor än en hjälper inte mycket. Om vi har en miljon apor kan vi kapa förväntade tiden till första förekomst av 'Heja Elfsborg' med en faktor en miljon, och vi landar på 400 miljoner år. Även för Hamlet ger naturligtvis en utökning till en miljon apor en uppsnabbning med en faktor en miljon, men eftersom 10^{300 000}/10⁶=10^{299 994} är det inte mycket att hurra över.

Vad innebär detta för Hakelius jämförelse med bloggosfären? Förutom att göra antagandet att vi bloggare skriver som aporna i aptesen, behöver vi uppskatta hur många tecken den samlade bloggosfären har producerat. Om vi (en smula generöst) höftar till med en miljard bloggare som i tio år producerat tusen tecken var om dagen, landar vi på en total produktion om 4⋅10¹⁵ (4 miljoner miljarder) tecken. Detta är ungefär dubbelt så mycket som 50⁹, varför vi kan räkna med att i bloggosfären hitta på sin höjd ett par-tre förekomster av 'Heja Elfs'. Om vi har lite tur kan det visa sig att någon av dem följs av 'b', så att vi får teckensekvensen 'Heja Elfsb' (sannolikheten för detta är cirka 0,04). Oddsen mot att någon av dem följs av 'borg' är däremot överväldigande.⁵ För att inte tala om hur spektakulärt otillräckligt det gångna decenniet av idogt bloggande är för att någon skall ha råkat få ur sig hela Hamlet. Någon evidens mot aptesen har Hakelius alltså inte. Han behöver bara öva på sitt tålamod.

Fotnoter

1) Uppskattningen 50 här är, liksom de ytterligare sifferantaganden som kommer i det följande, grovt höftad. Den läsare som tycker sig kunna ange exaktare siffror är välkommen att göra det och modifiera mina uträkningar. De kvalitativa slutsatserna om aptesen kommer emellertid att bli desamma.

2) Ibland kräver man (liksom Hakelius ovan) inte bara Hamlet av apan, utan hela Shakespeares samlade verk. Resonemangen och resultaten blir väsentligen desamma som för Hamlet.

3) Aptesen yttrar sig bara om vad som följer av de givna antagandena, och alltså inte om huruvida dessa antaganden är realistiska. Wikipedia rapporterar att ett försök faktiskt gjorts med en grupp riktiga apor, men med nedslående resultat:

Not only did the monkeys produce nothing but five pages consisting largely of the letter S, the lead male began by bashing the keyboard with a stone, and the monkeys continued by urinating and defecating on it.

4) För att omvandla sekunder till år delar man med 30 miljoner, vilket approximativt är antalet sekunder på ett år (en sifferuppgift som borde ingå i vars och ens allmänbildning).

5) Med de gjorda modellantagandena om bloggosfären kan vi räkna med i genomsnitt en förekomst av frasen 'Heja Elfsborg' per drygt 30 miljoner år.⁶ Ändå har frasen redan dykt upp gång på gång på gång på gång i bloggosfären. Det sker rentav så ofta att det enligt min mening ger anledning att ifrågasätta Hakelius antaganden om bloggosfärens apflocksegenskap.

6) Vi ser alltså att bloggosfären som helhet jobbar på mer än 10 gånger snabbare än den tänkta flocken om en miljon apor (något som läsaren givetvis lätt kan kontrollera med en mer direkt uträkning).

26 kommentarer:

Stefan Karlsson6 september 2012 kl. 08:16
Men "kommer nästan att" ska väl i sanningens namn vara "kommer nästan säkert att"? En apa kan ju mycket väl, utifrån de givna förutsättningarna, till exempel producera en följd av endast bokstaven 's', i all evighet, utan att ens skriva ett endaste ord ur bardens produktion.
SvaraRadera
Svar
Magnus6 september 2012 kl. 08:32
Man ska inte heller underskatta chansen att apan latent hyser lite agg mot just elfsborg och har svårt att få till bokstavsföljden...
SvaraRadera
Svar
Unknown6 september 2012 kl. 10:33
Just att frasen Heja Elfsborg tycker upp med osedvanlig frekvens antyder att det är just en apflock vi har att röra oss med, IMHO. :D
SvaraRadera
Svar
Svante Linusson6 september 2012 kl. 12:54
Fast Hakelius frågade efter något som liknar, inte är lika med. Det vore ju ointressant om det skrevs samma en gång till. Och det är knappast Hammingavståndet som avses.
SvaraRadera
Svar
Anonym6 september 2012 kl. 17:56
Jag borde inte ge mig in i diskussionen, men gör det ändå med alla de risker det kan tänkas innebära. Äkta slump lär ju (ironiskt nog) ändå bara förekomma i kvantmekaniken, som ändå ( enligt Murray Gell-Mann bok "kvarken och jaguaren") är en exakt teori. Matematiken har tydligen svårare att begeppsmässigt definiera "slump".Enl samma bok skall vi inte tro att alla händelser är lika sannolika, men även de till synes mest osannolika händelserna har ändå en viss sannolikhet. Slutsatsen måste väl bli att med tillgång till oändlig tid kommer alla händelser att inträffa. Ju fler apor dess snabbare, eller hur? En intressant fråga är förstås, finns det "oändligt med tid"?
Kjell Eriksson
SvaraRadera
Svar
Trofinios9 september 2012 kl. 14:51
Vilken relevans har egentligen filosofin numera? Intressant diskussion mellan filosofen Julian Baggini och fysikern Lawrence Krauss i Guardian.

http://www.guardian.co.uk/science/2012/sep/09/science-philosophy-debate-julian-baggini-lawrence-krauss

Vore intressant att läsa dina synpunkter Olle (Om du har tid såklart.).
SvaraRadera
Svar
Thommy M. Malmström26 september 2012 kl. 09:10
Varför använda apor? Allt finns ju redan i π. Se http://www.samuelsiren.com/pi.php
SvaraRadera
Svar
Rebecka26 september 2012 kl. 10:26
Heja Elfsborg! hälsningar Apan
SvaraRadera
Svar
Olle Häggström5 november 2012 kl. 09:59
HEJA ELFSBORG!
SvaraRadera
Svar

Lägg till kommentar

Prenumerera på: Kommentarer till inlägget (Atom)