torsdag 6 september 2012

Hakelius, aporna och bloggosfären

I ett (på nätet opublicerat) kåseri i Axess 5/2012 skriver Johan Hakelius, på tal om de stigande siffrorna i svensk befolkningsstatistik, att dessa i förstone
    ...kan framstå som goda nyheter för oss som nått den erfarenhetsmättnad som gör att allt färre bekantskaper verkar värda namnet. Enligt samma princip som ger vid handen att en apa kommer att producera Shakespeares samlade verk, om bara tillräckligt många apor tillåts knacka på tangentborden till tillräckligt många datamaskiner tillräckligt länge, borde ett större utbud svenskar öka chanserna för att en eller två av dem är uthärdliga att umgås med.

    Men det är inte säkert. [Det är] lätt att tvivla på aptesens korrekthet: det är nästan tio år sedan bloggandet blev allmänt. I allt väsentligt har med andra ord aptesen prövats i stor skala under längre tid, utan att något som ens liknar Shakespeares prosa sett dagens ljus.

Hakelius skämtsamt raljanta tonfall är inte att ta miste på, men det finns inget som hidrar mig från att låtsas ta honom på allvar och göra några enkla matematiska uppskattningar för att utröna i vad mån han har rätt om aporna och tangentborden. Hur det än förhåller sig med den saken torde det väl ligga en hel del i hans retoriska poäng att jämföra bloggosfären med en på tangentbord slumpmässigt hackande apflock (oaktat mina egna fåfänga försök att höja mig över de slumpmässiga teckenföljdernas nivå).

Det Hakelius kallar aptesen är en klassisk illustration till sannolikhetsteorin, och den ligger mig tillräckligt varmt om hjärtat för att jag skall känna mig manad att med sakliga argument försvara den. Aptesen bygger på följande modell. Antag att en apa sitter vid tangentbordet till en dator, och en gång per sekund trycker på en på måfå vald tangent. Vi antar att det finns 50 tangenter1, och vi bortser från shift-tangenten genom att godkänna en återgivning av Hamlet oavsett bruk av stor och liten bokstav. Varje tangentnedtryckning kommer, oberoende av de tidigare, att producera ett givet tecken bland de 50 möjliga med sannolikhet 1/50.

Om apan får hålla på obegränsat länge, kommer han då att förr eller senare ordagrant återge (den uppskattningsvis 200 000 tecken långa) originaltexten till Hamlet? Enligt aptesen är svaret "ja", vilket också mycket riktigt är det korrekta svaret.2,3

Aptesen är ett specialfall av ett viktigt sannolikhetsteoretiskt resultat som går under namnet Borel-Cantellis andra lemma (och som jag faktiskt själv ofta haft nytta av i min matematiska forskning). Lemmat säger att om vi gör en obegränsad följd av oberoende försök, och om sannolikheterna för ett visst försöksutfall A summerar sig till ∞ då vi summerar över de olika försöken, så kommer förr eller senare något av försöken att ge utfallet A.

Betrakta först apans tangentnedtryckningar var för sig - kommer vi någonsin att få se bokstaven 'h'? Varje försök - varje tangentnedtryckning - ger i detta fall det önskade utfallet 'h' med sannolikhet 1/50, oeroende av de övriga. Eftersom 1/50+1/50+1/50+...=∞ så ger Borel-Cantellis andra lemma att apan förr eller senare kommer att producera ett 'h'.

Samma resonemang kan tillämpas på godtyckliga ändliga teckenföljder. Sannolikheten att apan omdelbart skriver 'Heja Elfsborg' är (1/50)13 ≈ 0.00000000000000000000008192, vilket visserligen är ett väldigt litet tal, men ändå positivt, vilket gör att (1/50)13⋅∞=∞, så om vi grupperar tangentnedtryckningarna i grupper om 13 så ger Borel-Cantellis andra lemma att apan förr eller senrare får ur sig ett 'Heja Elfsborg'. Och på samma sätt blir det med Hamlets originaltext.

Dessa resonemang är tämligen grovhuggna, på så vis att vi bortser från hur lång tid det kan väntas ta innan vi får se den önskade teckenföljden. Om vi bara är ute efter 'h', så kommer ett sådant i genomsnitt var 50:e sekund, dvs drygt ett i minuten. Om vi väntar på 'he' så kan vi räkna med i genomsnitt ett sådant per 502=2500 sekunder, dvs drygt ett 'he' i timmen. När det gäller 'Heja Elfsborg' så får vi i genomsnitt ett sådant per 5013 ≈ 12210000000000000000000 sekunder, dvs ett per 400000000000000 år,4 vilket är cirka 30 000 gånger mer än den tid som förflutit sedan Big Bang. Detta är naturligtvis en fullkomligt groteskt lång tidsrymd att tänka sig att sitta och vänta, och värre blir det om vi vill se hela Hamlet: ett sådant textstycke kan vi vänta oss en gång per 50200 000 sekunder, vilket är långt mer än 10300 000 år - en fullkomligt obegripligt lång tidsrymd som får universums ålder att framstå som rent ut sagt löjligt liten.

Att ta hjälp av fler apor än en hjälper inte mycket. Om vi har en miljon apor kan vi kapa förväntade tiden till första förekomst av 'Heja Elfsborg' med en faktor en miljon, och vi landar på 400 miljoner år. Även för Hamlet ger naturligtvis en utökning till en miljon apor en uppsnabbning med en faktor en miljon, men eftersom 10300 000/106=10299 994 är det inte mycket att hurra över.

Vad innebär detta för Hakelius jämförelse med bloggosfären? Förutom att göra antagandet att vi bloggare skriver som aporna i aptesen, behöver vi uppskatta hur många tecken den samlade bloggosfären har producerat. Om vi (en smula generöst) höftar till med en miljard bloggare som i tio år producerat tusen tecken var om dagen, landar vi på en total produktion om 4⋅1015 (4 miljoner miljarder) tecken. Detta är ungefär dubbelt så mycket som 509, varför vi kan räkna med att i bloggosfären hitta på sin höjd ett par-tre förekomster av 'Heja Elfs'. Om vi har lite tur kan det visa sig att någon av dem följs av 'b', så att vi får teckensekvensen 'Heja Elfsb' (sannolikheten för detta är cirka 0,04). Oddsen mot att någon av dem följs av 'borg' är däremot överväldigande.5 För att inte tala om hur spektakulärt otillräckligt det gångna decenniet av idogt bloggande är för att någon skall ha råkat få ur sig hela Hamlet. Någon evidens mot aptesen har Hakelius alltså inte. Han behöver bara öva på sitt tålamod.

Fotnoter

1) Uppskattningen 50 här är, liksom de ytterligare sifferantaganden som kommer i det följande, grovt höftad. Den läsare som tycker sig kunna ange exaktare siffror är välkommen att göra det och modifiera mina uträkningar. De kvalitativa slutsatserna om aptesen kommer emellertid att bli desamma.

2) Ibland kräver man (liksom Hakelius ovan) inte bara Hamlet av apan, utan hela Shakespeares samlade verk. Resonemangen och resultaten blir väsentligen desamma som för Hamlet.

3) Aptesen yttrar sig bara om vad som följer av de givna antagandena, och alltså inte om huruvida dessa antaganden är realistiska. Wikipedia rapporterar att ett försök faktiskt gjorts med en grupp riktiga apor, men med nedslående resultat:
    Not only did the monkeys produce nothing but five pages consisting largely of the letter S, the lead male began by bashing the keyboard with a stone, and the monkeys continued by urinating and defecating on it.

4) För att omvandla sekunder till år delar man med 30 miljoner, vilket approximativt är antalet sekunder på ett år (en sifferuppgift som borde ingå i vars och ens allmänbildning).

5) Med de gjorda modellantagandena om bloggosfären kan vi räkna med i genomsnitt en förekomst av frasen 'Heja Elfsborg' per drygt 30 miljoner år.6 Ändå har frasen redan dykt upp gånggånggånggång i bloggosfären. Det sker rentav så ofta att det enligt min mening ger anledning att ifrågasätta Hakelius antaganden om bloggosfärens apflocksegenskap.

6) Vi ser alltså att bloggosfären som helhet jobbar på mer än 10 gånger snabbare än den tänkta flocken om en miljon apor (något som läsaren givetvis lätt kan kontrollera med en mer direkt uträkning).

26 kommentarer:

  1. Men "kommer nästan att" ska väl i sanningens namn vara "kommer nästan säkert att"? En apa kan ju mycket väl, utifrån de givna förutsättningarna, till exempel producera en följd av endast bokstaven 's', i all evighet, utan att ens skriva ett endaste ord ur bardens produktion.

    SvaraRadera
    Svar
    1. Helt riktigt. Detta matematiska finlir hade jag tänkt bespara läsekretsen, men naturligtvis borde jag ha förutsett att någon matematikerkollega skulle komma och sabba det upplägget... :-)

      Radera
    2. (Rättelse till mitt inlägg: I 'Men "kommer nästan att" ska väl ...' skulle det inte stå 'nästan').

      Jaså minsann, en ren och skär lögn är ett matematiskt finlir som läsekretsen bör besparas? ;)
      Men är det ett matematiskt finlir?
      Är det inte en viktig distinktion där, mellan absolut säkert och nästan säkert, om man ska hävda "aptesens korrekthet"?
      Att det är ytterst osannolikt (dvs med sannolikhet noll) att apan inte skulle skriva Shakespeares samlade verk utesluter inte att den faktiskt inte gör det.

      Radera
    3. Äh, som sannolikhetsteoretiker kan jag ta mig rätten att exkludera en nollmängd från utfallsrummet...

      Radera
  2. Man ska inte heller underskatta chansen att apan latent hyser lite agg mot just elfsborg och har svårt att få till bokstavsföljden...

    SvaraRadera
  3. Just att frasen Heja Elfsborg tycker upp med osedvanlig frekvens antyder att det är just en apflock vi har att röra oss med, IMHO. :D

    SvaraRadera
  4. Fast Hakelius frågade efter något som liknar, inte är lika med. Det vore ju ointressant om det skrevs samma en gång till. Och det är knappast Hammingavståndet som avses.

    SvaraRadera
    Svar
    1. Helt enig, Svante! Och uppgiften att modellera lämpligt likhetsbegrepp matematiskt lämnar med förtroende åt dig...

      Radera
  5. Jag borde inte ge mig in i diskussionen, men gör det ändå med alla de risker det kan tänkas innebära. Äkta slump lär ju (ironiskt nog) ändå bara förekomma i kvantmekaniken, som ändå ( enligt Murray Gell-Mann bok "kvarken och jaguaren") är en exakt teori. Matematiken har tydligen svårare att begeppsmässigt definiera "slump".Enl samma bok skall vi inte tro att alla händelser är lika sannolika, men även de till synes mest osannolika händelserna har ändå en viss sannolikhet. Slutsatsen måste väl bli att med tillgång till oändlig tid kommer alla händelser att inträffa. Ju fler apor dess snabbare, eller hur? En intressant fråga är förstås, finns det "oändligt med tid"?
    Kjell Eriksson

    SvaraRadera
    Svar
    1. Nej nej, Kjell, så länge vi håller oss inom matematiken så vet vi exakt vad som menas med slump och sannolikheter. Det är först när vi ger oss ut i den fysiska verkligheten som dessa begrepp skapar filosofiska bekymmer.

      Radera
    2. Olle. Tack för svar. Jag lyckades hyfsat väl med mina tentamen i matematik i Uppsala. I sannolikhetsteori hade jag t.ex. betyg 4. En sak som våra matematiklärare emellertid aldrig talade om för oss var att matematiken inte har något med verkligheten att göra. Jag räknade alltså hyfsat väl utan att inse denna enkla sanning. Det var först genom siten "fråga Lund om matematik" som denna (till synes) enkla insikt kom till min kännedom.

      Jag har mao full acceptans för ditt svar. Men exemplet med aporna handlar ändå om den fysiska verkligheten. Kan vi där verkligen tala om äkta slump eller slump ("äkta slump" och"slump" borde, enligt min åsikt vara samma sak, då vi knappast kan prata om "oäkta slump") ?
      Kjell Eriksson

      Radera
    3. Att "matematiken inte har något med verkligheten att göra" tycker jag är en lite väl tillspetsad syn på saken. Det är förvisso viktigt att inse att fysisk verklighet och matematisk modell är två olika saker, men jag skulle nog ändå våga hävda att verkligheten och matematiken har mycket med varandra att göra. T.ex. så inspirerar verkligheten våra matematiska modeller, och de matematiska modellerna hjälper oss att förstå och prediktera verkligheten.

      När det gäller just apflocksberäkningarna skulle jag nog hävda att de handlar relativt lite om den fysiska verkligheten (se Fotnot 3 ovan) och desto mer om en extremt idealiserad matematisk modell.

      I frågan om huruvida äkta slump finns i den fysiska verkligheten brukar jag inta en agnostisk position.

      Radera
    4. Olle. Jag tror att vi faktiskt har samsyn i frågan efter ditt svar ovan. Jag anser t.ex. också att det finns ett samband matematik och "fysisk verklighet". Däremot vill jag nog gärna tro på kvantmekaniken, och existensen av "äkta slump" i mikrofysiken....
      Kjell Eriksson

      Radera
  6. Vilken relevans har egentligen filosofin numera? Intressant diskussion mellan filosofen Julian Baggini och fysikern Lawrence Krauss i Guardian.

    http://www.guardian.co.uk/science/2012/sep/09/science-philosophy-debate-julian-baggini-lawrence-krauss

    Vore intressant att läsa dina synpunkter Olle (Om du har tid såklart.).

    SvaraRadera
    Svar
    1. Lawrence Krauss diverse utfall mot filosofiämnet har jag kritiserat tidigare här på bloggen. Den här gången uppträder han något mer höviskt än tidigare, men jag finner fortfarande hans ämnesimperislistiska tendenser måttligt välbetänkta. Exempelvis finner jag hans vision om att "our understanding of neurobiology and evolutionary biology and psychology will reduce our understanding of morality to some well-defined biological constructs" (i dess implicita avvisande av Humes lag) filosofiskt naiv, liksom hur han ramlar klockrent i det naturalistiska felslutet då han lite längre fram diskuterar homosexualitet.

      PS
      Din fråga, Trofinios, har lite eller inget alls med ovanstående bloggpost att göra. Jag valde att besvara den ändå, då jag fann den intressant, men jag vill helst att kommentarer postas i relevanta trådar (eller i universaltråden "Fråga Olle!").

      Radera
  7. Varför använda apor? Allt finns ju redan i π. Se http://www.samuelsiren.com/pi.php

    SvaraRadera
    Svar
    1. Samuel Sirén verkar förutsätta att π har den matematiska egenskapen "normal". Såvitt jag känner till är det alltjämt en öppen fråga. Och även om han har rätt i att π är normalt, så använder han sannolikhetsbegreppet en smula vårdslöst, som t.ex. då han anger sannolikheten att teckensträngen "Han stal min spatserkäpp med flit" finns inom en given del av π:s decimalutveckling till cirka 63%. Den sannolikheten är i själva verket 0 eller 1, ty π är inte ett slumptal utan deterministiskt.

      Radera
    2. det var intressant! även om man inte känner vad pi är, faktum att pi /finns/ räcker?

      menar du att om jag ställer följande fråga:
      i lådan framför dig finns 3 bollar. de är valda från en korg som innehåller röda och blå bollar. vad är sannolikhet att de är 2 röda och en blå?

      så är rätt svar: 0 eller 1?

      (bara för att vara (över)tydlig: jag ställer en riktig fråga här, dvs jag varken vet eller tror mig veta svaret)
      ((jag är inte svensk, så språket är krångligt, hoppas du förstår vad jag frågar))

      Radera
    3. Det första jag vill framhålla i detta sammanhang, Lorenzo, är att då sannolikhetsteorin och matematiken uttalar sig om sannolikheter, så bygger dessa sannolikheter på matematiska modeller och inte (direkt) på verkligheten. Svaret på din fråga om bollarna kan därför bli vad som helst (0, 1 eller vad som helst däremellan) beroende på exakt hur du preciserar din modell.

      Så varför kan vi då inte säga samma sak om π, och precisera en sannolikhetsmodell för π sådan att Samuel Siréns resonemang stämmer? Well, om vi gör en sådan modell så kommer denna att motsäga definitionen av π som kvoten mellan cirkelns omkrets och diameter, och nästan säkert ge upphov till ett tal som är lite större eller lite mindre än denna kvot. Men då är det inte längre π vi talar om, utan ett annat tal.

      Radera
    4. jag tror jag förstår vad du menar, men är inte säker jag hänger med.
      låt mig ställa en följdfråga:

      min tanke var: talet pi är bestämt eftersom vi har en deterministisk definition.
      om jag slumpar fram en sträng med n-tal (eller om jag tar strängen som motsvarar siréns mening) vad är sannolikhet att denna sträng finns i de första 10^10 siffror i pi:s decimalutveckling?
      då förstår jag dig när du säger: antingen 0 eller 1 eftersom de första 10^10 siffror är bestämda (av kvoten omkrets/diameter) så är det bara att kolla.
      MEN jag kan ställa en annan fråga:
      om du inte råkar ha ett papper framför dig med de första 10^10 siffror av pi, skulle du ändå kunna uppskatta sannolikheten att syréns sträng finns just där?

      är denna fråga fel ställd? (i meningen att /sannolikhet/ bör inte användas här).

      Radera
    5. Mycket bra fråga, Lorenzo, och inte utan visst djup. Sanning att säga så är jag lite osäker på hur jag borde svara.

      Mitt strängaste matematikerjag besvarar din fråga om vad jag i praktiken kan göra utan papper med "nej". Allt jag vet om den efterfrågande sannolikheten är att den är 0 ellet 1; mer än så kan jag inte säga med mindre än att genomföra den astronomiska beräkningen av de 10^10 decimalerna.

      Å andra sidan. Om jag befann mig i en vadslagningssituation eller liknande där jag verkligen var tvungen att leverera min subjektiva sannolikhet för att återfinna den efterfrågade teckensträngen bland de 10^10 decimalerna, då skulle jag kanske ändå göra något i stil med Samuel Siréns kalkyl och leverera svaret 63% (eller vad det nu råkar bli), men samtidigt meddela att jag tvår mina händer, medveten om att jag begår en matematisk oegentlighet.

      Men vad är det då som är så himla allvarligt med att påstå något om π som strängt taget inte är sant? Tillämpade matematiker sätter ju ständigt upp modeller för fysikaliska och andra fenomen - modeller som de vet är felaktiga om man skärskådar dem tillräckligt noga? Så varför inte tillåta oss det om π? Här vill jag peka på vikten av intern konsistens. En matematisk modell för, låt oss säga, planetrörelser, för spridning av influensa, eller för bilisters reaktionshastighet, må visa sig inte stämma perfekt med verkligheten, men likväl vara internt konsistenta. En matematisk modell för π av det slag som är implicit i Siréns kalkyl måste inbegripa tillgång till elementär aritmetik (de fyra ränkesätten) för att överhuvudtaget ge något, men med tillgång till sådan går det att beräkna π:s verkliga decimalutveckling, vilket gör modellen internt inkonsistent och därmed matematiskt meningslös.

      Ungefär så. Men som sagt, lite osäker känner jag mig. Det hela verkar koka den till djupa frågor om fysikalisk verklighet kontra den Platonska matematiska dito, och hur vi bör förhålla oss till dessa. Inte lätt att reda ut...

      Radera
    6. tack så mycket för alla svaren! jag tror att jag förstår det du säger (och vad du vill gardera dig ifrån) nu.

      låt mig även säga att det finns ett stycke som jag tyckte var extra bra skrivet: "...sannolikhetsteorin och matematiken uttalar sig om sannolikheter, så bygger dessa sannolikheter på matematiska modeller och inte (direkt) på verkligheten. Svaret på din fråga om bollarna kan därför bli vad som helst (0, 1 eller vad som helst däremellan) beroende på exakt hur du preciserar din modell."

      jag har alltid irriterat mig på exemplen av typen:
      "en mynt kastas 50 000 ggr och visar krona samtliga gånger, vad är sannolikheten att man får krona en gång till vid en extra kast?"
      och då "ska" man svara 1/2, för att visa att man har förstått att sannolikheten för de 50 000 tidigare kasten är nu just 1.
      alla människor med en normal förmåga att tänka logiskt skulle dock satsa alla sina pengar på krona, så klart. (några är däremot så fasta i "rätt sätt" att tänka att de tycker att det ska bli klave nu!).

      jag tycker att du på ett väldigt koncist och tydligt sätt formulerade hur man ska analysera situationen, så att man inte blir förvirrad av orealistiska exempel.

      Radera
  8. Heja Elfsborg! hälsningar Apan

    SvaraRadera