måndag 12 februari 2018

Meningsutbyte med Bo Rothstein om matematisk modellering

Bo Rothstein är med varje rimligt mått mätt en av Sveriges mest framstående statsvetare, och på tidningarnas debattsidor utgör han en frisk fläkt. Ibland går han dock en smula överstyr i sin argumentation, som i gårdagens artikel på DN Debatt, rubricerad Felaktig tolkning av metoo riskerar att skada tilliten. Det finns mycket att diskutera och kritisera i den artikeln, men här skall jag uppehålla mig vid en enda detalj, nämligen följande passage:
    [På] min egen arbetsplats, Göteborgs universitet, [utförs] ett antal undersökningar [...] där de tillfrågade fått svara på frågan om de under det senaste året utsatts för sexuella trakasserier. Resultatet är att cirka 2 procent av kvinnorna uppger att de blivit utsatta (och ungefär 1 procent av männen).

    Det är statistiskt inte helt enkelt att översätta dessa två procent per år till längre tidsperioder, men om man utgår från en anställningstid om 20 år är en någotsånär rimlig uppskattning att femton procent av de anställda kvinnorna blivit utsatta för vad de själva uppfattar vara sexuella trakasserier någon gång under en tjugoårsperiod.

Dessa 15% synes mig gripna ur luften, något som föranledde mig att igår skriva en Facebookuppdatering med följande innehåll.
    En sak jag inte begriper med den här artikeln är detta: om man är kritisk mot metoo och tycker att ett huvudproblem är att det är tyst kring vetenskapliga resultat om hur vanligt förekommande sexuella trakasserier är, på vad sätt skulle det då förbättra situationen att en ledande statsvetarprofessor killgissar1 på DN Debatt att 15% av kvinnliga anställda vid Göteborgs universitet blivit utsatta för sexuella trakasserier under sistlidna 20-årsperiod?
Jag skrev dock detta med en lite obehaglig magkänsla av att jag själv faktiskt kunde tänkas ha bidragit (om än helt oavsiktligt) till den av Rothstein anförda procentsiffran. Den 27 november förra året tog jag nämligen del av en Facebookuppdatering från samme Rothstein, där han frågade huruvida en årlig trakasserisannolikhet om 1,6% (en sifferuppgift som härrör från samma undersökning vid Göteborgs universitet men som avser en poolning av grupperna män och kvinnor) kunde översättas till en 32%-ig sannolikhet att bli trakasserad någon gång under en 20-årsperiod. Jag svarade nej, och Rothstein bad mig utveckla, varvid jag utvecklade:
    Det första du skall tänka på är huruvida du har tillräcklig information för att besvara din fråga. Det har du inte här, för sannolikheten att trakasseras inom loppet av en tjugoårsperiod beror inte bara på den årliga sannolikheten, utan också på beroendestrukturen mellan att trakasseras ett år och ett annat år. Givet att den årliga siffran är rätt kan, beroende på denna beroendestruktur, tjugoårssannolikheten landa var som helst mellan 1,6% och 32%. För att få fram en exaktare siffra krävs modellantaganden. Tre exempel:

    (1) Om trakasseri ett år immuniserar en person mot trakasseri alla kommande år (ett fullständigt orimligt antagande), så att det varje år uteslutande är nya personer som syns i statistiken, så fungerar din kalkyl, och svaret blir 32%.

    (2) Om det ständigt är exakt samma personer som trakasseras (ett lika orimligt antagande) så att inga nya kommer in i statisktiken under ett nytt år, så blir svaret 1,6%.

    (3) Om statistiskt oberoende gäller mellan att en person blir trakasserad ett år och nästa (ett måhända aningen mindre orimligt antagande, men fortfarande orimligt), dvs noll korrelation, så fungerar den Lindbomska kalkylen1 nedan, och svaret blir 27,6%.

    Många alternativa modellantaganden är möjliga. Så vad är sanningen? I slutändan är det en empirisk fråga. Intill dess vi kan besvara den gissar jag (tentativt) att positiv men inte fullständig korrelation föreligger mellan trakasseri mot en och samma person ett år och ett annat, så att det rätta svaret i så fall hamnar någonstans mellan (2) och (3).

Min obehagliga magkänsla besannades för någon timme sedan, då Rothstein kommenterade på Facebook med följande ord.
    Modellantaganden har jag fått från Olle Häggström själv [se ovan] när jag får några månader sedan frågade honom hur man skulle resonera om detta. Som ni kan se [...] är hans egen "gissning" att man hamnar någonstans mellan 1,6% och 27,6. Och då blir det väl som jag skrev, runt 15%.

    [...]

    Kan tillägga att jag inte är förtjust i att bli förolämpad ("killgissning"). Jag är inte statistiker men har gjort så gott jag kunnat i detta genom att tillfråga en av landets främsta matematiska statistiker. Har jag gjort fel så vi jag naturligtvis rätta till det men tonen i många av dessa kommentarer ger mig avsmak

Mitt svar till honom:
    Det här var inte helt bra, Bo. Om du faktiskt på allvar tolkar något av det jag skrev på din FB den 27 november som stöd för din siffra 15% så ber jag härmed att å det bestämdaste få dementera detta.

    Att "tillfråga en av landets främsta matematiska statistiker" är naturligtvis en god idé i sådana här sammanhang, men det hade varit en ännu bättre idé om du hade fullföljt den strategin lite ihärdigare innan du vände dig till DN Debatt. Du hade exempelvis kunnat fråga mig (a) huruvida medelvärdet mellan två ytterlighetspunkter automatiskt ger en rimlig uppskattning, och (b) huruvida kvantifieringarna "någonstans mellan 1,6% och 27,6%" och "runt 15%" är att betrakta som synonyma. Mitt svar hade blivit ett kraftfullt nej på båda frågorna.

Rothstein valde då att insistera på att det jag skrivit utgjorde stöd för hans 15%:
    Olle, tråkigt att du inte vågar stå för vad du faktiskt skrev, eller åtminstone erkänna att du uttryckt dig på ett sätt som gjort min tolkning helt av vad du skrev rimlig. Igen, du avslutar med följande
      Så vad är sanningen? I slutändan är det en empirisk fråga. Intill dess vi kan besvara den gissar jag (tentativt) att positiv men inte fullständig korrelation föreligger mellan trakasseri mot en och samma person ett år och ett annat, så att det rätta svaret i så fall hamnar någonstans mellan (2) och (3).
    Modell 2 var 1,6 procent, modell var 27, 6 procent. "Mellan" måste enligt svenskt språkbruk ses som en mittpunkt, och då hamnar man något under 15%.
Mitt korta svar på det:
    Jag står för det jag skrev, Bo. Och är ärligt talat lite chockad över hur du valt att vantolka detta.

Där tog dessvärre diskussionen slut, i och med att Rothstein, tydligen en smula förnärmad, valde att trycka på Facebooks avfriendningsknapp.

Fotnoter

1) I (den ganska omfattande) kommentarstråden fick jag viss berättigad kritik för ordvalet "killgissar" (inte bara från Rothstein). Ordet anbefalles visserligen av statliga Institutet för språk och folkminnen som ett av 2017 års nyord, men är likväl inte särskilt lyckat.

2) Nämligen uträkningen 1 - (1-0,016)20 = 0,276.