Häggström hävdar: Meningsutbyte med Bo Rothstein om matematisk modellering

måndag 12 februari 2018

Meningsutbyte med Bo Rothstein om matematisk modellering

Bo Rothstein är med varje rimligt mått mätt en av Sveriges mest framstående statsvetare, och på tidningarnas debattsidor utgör han en frisk fläkt. Ibland går han dock en smula överstyr i sin argumentation, som i gårdagens artikel på DN Debatt, rubricerad Felaktig tolkning av metoo riskerar att skada tilliten. Det finns mycket att diskutera och kritisera i den artikeln, men här skall jag uppehålla mig vid en enda detalj, nämligen följande passage:

Det är statistiskt inte helt enkelt att översätta dessa två procent per år till längre tidsperioder, men om man utgår från en anställningstid om 20 år är en någotsånär rimlig uppskattning att femton procent av de anställda kvinnorna blivit utsatta för vad de själva uppfattar vara sexuella trakasserier någon gång under en tjugoårsperiod.

Dessa 15% synes mig gripna ur luften, något som föranledde mig att igår skriva en Facebookuppdatering med följande innehåll.

den här artikeln

Jag skrev dock detta med en lite obehaglig magkänsla av att jag själv faktiskt kunde tänkas ha bidragit (om än helt oavsiktligt) till den av Rothstein anförda procentsiffran. Den 27 november förra året tog jag nämligen del av en Facebookuppdatering från samme Rothstein, där han frågade huruvida en årlig trakasserisannolikhet om 1,6% (en sifferuppgift som härrör från samma undersökning vid Göteborgs universitet men som avser en poolning av grupperna män och kvinnor) kunde översättas till en 32%-ig sannolikhet att bli trakasserad någon gång under en 20-årsperiod. Jag svarade nej, och Rothstein bad mig utveckla, varvid jag utvecklade:

(1) Om trakasseri ett år immuniserar en person mot trakasseri alla kommande år (ett fullständigt orimligt antagande), så att det varje år uteslutande är nya personer som syns i statistiken, så fungerar din kalkyl, och svaret blir 32%.

(2) Om det ständigt är exakt samma personer som trakasseras (ett lika orimligt antagande) så att inga nya kommer in i statisktiken under ett nytt år, så blir svaret 1,6%.

(3) Om statistiskt oberoende gäller mellan att en person blir trakasserad ett år och nästa (ett måhända aningen mindre orimligt antagande, men fortfarande orimligt), dvs noll korrelation, så fungerar den Lindbomska kalkylen¹ nedan, och svaret blir 27,6%.

Många alternativa modellantaganden är möjliga. Så vad är sanningen? I slutändan är det en empirisk fråga. Intill dess vi kan besvara den gissar jag (tentativt) att positiv men inte fullständig korrelation föreligger mellan trakasseri mot en och samma person ett år och ett annat, så att det rätta svaret i så fall hamnar någonstans mellan (2) och (3).

Min obehagliga magkänsla besannades för någon timme sedan, då Rothstein kommenterade på Facebook med följande ord.

[...]

Kan tillägga att jag inte är förtjust i att bli förolämpad ("killgissning"). Jag är inte statistiker men har gjort så gott jag kunnat i detta genom att tillfråga en av landets främsta matematiska statistiker. Har jag gjort fel så vi jag naturligtvis rätta till det men tonen i många av dessa kommentarer ger mig avsmak

Mitt svar till honom:

Att "tillfråga en av landets främsta matematiska statistiker" är naturligtvis en god idé i sådana här sammanhang, men det hade varit en ännu bättre idé om du hade fullföljt den strategin lite ihärdigare innan du vände dig till DN Debatt. Du hade exempelvis kunnat fråga mig (a) huruvida medelvärdet mellan två ytterlighetspunkter automatiskt ger en rimlig uppskattning, och (b) huruvida kvantifieringarna "någonstans mellan 1,6% och 27,6%" och "runt 15%" är att betrakta som synonyma. Mitt svar hade blivit ett kraftfullt nej på båda frågorna.

Rothstein valde då att insistera på att det jag skrivit utgjorde stöd för hans 15%:

Så vad är sanningen? I slutändan är det en empirisk fråga. Intill dess vi kan besvara den gissar jag (tentativt) att positiv men inte fullständig korrelation föreligger mellan trakasseri mot en och samma person ett år och ett annat, så att det rätta svaret i så fall hamnar någonstans mellan (2) och (3).

Mitt korta svar på det:

Jag står för det jag skrev, Bo. Och är ärligt talat lite chockad över hur du valt att vantolka detta.

Där tog dessvärre diskussionen slut, i och med att Rothstein, tydligen en smula förnärmad, valde att trycka på Facebooks avfriendningsknapp.

Fotnoter

1) I (den ganska omfattande) kommentarstråden fick jag viss berättigad kritik för ordvalet "killgissar" (inte bara från Rothstein). Ordet anbefalles visserligen av statliga Institutet för språk och folkminnen som ett av 2017 års nyord, men är likväl inte särskilt lyckat.

2) Nämligen uträkningen 1 - (1-0,016)²⁰ = 0,276.

40 kommentarer:

Dirk Nowitzki12 februari 2018 kl. 20:02
Du kunde ha varit mycket mindre dryg.
SvaraRadera
Svar
Unknown12 februari 2018 kl. 21:55
Jag läste Bo Rothsteins artikel i DN. Jag erkänner att jag, utan att reflektera, tog hans procentangivelse ad notam. Eftertanken kom först sedan jag nu läst Olles blogginlägg.
SvaraRadera
Svar
ctail13 februari 2018 kl. 04:30
Jag tycker inte Olle var dryg här, snarare mycket återhållsam. En fullt berättigad reaktion på Rothsteins statistiska resonemang vore t.ex. 😨😨😨😂😂😂😱😱😱🤡.
SvaraRadera
Svar
T13 februari 2018 kl. 11:29
Det här är ju väldigt spännande tycker jag. Med beräkningarna alltså. Som jag förstått dina exempel i texten utgår de från någon slags idé om att orsaken till trakasserier och gruppen "förövare" och "offer" är någorlunda konstanta. Men så är det ju inte i verkligheten.

Om man tänker såhär då; att det för varje låt säga femårsperiod så har omsättningen av personal/studenter förändrats på det sättet att hälften är "gamla" och hälften "nya" i organisationen. Vilket iaf på student- och doktorandsidan inte är helt orimligt...
Och att det dessutom inom varje låt säga tvåårsperiod har skett sådana förändringar att anledningen (i brist på bättre ord) till trakasserier "utvidgats" så att det inte är samma typ av "kriterier" längre för att bli trakasserad. T ex att målgruppen utökats från glappkäftiga tjejer till blyga tjejer eller från den stora gruppen "biologiska tjejer" till att innefatta "biologiska tjejer och alla som deifnierar sig som tjejer"... hur påverkar de förändringarna de matematiska beräkningarna? Jag är allvarlig, även om tonen kan uppfattas som något ironisk.
SvaraRadera
Svar
Magnus13 februari 2018 kl. 14:25
Dryg eller inte, alla debatter mår bättre om skippar ord som väcker agg och irritation. Tyvärr tycks allt internetdebatt dra mer och mer åt det jobbiga hållet.
SvaraRadera
Svar
Anonym13 februari 2018 kl. 17:45
Intressant diskussion, men spelar den statistiska diskussionen egentligen så stor roll? Om populationsstorleken är N, och 0.016 N trakasseras varje år, så kommer 0.32 N trakasserier att inträffa under 20 år (minst). Vad ni diskuterar är om det är samma individer eller olika som blir offer. Är det viktigt i sammanhanget?
SvaraRadera
Svar
Anonym13 februari 2018 kl. 18:51
Bos förståelse av begreppet ”någonstans mellan” är ju något alldeles hårresande åt skogen
SvaraRadera
Svar
Anne13 februari 2018 kl. 19:24
Förstår inte kritiken mot ordvalet "killgissar". Dett var ju snarast ett skolboksexempel på företeelsen.
SvaraRadera
Svar
Anonym13 februari 2018 kl. 19:59
Jo ordet killgissning hör nog hemma på samma verbala soptipp som kärringsnack, lilla gumman (riktad mot någon som inte är en liten gumma typ min katt eller en fyraårig flicka

Med detta sagt kanske mer pedagogik varit att föredra. Jag erkänner mig gärna vara i samma fårskalleklass som Bo Rothstein. Vi har alltså två ytterlighetsvärden som bägge bygger på orimliga premisser. Men orimligheten inträdes väl inte när man hamnar på prick 1,6 procent.om det faktiska värde är 2 procent så är väl den orimliga premissen om inte sann så i vilket fall mycket nära sanningen. Och det låter ju osanolikt.

Detta borde väl då ge oss en fallande grad av osannolikhet när vi går från värdet 1,6 procent. Detsamma borde gälla från värdet 27,5 procent.

Så varför blir det fel om man säger att det korrekta värdet förmodligen hamnar i intervallet 9-20 procent.
SvaraRadera
Svar
Anonym14 februari 2018 kl. 15:00
Jag är faktiskt ärligt nyfiken över varför resonemanget ovan är fel.Kan någon förklara.
SvaraRadera
Svar
Unknown21 februari 2018 kl. 00:18
Tänk om Max Borns tolkning av vågfunktionen i kvantfysik hade gjorts på samma sätt...

"Partikeln befinner sig vid x = 0 med sannolikheten (P(-Inf)+P(Inf))/2 = 0, för det är ju typ 'mellan'."

SvaraRadera
Svar
Anonym21 februari 2018 kl. 21:22
Jag tycker ändå han försökt. Det är inte så lätt. Detta är kanske inte ett sånt fall, men ibland måste man ju sätta siffror på saker med stor. Jag tycker du va lite väl hård.
SvaraRadera
Svar
Per Boussard23 februari 2018 kl. 21:41
Hej Olle,

Jag är lite osäker på om jag ens förstår åt vilket håll Bo's argument lutar i artikeln som är upprinnelsen till den här tråden, men ämnet statistik som misstolkat verktyg och vapen fascinerar mig djupt. Jag tror att kärnan i det Bo säger är att det är viktigt att få en "...korrekt bild av omfattningen...".

Är det inte komiskt att det blossar upp en strid (inte minst i kommentarerna till ditt inlägg) om hur man ska komma fram till att någon siffra är den rätta? som om det skulle lösa något om jag med säkerhet kan säga att rätt svar är 12.3%. Vad skulle det svaret betyda?

Även om man leker med tanken på att man kan säga att det går att veta vad "rätt" siffra är så lämnar det problemet med tolkningen helt olöst. Betyder 12.3% att en kvinna kan vänta sig att bli utsatt med en sannolikhet av en på 8.13? Bli utsatt för vad? Sexuella trakasserier varje dag, eller någon gång på en 20-års period? Skillnaden är inte liten. Av en eller många förövare?

Dessutom är det kanske ännu mer skrattretande att man ställer frågan om man (upplever att man) utsatts för trakasserier, men inte frågan om hur många person som man upplever har utsatt en för trakasserier, och hur många som tittat bort och tillåtit att det sker. Själva frågeställningen andas du-är-lite-känslig-och-borde-nog-inte-ta-åt-dig attityd. Av någon anledning har man valt att inte fokusera på att det finns förövare och de skulle vara problemet, och det viktiga vore att mäta problemets omfattning. Om det bara är några få som utsätts så är det relativt ok. Varför skulle problemet vara mindre om 10% upplevede att de utsätts än om 20% utsätts om det fortfarande är samma mängd förövare? Problemet -- tror jag alla är överens om -- är attityd och förekomst av trakasserier, och det kan man bara bota genom att påverka förövarna, inte genom att få offren att känna sig mindre trakasserade.

När man väl har konstaterat att det finns personer som behandlas illa så borde fokus vara på hur många som utgör källan till problemet, inte på hur många som anser sig påverkade. En trakasserad person är en person för många. En person som trakasserar är en person för många. Vilken av dessa som ska vara föremål för åtgärder borde vara självklart. Vilket problem är det man mäter med statistiken?
SvaraRadera
Svar
Anonym24 februari 2018 kl. 15:08
Om det vore så att 10 procent var utsatta under en tjugoårsperiod så innebär det alltså att nittio procent inte en enda gång upplevt något kränkande under en tjugoårsperiod. Någonstans så finns det ju en nedre gräns för vad som kvalificerar som ett allmänt problem.
SvaraRadera
Svar
Per Boussard4 mars 2018 kl. 11:26
Om samhället består av tio halmgummor och tio halmgubbar och ett oräknat antal troll och vi betraktar fyra olika scenarier; 1) en halmgubbe begår ett övergrepp mot en halmgumma, de andra nio gubbarna sköter sig, 2) en halmgubbe begår ett övergrepp mot varje halmgumma, de andra nio gubbarna sköter sig 3) varje halmgubbe begår ett övergrepp mot en halmgumma, samma gumma för varje gubbe, de andra nio gummorna fredas 4) varje halmgubbe begår ett övergrepp mot exakt en halmgumma, olika gumma för varje gubbe -- ett solidariskt och jämställt scenario.

Vad säger nu Rothstein om hur man kan bilda sig en "... korrekt bild av omfattningen ..." av problemet? Hävdar han att scenarie 1 och 3 är lika illa? Menar han att det inte är någon skillnad mellan 1 och 3? Är det ens intressant att ta reda på vilket av dessa scenarier som ligger närmast sanningen? Om så, varför frågar man uteslutande hur många som anser sig utsatta för övergrepp för att reda ut omfattningen av problemet. Jag kan inte förstå varför man inte beskriver det faktum att någon är källa till ett oönskat beteende som ett problem och försöker reda ut vad man kan göra åt det.

Kan vi tänka oss samma sak i trafiken? Vi frågar folk som står vid övergångsställen om de upplever att bilarna kör för fort istället för att mäta hastigheten och beivra överträdelser. 12.3 % av intervjuade vid övergångsställen upplever att bilarna kör för fort -- det är omfattningen av problemet med hastighetsöverträdelser.
SvaraRadera
Svar
AB27 mars 2018 kl. 10:24
Jag ser faktiskt inget fel i Rothsteins formulering. Han redogör för att 2 procent på årsbasis är svårt att översätta till en längre tidsperiod och gör sedan ett försök till uppskattning baserat på en anställningstid om 20 år och landar i 15 procent. Det ÄR en rimlig ungefärlig uppskattning så jag förstår faktiskt inte alls vad du hänger upp dig på?

F.ö. är användningen av ordet "killgissa" sexism.
SvaraRadera
Svar
Erik Moberg30 maj 2018 kl. 07:08
Du skriver att "Bo Rothstein är med varje rimligt mått mätt en av Sveriges mest framstående statsvetare". Tillåt mig att anföra den diametralt motsatta uppfattningen. Att klä den i ord vore dock alltför brutalt, och ett litet belägg, till exempel följande, kan vara nog så tydligt: (http://www.mobergpublications.se/nutida/rothstein.htm)
SvaraRadera
Svar

Lägg till kommentar