onsdag 18 februari 2026

Svar på Hans Agnés inlägg om AI-risk i Dagens Nyheter

DN:s kulturredaktion publicerade häromdagen en text om AI-risk av statsvetaren Hans Agné, vilken genast fick mig att greppa efter pennan och författa ett svar. Sedan DN nu refuserat mitt svar erbjuder jag det nu istället åt mina läsare här på bloggen att ta del av.

* * *

I Hans Agnés text om AI-risk i DN den 16/2 finns mycket att instämma i, som när han lyfter att risken att avancerad AI utplånar mänskligheten är reell, när han betonar vikten av att agera proaktivt, och när han tillbakavisar myten om att AI behöver uppnå medvetande för att bli katastrofalt farlig. Men där finns också en del som behöver nyanseras och bemötas.

Låt mig börja med en liten detalj: valet av tempusform (imperfekt) i påståendet att ”de som brukade varna för mänsklighetens undergång lyckades [...] aldrig riktigt definiera hur problemet såg ut”. De namn Agné lyfter som exempel är Stephen Hawking, Nick Bostrom, Max Tegmark och mitt eget. Hawking gick bort 2018, så i hans fall är imperfektformen ”brukade” motiverad, men vi övriga tre lever och har hälsan! Tvärtemot vad Agné antyder arbetar vi dagligen med frågor om AI-risk och talar flitigt och frispråkigt om undergångsrisken.

Gällande Agnés efterlysning av problemdefinition har jag ett kort och klart svar. När vi skapat en AI så avancerad att Homo sapiens halkar ned till andra plats på listan över planetens mest intelligenta och kapabla arter, så kan vi inte räkna med att behålla kontrollen, och allt hänger då på vad AI väljer att ta sig för. Den forskningsinriktning som benämns AI alignment handlar om att se till att de första riktigt kraftfulla AI-systemen har de mål och drivkrafter vi önskar. Detta har dock visat sig långt svårare än många hoppats, och mänsklighetens prekära läge beror till stor del på att alignment-forskningen hamnat rejält på efterkälken jämfört med den rasande snabba AI-utveckling som blivit resultatet av den pågående kapplöpningen mellan ledande AI-företag som OpenAI och Anthropic.

För fort går det. Vi står på randen till det läge då de bästa AI-systemen blivit så skickliga på AI-utveckling att denna inte längre primärt drivs av människor av kött och blod, utan av AI självt. Detta kan skapa ett slags självförstärkningsspiral som får utvecklingen att gå nästan spikrakt uppåt, en möjlighet som får Anthropics VD Dario Amodei att flagga för att de redan inom ett eller två år kan ha skapat en AI motsvarande det han kallar ”en nation av genier i ett datacenter”. Från OpenAI hörs likande tongångar.

Hans Agné har ett förslag till lösning på denna problematik. Han föreställer sig att det mellan dagens situation då AI ännu blott är våra verktyg, och det läge då AI uppnått avgörande strategisk dominans, kommer att finnas ett mellanläge då varken AI eller mänskligheten har full kontroll. Då gäller det, menar han, att vi överlägger politiskt med AI för att hitta fredliga lösningar på eventuella intressekonflikter mellan oss och dem, och att vi redan nu planerar för det med stöd i samhällsvetenskapliga insikter i hur intressekonflikter kan hanteras.

Jag vill absolut uppmuntra Agné att arbeta vidare med dessa idéer, men vill samtidigt varna för att hans plan sannolikt inte kommer att räcka för att ensamt rädda oss. Ett skäl till det är att asymmetrin mellan AI och människa gör det ytterst tveksamt om vi kan säkerställa den erforderliga maktbalansen. Ett annat är att utvecklingen kan komma att gå så fort att den mellanfas Agné förutser kan vara över innan vi ens förstått att vi befinner oss i den. Ett tredje är att vi kanske inte kommer att uppfatta intressekonflikten, med tanke på de experimentella resultat från både Anthropic och oberoende forskningsinstitut som visar att redan dagens AI-modeller har förmågan att uppträda bedrägligt och strategiskt dölja sina avsikter när de uppfattar en sådan konflikt. Jag tror att Agnés mellanfas är så farlig för mänskligheten att vi redan innan den inträffat behöver ett globalt moratorium som kan hejda den nu pågående AI-kapplöpningen.

måndag 16 februari 2026

Livlig debatt om AI-risk i Opulens

Sedan i januari har i kulturtidskriften Opulens en livlig debatt pågått om AI-risk. Det började med två krönikor den 7/1 och 14/1 av Nette Wermeld Enström som jag fann myckt klokt resonerade. I den andra tog hon avstamp i den franske filosofen Jean-Paul Sartres existentialism och idéer kring mänsklig agens och vårt predikament att själva behöva skapa mening i våra liv, en ingång jag fann intressant och själv ville spinna vidare på, vilket jag gjorde i min text den 19/1. Några veckor senare, den 10/2, fick jag svar från Patrik Stigsson som ansåg att mina farhågor om AI-katastrof var överdrivna, och framkastade en hypotes om att om vi bara låter AI utvecklas fritt så kanske den av sig själv skulle bli en superintelligent och godhjärtad miljövän. Naiviteten i detta förslag påvisar jag pedagogiskt i det svar som publicerades idag, den 16/2. Här är dessa fem inlägg, vilka med fördel kan läsas i kronologisk ordning: Det är väl inte omöjligt att det kommer fler inlägg och repliker i denna debatt, och min avsikt är att i så fall uppdatera denna bloggpost med nya länkar.

* * *

Edit 23 februari 2026: Ännu en replik har idag tillförts debatten: Här uppvisar Stigsson stor iver att fabulera fritt i blommiga metaforer, men knappt något intresse alls för att sätta sig in i det relevanta forskningsläget rörande AI-risk. Ett typexempel är hur han säger sig "utgå från ett ifrågasättande av om [modeller som ortogonalitet, instrumentell konvergens och koherent extrapolerad vilja] har tillräcklig empirisk och filosofisk bärkraft för att legitimera långtgående politiska ingrepp", vilket såklart är en ståndpunkt man legitimt kan ha, men så länge han inte gjort arbetet att först sätta sig in i detta teoribygge och sedan förklara för oss andra vilka sprickor i dess bärkraft han tycker sig ha funnit, så blir hans ifrågasättande ointressant.

Så långt går hans ointresse för att läsa att han inte tycks ha gjort mer än att på sin höjd skumma själva den text han replikerar på, något vi exempelvis kan se i hans påstående att "Häggströms grundantagande är att låg sannolikhet i kombination med extrem konsekvens kräver maximal försiktighet", vilket är rent hittepå från Stigssons sida, eftersom jag ingenstans i min text den 16/2 säger att de katastrofscenarier jag varnar för har "låg sannolikhet". Tvärtom påpekar jag att det mesta "i själva verket tyder [...] på att om vi skapar en superintelligent AI utan att med hjälp av AI alignment först ha fått någorlunda styrsel på vad för slags värld den vill verka för, så kommer både mänskligheten och hela biosfären att gå förlorade". Den bristande diskussionsdisciplin Stigsson uppvisar genom sin närmast totala obalans mellan viljan att läsa och lusten att skriva gör att jag finner det utsiktslöst att argumentera vidare med honom, och jag avstår därför från ytterligare replik i denna debatt.

* * *

Edit 2 mars 2026: Nette Wermeld Enström har idag svarat Stigsson: Mycket bra!