onsdag 18 februari 2026

Svar på Hans Agnés inlägg om AI-risk i Dagens Nyheter

DN:s kulturredaktion publicerade häromdagen en text om AI-risk av statsvetaren Hans Agné, vilken genast fick mig att greppa efter pennan och författa ett svar. Sedan DN nu refuserat mitt svar erbjuder jag det nu istället åt mina läsare här på bloggen att ta del av.

* * *

I Hans Agnés text om AI-risk i DN den 16/2 finns mycket att instämma i, som när han lyfter att risken att avancerad AI utplånar mänskligheten är reell, när han betonar vikten av att agera proaktivt, och när han tillbakavisar myten om att AI behöver uppnå medvetande för att bli katastrofalt farlig. Men där finns också en del som behöver nyanseras och bemötas.

Låt mig börja med en liten detalj: valet av tempusform (imperfekt) i påståendet att ”de som brukade varna för mänsklighetens undergång lyckades [...] aldrig riktigt definiera hur problemet såg ut”. De namn Agné lyfter som exempel är Stephen Hawking, Nick Bostrom, Max Tegmark och mitt eget. Hawking gick bort 2018, så i hans fall är imperfektformen ”brukade” motiverad, men vi övriga tre lever och har hälsan! Tvärtemot vad Agné antyder arbetar vi dagligen med frågor om AI-risk och talar flitigt och frispråkigt om undergångsrisken.

Gällande Agnés efterlysning av problemdefinition har jag ett kort och klart svar. När vi skapat en AI så avancerad att Homo sapiens halkar ned till andra plats på listan över planetens mest intelligenta och kapabla arter, så kan vi inte räkna med att behålla kontrollen, och allt hänger då på vad AI väljer att ta sig för. Den forskningsinriktning som benämns AI alignment handlar om att se till att de första riktigt kraftfulla AI-systemen har de mål och drivkrafter vi önskar. Detta har dock visat sig långt svårare än många hoppats, och mänsklighetens prekära läge beror till stor del på att alignment-forskningen hamnat rejält på efterkälken jämfört med den rasande snabba AI-utveckling som blivit resultatet av den pågående kapplöpningen mellan ledande AI-företag som OpenAI och Anthropic.

För fort går det. Vi står på randen till det läge då de bästa AI-systemen blivit så skickliga på AI-utveckling att denna inte längre primärt drivs av människor av kött och blod, utan av AI självt. Detta kan skapa ett slags självförstärkningsspiral som får utvecklingen att gå nästan spikrakt uppåt, en möjlighet som får Anthropics VD Dario Amodei att flagga för att de redan inom ett eller två år kan ha skapat en AI motsvarande det han kallar ”en nation av genier i ett datacenter”. Från OpenAI hörs likande tongångar.

Hans Agné har ett förslag till lösning på denna problematik. Han föreställer sig att det mellan dagens situation då AI ännu blott är våra verktyg, och det läge då AI uppnått avgörande strategisk dominans, kommer att finnas ett mellanläge då varken AI eller mänskligheten har full kontroll. Då gäller det, menar han, att vi överlägger politiskt med AI för att hitta fredliga lösningar på eventuella intressekonflikter mellan oss och dem, och att vi redan nu planerar för det med stöd i samhällsvetenskapliga insikter i hur intressekonflikter kan hanteras.

Jag vill absolut uppmuntra Agné att arbeta vidare med dessa idéer, men vill samtidigt varna för att hans plan sannolikt inte kommer att räcka för att ensamt rädda oss. Ett skäl till det är att asymmetrin mellan AI och människa gör det ytterst tveksamt om vi kan säkerställa den erforderliga maktbalansen. Ett annat är att utvecklingen kan komma att gå så fort att den mellanfas Agné förutser kan vara över innan vi ens förstått att vi befinner oss i den. Ett tredje är att vi kanske inte kommer att uppfatta intressekonflikten, med tanke på de experimentella resultat från både Anthropic och oberoende forskningsinstitut som visar att redan dagens AI-modeller har förmågan att uppträda bedrägligt och strategiskt dölja sina avsikter när de uppfattar en sådan konflikt. Jag tror att Agnés mellanfas är så farlig för mänskligheten att vi redan innan den inträffat behöver ett globalt moratorium som kan hejda den nu pågående AI-kapplöpningen.

Inga kommentarer:

Skicka en kommentar