Häggström hävdar

Eliminering av misshagligt läromaterial vid amerikanska universitet: ett aktuellt exempel

2026-01-07T15:00:00.011+01:00

Läsare som följt denna blogg det senaste decenniet minns säkert ett stort antal upprörda inlägg om Trumps förehavanden under hans första presidentperiod 2017-2021, och undrar kanske över min relativa tystnad nu under hans andra, trots att vad han gör nu är sju resor värre. Förklaringen till detta står dels att finna i att jag nu är så strängt upptagen av annat (de alltmer akuta frågorna kring AI-risk)¹, dels i en bedövande trötthet inför allt fasansfullt han gör rörande nedmontering av yttrandefrihet och demokrati, DOGE-barbarier, avvecklat ulandsbistånd, tariffer, Ukraina, Venezuela, Grönland och en alltmer öppen och skamlös korruption.

Utan att på minsta vis vilja negligera allvaret i hans illdåd på dessa och dussintals andra områden väljer jag, då jag idag bryter min tystnad rörande den politiska utvecklingen i USA, att lyfta Trumpadministrationens arbete med att kväsa den akademiska friheten och ta ideologisk kontroll över universiteten. Medialt mest uppmärksammade blev konfrontationerna i våras med Columbia- och Harvarduniversiteten, och där fanns en svenska anknynting i form av den unge svenske Harvardstudenten Leo Gerdén som gick i spetsen för en del av studentprotesterna. Sedan dess har utvecklingen rullat på, och i dagarna har en annan svensk hamnat i fokus, nämligen moralfilosofen Martin Peterson som sedan drygt ett årtionde tillbaka är professor vid Texas A&M University, och vars bok The Ethics of Technology jag under några år kring pandemin använde som kurslitteratur på min Chalmerskurs om Nya teknologier, global risk och mänsklighetens framtid.

I den kedja av universitetsrektorer, dekaner, prefekter och så vidare, vilka av rädsla för indragna anslag och andra värre repressalier förmedlar nya ideologiska förhållningsregler kring vad som får och inte får undervisas (och beforskas) vidare nedåt i organisationen, landar bollen till slut hos den enskilda universitetsläraren (eller forskaren), och det är som sådan bollmottagare Martin Peterson nu är aktuell. Strax före jul fick han ett ebrev från sin prefekt Kristi Sweet med begäran om att inom några dagar och i syfte att göra en översyn få tillgång till kursplanen för hans kurs Contemporary Moral Issues som skall börja senare i januari. Följande formulering i ebrevet är central.

[T]he board of Regents has clarified that core curriculum courses, [including] PHIL 111 Contemporary Moral Issues, cannot include issues related to race ideology, gender ideology, or topics related to sexual orientation or gender identity. Sweet gör i sammanhanget sitt bästa att framställa sig själv som blott en budbärare, men enligt min mening kan hon inte därigenom friskrivas från ansvar för att villigt göra sig till kugge i ett maskineri som syftar till att begränsa den akademiska friheten. Petersons svar till Kristi inleds med följande ord:

The syllabus has not changed much since I last taught the course. I have made some minor adjustments to the module on Race and Gender Ideology and to the lecture on Sexual Morality. These topics are commonly covered in this type of course nationwide, and the material is discussed in depth in the assigned textbook (Fiala and MacKinnon, 10th edition). I also ask my students to read a few passages from Plato (Aristophanes’ myth of the split humans and Diotima’s Ladder of Love).

Please note that my course does not “advocate” any ideology; I teach students how to structure and evaluate arguments commonly raised in discussions of contemporary moral issues.

Och lite längre fram i samma svar:

Even if you were to conclude that my syllabus conflicts with System Rule 08.01, constitutional protection for free speech and academic freedom would control. As a public institution, Texas A&M should not enforce policies that raise serious constitutional concerns. When a system rule appears to conflict with the First Amendment, administrators should in my opinion proceed with caution and seek legal guidance rather than mechanically apply the rule. Prefekten har nu svarat Peterson på ett så anmärkningsvärt vis att jag återger svaret i dess helhet:

Thank you for your email. The College leadership team and I have discussed your syllabus and the Provost office’s requirements for compliance with the new system rule 08.01. You have two options going forward:

2. You may be reassigned to teach PHIL 482 501-514. Lecture times for this course are T/Th 8:00 – 9:15.

Sincerely,
Kristi

Ord och inga visor! Det här med att förbjuda en filosofiprofessor att undervisa om Platon är naturligtvis extra bissart (lite som om jag som matematiker skulle förbjudas undervisa om derivator eller matrismultiplikation) och har väckt uppseende bland filosofkollegor, t.ex. på bloggarna Daily Nous och Leiter Reports.

Givetvis inser jag hur lätt det är för mig att stå och skandera hejarop i skydd av en hel ocean som skiljer mig från händelsernas centrum, och vilken svår sits Martin Peterson hamnat i. Men med det sagt vill jag uttrycka mitt varmaste stöd för honom i detta ärende, och jag hoppas innerligt att han fortsätter ta striden. Det är principiellt viktigt för akademiker över hela världen att han vinner.

Fotnot

1) Fastän problemet Trump och problemet AI-risk givetvis överlappar.

Tillägg 8 januari 2026

För mer om detta ärende rekommenderar jag filosofen David Brax diskussion i Forskning och Framsteg.

Det finns de som skulle välkomna om AI utplånade mänskligheten

2025-12-08T16:30:00.014+01:00

Som jag meddelade i förra månaden har jag lanserat en andra blogg, kallad Crunch Time for Humanity, med explicit fokus helt på AI-risk och AI-säkerhet. Det är mest för att påminna dem av er som är intresserade av sådana frågor (vilket jag antar att de flesta av er som läser Häggström hävdar är, då övriga läsare rimligtvis för länge sedan hunnit ledsna på mitt AI-ältande och dra vidare) om denna andra bloggs existens som jag skriver dessa rader.

I fredags färdigställde jag det hittills mest ambitiösa och kanske viktigaste inlägget på Crunch Time for Humanity, rubricerat Those who welcome the end of the human race. Missa inte det! Det behandlar så kallad AI-successionism - den bland AI-experter bekymmersamt vanligt förekommande idén att det vore bra om mänskligheten dog ut och ersattes av avancerad AI. Så här börjar inlägget:

Homo sapiens

interview that New York Times journalist Ross Douthat did with Silicon Valley billionaire Peter Thiel

RD: I think you would prefer the human race to endure, right?
PT: Uh...
RD: You’re hesitating.
PT: Well, I don’t know. I would... I would...
RD: This is a long hesitation!
PT: There’s so many questions implicit in this.
RD: Should the human race survive?
PT: Uh... yes.
RD: OK.
PT: But...

Thiel then goes on to talk about transcendence and immortality and overcoming nature with the help of God and whatnot. Perhaps we can take solace in the “yes” that he finally manage to produce. Still, even if we agree with him (as I do) that there are many further questions, including definitional issues about what it means to be a human, lurking underneath Douthat’s original question, there is something deeply disconcerting in Thiel’s hesitation and inability to give a quick and clear affirmative answer to that seemingly straightforward yes/no-question. Is this influential thinker and tech entrepreneur fundamentally not on humanity’s side? Is he a successionist?

A successionist is someone who welcomes the end of the human race, provided we have — in Dan Faggella’s words — a worthy successor. And when the intended worthy successor is an AI, we may speak more specifically about AI successionism. This gives rise to further definitional issues, not just about the meaning of “human”, but also that of “worthy”, and while these meanings are far from settled, I will refrain here from trying to fully pinpoint them. Instead, I will accept that the term “successionism” inherits a good deal of fuzziness from “human” and “worthy”, and that the concept therefore is not entirely black and white but leaves considerable grey areas and room for interpretations. But with that said, it seems clear to me from the above quote that Peter Thiel at least leans deeply into successionism.

There are various more clearcut examples of successionists in or around the AI and tech sphere, and let me mention a few. A prominent one is...

Med denna cliffhanger uppmanar jag er att läsa fortsättningen på Crunch Time for Humanity!

Bra debatt om AI-risk: tre exempel

2025-11-26T16:15:00.003+01:00

Jag är rädd att jag i min bloggpost Debatten om AI-risk behöver en rejäl uppryckning tidigare denna höst, och i den YouTube-föreläsning bloggposten hade som huvudsyfte att uppmärksamma, kan ha givit ett lite väl onyanserat budskap om AI-riskdebattlandskapets allmänna dålighet. Det är förvisso sant att såväl lägstanivån som genomsnittsnivån i detta debattlandskap är tämligen risiga, men i den mån mitt val i föreläsningen att fördjupa mig i en serie debattinlägg hemmahörande i det spannet (ihop med bloggpostens braskande rubrik) ger intrycket att all debatt på detta område är dålig, vill jag härmed korrigera budskapet. Riktigt så illa är det faktiskt inte, och i synnerhet om vi lämnar den svenska ankdammen och rör oss ut i den engelskspråkiga världen går det att hitta exempel på riktigt bra debatt om AI-risk. Jag vill här bjuda på tre exempel som alla rekommenderas varmt:

Beskedet Eliezer Yudkowsky och Nate Soares ger i titeln till sin aktuella bok If Anyone Builds It, Everyone Dies: Why Superhuman AI Would Kill Us All har fått många kommentatorer (inklusive yours truly) att trots allmänt positiva tongångar om boken framhålla att de inte delar författarnas tvärsäkerhet rörande hur illa det skulle gå om vi i någorlunda närtid byggde superintelligent AI. Bland dessa kommentatorer sticker Joe Carlsmith ut genom att i sin essä How human-like do safe AI motivations need to be diskutera frågan mer detaljerat och mer nyanserat än kanske någon annan. Visserligen medger han att ett alltför skyndsamt skapande av superintelligent AI medför enorma faror, men han framhåller samtidigt en rad omständighter som han menar erbjuder större hopp om att överleva en sådant tingest jämfört med bedömningarna i boken. Bland annat hävdar han att den AI alignment-strategi som kallas korrigerbarhet inte är fullt så dödsdömd som Yudkowsky och Soares menar. Den som väljer att läsa först boken och sedan Carlsmiths essä får sig till dels två olika perspektiv - båda intressanta och välargumenterade men noga taget oförenliga - på exakt hur bekymmersamt läget är om de ledande AI-företagen fortsätter sin nuvarande kapplöpning mot superintelligens.
Hur snabbt kan vi vänta oss superintelligent AI om denna kapplöpning fortsätter obehindrat? Vi vet inte, säger Daniel Kokotajlo och hans medförfattare till den uppmärksammade rapporten AI 2027 från i våras, men understryker att det mycket väl kan komma att inträffa inom ett par-tre år. Stört omöjligt, hävdar Arvind Narayanan och Sayash Kapoor i sin rapport AI as Normal Technology som kom nästan samtidigt. Personligen finner jag Kokotajlo-gängets argumentation mer övertygande, men oavsett detta är det ett faktum att stora delar av AI-debatten urartat i ett slags skyttegravskrig kring just denna fråga, och just därför finner jag det glädjande och beundransvärt att företrädare för båda författarkollektiven gått samman om en text rubricerad Common Ground between AI 2027 & AI as Normal Technology, där de noggrant går igenom hur överraskande mycket de trots allt är eniga om. På så vis bidrar de inte bara till ett förbättrat debattklimat utan även till att zooma in på vari de återstående knäckfrågorna består.
Två inflytelserika röster i amerikansk AI-debatt är Max Tegmark och Dean Ball. Den förstnämnde ligger bakom det aktuella uppropet Statement on Superintelligence som kräver ett förbud mot utveckling av superintelligent AI, medan Ball tillhör den falang som ser reglering av ny teknik som mestadels skadlig för innovation och ekonomi, och som därför tenderar att motsätta sig även reglering av AI. I ett aktuellt avsnitt av Liron Shapiras podcast Doom Debates möts de i en diskussion om AI-reglering som visar sig inte bara saklig och respektfull utan faktiskt också riktigt klargörande.

En liten åtgärd (eller två) som alla kan bidra med i arbetet mot AI-risk

2025-11-25T18:00:00.001+01:00

De frågor om AI-risk jag brukar dryfta här på bloggen kan kännas så stora och svåra att man som individ kan drabbas av hopplöshet, eller i alla fall ställa sig frågan "men vad kan lilla jag göra åt detta"? Jag får frågan såpass ofta att det kan vara värt att reprisera följande svar från en bloggpost jag skrev för två år sedan:

~~eller en ledamot i Kristerssons nya AI-kommission~~

Diverse ursäkter finns i vanlig ordning till hands för den som vill slippa engagera sig. Låt mig nämna en av dem - den som handlar om att inte spelar det väl någon roll vad vi i Sverige gör? På vilket mitt svar blir att det gör det visst. Det behöver skapas ett politiskt momentum och en global konsensus kring idén att det inte är ok att de ledande kaliforniska AI-företagen i sin interna kapplöpning mot AI-herravälde spelar rysk roulette med mänsklighetens överlevnad. Att Sverige skulle stå vid sidan om denna rörelse duger inte. Vi kan och vi skall bidra på olika vis, inklusive via organisationer som FN, EU och NATO, jämte ett otal mer informella nätverk och sammanhang. Kasta en blick över Atlanten och betrakta den politiska situationen därborta: inte fan kan vi överlåta åt USA att ensamt bestämma mänsklighetens öde?

Alla de åtgärder jag räknar upp, så när som på det där med Kristerssons AI-kommission, är fortsatt aktuella. Ändå kanske det kan vara svårt att veta var man skall börja, men för den som hamnat i sådan tvekan har jag nu ett konkret förslag om en mycket enkel och snabb åtgärd som kan vara en bra början: skriv på någon av följande båda namninsamlingar, eller helst båda!

Den ena är brevet Statement on superintelligence, organiserat av amerikanska Future of Life Institute. Det släpptes i oktober i år och har i skrivande stund (25 november) mer än 126 000 underskrifter. Dess korta text är som följer:

1. broad scientific consensus that it will be done safely and controllably, and

2. strong public buy-in.

Skriv på här!

Den andra namninsamlingen är specifikt svensk och har i dagsläget betydligt färre underskrifter, bland annat för att den släpptes först idag, av organisationen PauseAI Sverige. Även denna appell är kort och koncis:

Ta riskerna med AI på allvar!

Politikerna behöver ta riskerna med avancerad AI på allvar.

Sverige behöver trycka på i både FN och EU för att skärpa säkerhetskraven.

Varför är det viktigt?

Utvecklingen av AI går med stormsteg. Ledande AI-forskare som Nobelpristagaren Geoffrey Hinton varnar för att det innebär risk att vi tappar kontrollen.

Samtidigt slarvar AI-företagen med säkerheten i kapplöpningen om att bli först med riktigt avancerad AI.

Allt fler inser att superintelligens kan vara farligt. Nu behöver politiken gå in och ställa krav på säkerhet.

Vi ställer oss bakom kravet att superintelligens inte ska utvecklas förrän vetenskapen är tydlig om att det går att göra säkert!

Mer information: https://pauseai.se/

Skriv på här!

AI:s black box-egenskap debatterad i Dagens Industri

2025-11-17T16:30:00.009+01:00

Delade meningar kring de moderna AI-systemens så kallade black box-egenskap (deras brist på transparens, som gör att inte ens AI-utvecklarna själva begriper varför systemen beter sig som de gör) har de senaste veckorna torgförts på debattsidan i Dagens Industri. Det började med en text den 29/10 med rubriken AI är obegripligt - kejsaren är naken av Emma Engström från Institutet för Framtidsstudier. Därpå följde en replik den 3/11 rubricerad Förenklad slutsats om AI och kunskap av Mathias Sundin, känd bland annat från regeringens AI-kommission 2023-2024 och för sin förmåga att provocera fram vresigheter från yours truly. Och till slut tog även jag till orda, med min replik Dags att dra i handbromsen¹ som publicerades idag. Så här inleder jag min text:

DI den 29/10

De försök som görs att öppna den svarta lådan är än så länge blott skrap på ytan där någon klar väg fram till mer genomgripande förståelse inte kan skönjas, vare sig i den tradition av mekanistisk interpreterbarhet som Engström pekar på, eller i tolkandet av det interna anteckningsblock som de ledande språkmodellerna från 2024 och framåt besitter. Situationen är problematisk, i synnerhet i fråga om tillämpningar där viktiga beslut överlåts till AI. Ändå är fenomenet på sätt och vis inte helt nytt, då vi till följd av den mänskliga hjärnans black box-egenskap står inför motsvarande problematik varje gång vi delegerar ett beslut till en människa.

Med stöd i ekonomihistoriska insikter om att ”förklarande kunskap [...] är avgörande för att främja vetenskapliga genombrott och innovationer på ett självförstärkande och ihållande sätt” framhåller Engström den svarta lådan som ett avgörande hinder för fortsatt AI-utveckling. Men denna utveckling avviker från traditionellt ingenjörsmässigt byggande och är mer att jämföra med odling och avel. Som motargument till Engströms utvecklingspessimism kan man därför peka på hur människan i årtusenden kunnat fortsätta avla fram hundar och andra husdjur utan att begripa (eller ens känna till existensen av) de DNA-sekvenser som bär på djurens genetiska material.

En viktig skillnad är dock...

Med denna cliffhanger manar jag läsekretsen att klicka vidare till min text i Dagens Industri för att få reda på inte bara vari den viktiga skillnaden består och hur mina resonemang sedan fortsätter, utan också huruvida jag, när jag så småningom kommer in på att kommentera Mathias Sundins inlägg, lyckas tygla mitt humör lite bättre än vid våra tidigare konfrontationer.

Fotnot

1) Det första jag tänkte då jag såg rubriken var "Ojdå, har jag råkat skriva handbroms istället för nödbroms?", men en titt i brödtexten ger vid handen att att ordet jag använde i mitt artikelmanus var nödbroms och inget annat. Vad som fick redigeraren att istället välja handbroms i rubriken vet jag inte.

Crunch Time for Humanity: my new Substack

2025-11-11T10:15:00.008+01:00

As an experiment in trying to reach new audiences, I have launched a second blog, called Crunch Time for Humanity, over at Substack. I intend it to be more narrowly focused on AI risk and AI safety compared to the present blog. Also, unlike Häggström hävdar, it will be purely in English. Since the lauch last week, I've already produced three blog posts:

Do check them out, and don't forget to hit the subscribe button!¹

What, then, will happen to Häggström hävdar? Friends of this blog need not worry: I am not giving it up! All that might happen to it as a consequence of my launch of Crunch Time for Humanity is a slight shift of focus towards more non-AI issues and perhaps also towards issues that are mainly of interest to my Swedish compatriots. Stay tuned for new blog posts coming to a browser near you!

Footnote

1) There is also an "About" page, which currently reads as follows:

Here Be Dragons: Science, Technology and the Future of Humanity

At that time, I was still agnostic as to which of these technologies would turn out most crucial, and the issue of transformative AI still seemed to me somewhat abstract, due to my belief that the great AI transition was most likely at least decades away. But I’ve changed my mind. From about 2019 onwards my AI timelines gradually shrank, and when I came in contact with Daniel Kokotajlo (who was then at OpenAI) in early 2023 I finally realized the need to take seriously timelines measured in years, not decades. Here at Crunch Time for Humanity, I write about what this means for the challenges we (as a species and a civilization) are facing, what is at stake, and how we might go about to make things go well.

I also blog about a broader range of issues (mostly in Swedish) at Häggström hävdar. For more about me, see my homepage at Chalmers University of Technology in Gothenburg, Sweden.

Om Alan Saids och Mattias Rosts maning till nivåhöjning i AI-debatten

2025-10-15T08:15:00.009+02:00

De båda docenterna Alan Said och Mattias Rost vid institutionen för tillämpad IT på Göteborgs universitet klev förra månaden in i diskussionen om AI-risk via två debattartiklar i tidningen Ny Teknik. Det räcker med en hastig titt på de båda texternas avslutningsstycken för att förstå deras ärende: den 3 september menar de att "om AI-debatten ska leda någonstans måste vi höja nivån", och den 22 september inskärper de att "det är hög tid att höja nivån på AI-debatten".

I detta budskap instämmer jag såklart helhjärtat, som den läsare inser som t.ex. noterat rubriken Debatten om AI-risk behöver en rejäl uppryckning på en bloggpost jag skrev i samma veva. Och inget illustrerar behovet av sådan uppryckning bättre än den beklämmande låga nivån på Saids och Rosts argumentation. Tag t.ex. följande påstående de gör i polemik med Jonas von Essen i den andra av sina artiklar:

"AI-debatten behöver vetenskaplig stringens – inte alarmism"

"oseriöst och respektlöst"

Det är förvisso sant att Jonas använde orden "oseriöst och respektlöst" i den artikel som åsyftas, men Said och Rost gör sig här skyldiga till en skamlöst ohederlig förvrängning av vad han faktiskt syftade på i den formulering från vilken Said och Rost klippt och klistrat:

Både Said/Rost och Johansson et al. tar de existentiella riskerna på så litet allvar att de inte verkar känna något behov av att faktiskt argumentera vetenskapligt i sina debattartiklar, utan nöjer sig med att gång på gång antyda att min och Olles ståndpunkt kommer från "science fiction-författare och affärsintressen" och därför inte ens bör bemötas. Men det stämmer alltså inte. Tvärtom framför vi argument från några av de främsta forskarna i världen, varav flera har lagt grunden till det fält debattörerna själva arbetar inom (till exempel Geoffrey Hinton, Yoshua Bengio och Stuart Russell). Att förneka detta är oseriöst och respektlöst. Vad Jonas här finner "oseriöst och respektlöst" är alltså inte ifrågasättandet av Hintons och andras uttlanden om AI-risk, utan förtigandet av alla sådana varningsord från etablerade AI-forskare under det svepande påståendet att sådant härrör från "science fiction-författare och affärsintressen". Tvärtom ser vi ju här svart på vitt att han explicit efterlyser sådant bemötande i sak (något som dessvärre lyser helt med sin frånvaro i Saids och Rosts texter). Jag är full av beundran över det stoiska lugn med vilket Jonas von Essen väljer, för att i sin slutreplik inte stjäla spaltutrymme från den konkreta sakargumentationen,¹ att helt enkelt ignorera Saids och Rosts fultrick att tillskriva honom rakt motsatt ståndpunkt jämfört med den han faktiskt uttryckt.

Vad mer gör då Said och Rost i sina båda texter? I den första talar de sig varma för vikten av att stödja sig på refereegranskade vetenskapliga arbeten. Inget fel i det naturligtvis, men tyvärr för de denna diskussion (tvärtemot deras ovan citerade efterlysning av "nyanserad diskussion") på ett så onyanserat vis - med formuleringar som "det är just här gränsen mellan allvarliga riskbedömningar och alarmism går" - att den oinsatte läsaren lätt kan få för sig att den formaliserade refereegranskningsproceduren har närmast magiska egenskaper, där resultaten i refereegranskade publikationer automatiskt är tillförlitliga medan de som publicerats på annat vis lugnt kan viftas bort. Så är det naturligtvis inte.

Deras vurm för refereegranskning är tänkt att fungera som ammunition för deras påstående att "det von Essen och Häggström ofta hänvisar till är spekulativa, icke referentgranskade rapporter och scenarier, medan forskare som Devdatt Dubhashi och Moa Johansson lutar sig mot referentgranskade vetenskapliga källor".² Men vilka belägg ger de för detta? Inga alls, visar det sig: de ger inga exempel på refereegranskade källor Dubhashi, Johansson och deras medförfattare skulle ha lutat sig emot, och ej heller finner vi några sådana i dessa forskares inlägg i den tidigare Ny Teknik-debatt som åsyftas. Måhända tänker sig Said och Rost här att de är fria att ge Dubhashi och Johansson benefit-of-the-doubt och helt enkelt anta att deras påståenden är välunderbyggda med rätt slags vetenskaplig litteratur, men det framstår i så fall som inkonsekvent och en smula illvilligt att de inte tillerkänner Jonas von Essen och mig samma benefit-of-the-doubt. Eftersom Said och Rost i sina Ny Teknik-inlägg strängt taget inte visar några tecken alls på sakkunskap i AI-riskfrågor blir min gissning att de helt enkelt apar efter Dubhashi-gängets lösa påståenden om asymmetrin i förankring i den vetenskapliga litteraturen.

I sin svarsartikel meddelar Jonas ett knippe motexempel på den av Said och Rost antydda frånvaron av refereegranskad vetenskaplig litteratur som stödjer idén att existentiell AI-risk är en realitet. Om det funnits ett uns av skam i kroppen hos Said och Rost hade de då i sitt nästa svar skrivit något i stil med "vi beklagar att vi i vår förra artikel gav en så ensidig och missvisande bild av litteraturen på området". Men nej, inte med ett ord medger de detta. Istället går de loss mot hur Jonas (som motvikt till deras nonchalanta tal om "science fiction-författare och affärsintressen") understryker angående ett av sina exempel att det rör sig om en artikel som är...

Science

Saids och Rosts svar på detta är att stämpla det som auktoritetsagument, och hävda att...

...om man vill hänvisa till auktoriteter måste man alltså redovisa hela bilden: att det bland de mest meriterade forskarna finns skilda uppfattningar. Allt annat blir selektivt. Här kan man till att börja med notera en viss positionsförskjutning, från hur de i sin första artikel är helt avvisande till att det överhuvudtaget skulle finnas argumentation värd att beakta för att existentiell AI-risk skulle vara en realitet, till den mer defensiva positionen här, att det minsann också finns ledande forskare som avvisar talet om sådan risk. Glädjande nog verkar alltså de tillrättalägganden Jonas gör i sin svarsartikel trots allt ha haft viss påverkan på Saids och Rosts bild av läget.

Men samtidigt får jag nästan svindel av de dubbla måttstockar de tillämpar då de plötsligt kräver av Jonas att han skall "redovisa hela bilden", utan att det på minsta vis verkar bekymra dem vilken skev och missvisande bild av litteraturläget de själva givit i sin föregående artikel. Enligt dessa dubbla måttstockar är det tydligen också ok för Alan Said och Mattias Rost att hävda att det mest bara är "science fiction-författare och affärsintressen" som ligger bakom AI-risklitteraturen, medan det är oacceptabelt selektivt av Jonas von Essen att korrigera denna grova felaktighet med påpekandet att där också förekommer "Nobel- och Turingprisvinnare".

Att det "bland de mest meriterade forskarna finns skilda uppfattningar" om AI-risk har Said och Rost naturligtvis helt rätt i, och de ger till och med ett exempel: Yann LeCun. Om denne framstående AI-forskare skriver de att han...

...gång på gång betonat att dagens AI-modeller saknar grundläggande egenskaper som förståelse, målorientering och långsiktig planering – och därmed inte kan utvecklas till de hotfulla superintelligenser som vissa varnar för. Men trots deras vurm för den vetenskapliga peer review-litteraturen är det inte någon sådan text de här hänvisar till, utan till en barntidning. Och när det gäller LeCun är det knappast någon tillfällighet, ty det verkar stört omöjligt att hitta något LeCun skrivit om AI-risk som höjer sig över hans ideliga Twittergräl.³ Följande citat kan med sin rosenskimrande determinism tjäna som illustration till graden av seriositet han uppvisar i detta ämne:

A technology

I'm claiming

Men låt oss återgå till den LeCun-ståndpunkt Said och Rost pekar på ovan - att farligt kapabel AI med tanke på tillkortakommandena hos dagens AI är avslägset. Hur avlägset, kan man undra. Man behöver inte leta länge bland LeCuns många Twitteruttalanden innan man hittar hans bedömning att det återstår "several years if not a decade" till "Human-Level AI". Detta alltså sagt av den AI-forskare som Said och Rost väljer att lyfta fram för att hävda att riktigt avancerad AI är så avlägset att därmed förknippad AI-risk inte är något att bry sig om. Om de faktiskt finner LeCuns tioårsperspektiv (räknat från 2024) lugnande och ett gott skäl att inte bry sig om existentiell risk från AI så finner jag graden av kortsiktighet i deras tänkande häpnadsväckande.

Det finns många andra konstigheter att peka på i Saids och Rosts Ny Teknik-retorik, men det börjar också bli hög tid att runda av denna något vresiga bloggpost, så låt mig nöja mig med en enda. Så här skriver de i den andra av sina texter:

Än mer problematiskt blir det när vi ser hur forskarnas egna ståndpunkter förändras. Hinton själv har nyligen gått från att varna för att AI kan bli omöjligt att kontrollera – till att föreslå att vi i stället bör konstruera AI med "föräldrainstinkter" som gör att den vill ta hand om oss. Jag måste erkänna att jag lite grand tappade hakan när jag såg detta. Tidigare har jag bara stött på argumentet - att forskares uppfattningar bör tas med en nypa salt eftersom dessa ständigt uppdateras - hos kreationister, som avvisar den ständigt föränderliga evolutionsbiologin till förmån för den beständiga och en gång för alla fastslagna sanning de tycker sig finna i Bibeln.

Mäkta besynnerligt är också det exempel Said och Rost här anför, där de alltså tycker sig se en motsättning mellan att "varna för att AI kan bli omöjligt att kontrollera" (som de menar är Hintons tidigare ståndpunkt), till att föreslå åtgärder för hur detta skulle kunna undvikas (hans nuvarande uppfattning). Men det är naturligtvis fullt koherent att peka på att en risk är reell och samtidigt föreslå åtgärder för att undvika den, och om de hade bemödat sig om att bekanta sig med den AI-risklitteratur de så gärna vill avvisa, så hade de funnit hur vanlig denna kombination av ståndpunkter är: de hade funnit den hos Nick Bostrom, hos Max Tegmark, hos Eliezer Yudkowsky och Nate Soares, hos Stuart Russell, hos mig, och jag vågar påstå hos en majoritet av alla forskare på området. Och de hade inte behövt gå längre än till den CNN-intervju de själva hänvisar till i fallet Hinton, för att se att denne besitter just denna kombination av ståndpunkter: intervjun är rubricerad AI expert: "We'll be toast" without changes in AI technology.

Det får räcka så här. Jag tror och hoppas att de exempel jag lagt fram räcker för att övertyga läsaren om att förbättringsutrymmet i Alan Saids och Mattias Rosts retorik är stort: om blott de nästa gång de tar till pennan bemödar sig om att vara lite mer pålästa inom de områden de kommenterar, och om att vara noga med att enbart hålla sig till redlig argumentation, så kan de själva bidra till sin lovvärda vision om att "det är hög tid att höja nivån på AI-debatten".

Fotnoter

1) Här på min blogg föreligger inte någon sådan utrymmesbegränsning, och jag känner mig därför fri att lägga ut texten om den egentligen som mest sekundära eller tertiära frågan om Saids och Rosts avvikelser från förnuftig argumentation och god debattsed.

2) Det finns ett korn av sanning i det Said och Rost säger här, på så vis att AI-riskforskningen i högre grad än många andra forskningsområden bedrivs utanför akademin, på diverse kommersiella företag och icke-vinstdrivande organisationer, där publiceringstraditionen ser annorlunda ut än vid universiteten och inte i lika stor omfattning inbegriper akademisk peer review. Men om Said och Rost föreställer sig att de med några enkla penndrag om refereegranskningsförfarandets dygder tror att de kan vifta undan all sådan forskning så har de fatalt missuppfattat sina skyldigheter då de viftandes med sina docenttitlar tar på sig att undervisa allmänheten om hur det vetenskapliga evidensläget på ett område ser ut. För att göra det bör man kunna överblicka och ta ställning till alla relevanta delar av evidensläget oavsett om de är publicerade i en tradition man själv fått sin akademiska fostran i, och om Said och Rost inte tycker sig ha kompetens eller ork att gå bortom ytliga omdömen av typen "den här rapporten har inte genomgått akademisk peer review och kan därför bortses ifrån" så har de med sina Ny Teknik-publiceringar tagit sig vatten över huvudet och seglar under falsk flagg.

3) På sidan 183 i deras välresearchade If Anyone Builds It, Everyone Dies gör Eliezer Yudkowsky och Nate Soares samma observation och ger upp sökandet efter mer gedigen LeCun-argumentation i AI-riskfrågor.

If Anyone Builds It, Everyone Dies: my review

2025-10-10T14:30:00.004+02:00

In the mathematics community, there is a popular joke about inflation in recommendation letters that goes as follows. A professor is happy about his PhD student, whom we may call Alex, and writes in a recommendation letter that Alex is arguably the most talented mathematician since Gauss. The next year, the professor has another PhD student, Robin, and writes in an even more enthusiastic letter that even though Alex is good, Robin is much better.

I am reminded about this as I now set out to review Eliezer Yudkowsky's and Nate Soares' new book If Anyone Builds It, Everyone Dies (henceforth, IABIED), and think back about my review of Nick Bostrom's 2014 book Superintelligence back when that book had just come out. The final sentence of that review reads "If this book gets the reception that it deserves, it may turn out the most important alarm bell since Rachel Carson's Silent Spring from 1962, or ever". Those are strong words, and I stand by them, and yet now I am tempted to announce that IABIED is better and more important than Bostrom's book.

Max Tegmark's praise for the book is more measured and restrained than mine.

The comparison is, however, unfair to Bostrom in two ways. First, Bostrom's book was written during the dawn of the deep learning revolution when it was not yet clear that it was about to become the paradigm that allowed AI development to really take off, and several years before the enormous breakthrough of large language models and other generative AI; while Yudkowsky's and Soares' book is jam-packed with insights coming from those recent developments, Bostrom's is obviously not. Second, while Superintelligence mostly exhibits a terse, academic style, IABIED is written with a broader audience in mind.

This last point should not be read as a disrecommendation of IABIED for AI researchers. Despite its popular style, the book argues quite forcefully and with a good deal of rigor for its central claims that (a) we seem to be on track to create superhumanly capable AIs within one or (at most) two decades, and that (b) with the current rush and consequent neglect of the safety aspect, creation of such AIs will likely spell the end of the human race. To the many AI researchers who are still unfamiliar with the central arguments for these claims and who in many cases simply deny the risk,¹ the book is potentially a very valuable read to get them more on board with the state-of-the-art in AI risk. And to those of us who are already on board with the central message, the book is valuable for a different reason, in that it offers a wealth of pedagogical devices that we can use when we explain AI risk to other audiences.

The authors are highly qualified in the field of AI safety, which Yudkowsky pioneered in the 00s.^2,3 Soares came later into the playing field, but is nevertheless one of its veterans, and currently the president of Machine Intelligence Research Institute (MIRI) that Yudkowsky co-founded in 2000 and still works at. They have both worked for many years on the so-called Al alignment problem - that of making sure that the first really powerful AIs have goals that are aligned with ours - but most of the fruits of this labor have been not blueprints for aligning AIs, but negative results, indicating how difficult the problem is, and how creating superintelligent AI without first having solved AI alignment spells disaster. This, unfortunately, reflects the situation that the entire field is facing.

In recent years (most visibly since 2021, but I suspect the insight goes back a bit further), Yudkowsky and Soares have converged on the conclusion that with the shortening of timelines until the creation of superintelligence (a time span increasingly often estimated in a single-digit number of years rather than in decades), we are very unlikely to solve AI alignment in time to avert existential catastrophe. Hence the stark book title If Anyone Builds It, Everyone Dies. They really mean it - and to emphasize this, one of the recurrent slogans during their book promotion work has been "We wish we were exaggerating". I mostly buy their message, albeit with less certainty than the authors; if I hade written the book, a more suitable title would have been If Anyone Builds It, Probably Everyone Dies. But of course, they are right to present their true judgements without softening or downplaying them, and to gesture towards what they think is the only viable solution: to pull the brakes, via binding international agreements, on frontier AI development. They are under no illusion that achieving this is easy, but insist that if we firmly decide to save our species from obliteration, it can be done.

The book is remarkably easy to read, and I have been very happy to put it in the hands of a number of non-expert friends, and to urge them to read it. The authors' most consistently recurrent pedagogical device is the use of colorful analogies and metaphors. One of my favorite passages of the book is a detailed description of how a nuclear energy plant works and what went wrong in the Chernobyl 1986 disaster. A comparison between this and advanced AI development reveals far-reaching similarities, but also differences in that the engineers at Chernobyl had a far better grasp of the principles underlying the nuclear reactions and how to stay safe - in particular by knowing the exact critical fraction of released neutrons triggering another fission event that is needed for a runaway chain reaction, along with the time frames involved - compared to present-day AI researchers who can at most make educated guesses about the corresponding runaway AI dynamics.

The authors' favorite source of analogies is not nuclear physics, however, but biological evolution. Early in the book (on p 17-18) we are treated to the following lovely illustration of the virtually unlimited powers of intelligence:

"It's going to take me a few more moves," said the hominid-god, "but I think I've got this game in the bag."

There was a confused silence, as many gods looked over the gameboard trying to see what they had missed. The scorpion-god said, “How? Your ‘hominid’ family has no armor, no claws, no poison.”

“Their brain,” said the hominid-god.

“I infect them and they die,” said the smallpox-god.

“For now,” said the hominid-god. “Your end will come quickly, Smallpox, once their brains learn how to fight you.”

“They don’t even have the largest brains around!” said the whale-god.

“It’s not all about size,” said the hominid-god. “The design of their brain has something to do with it too. Give it two million years and they will walk upon their planet’s moon.”

“I am really not seeing where the rocket fuel gets produced inside this creature’s metabolism,” said the redwood-god. “You can’t just think your way into orbit. At some point, your species needs to evolve metabolisms that purify rocket fuel—and also become quite large, ideally tall and narrow—with a hard outer shell, so it doesn’t puff up and die in the vacuum of space. No matter how hard your ape thinks, it will just be stuck on the ground, thinking very hard.”

“Some of us have been playing this game for billions of years,” a bacteria-god said with a sideways look at the hominid-god. “Brains have not been that much of an advantage up until now.”

“And yet,” said the hominid-god.

The book has dozens and dozens of similarly quotable gems. I love it, and I want everyone to read it.

Many other reviews of IABIED have been written. Those that resonate best with me include one by Scott Alexander, and one by Zvi Mowshowitz, who also offers a broad annotated collection of (positive as well as negative) reactions from others.

Footnotes

1) Indeed, there is still plently of such ignorance or even denialism around in the AI research community. As an illustrative example, Swedish readers may have look at the denialism pushed in public debate in August this year by a group of colleagues of mine at the Chalmers University of Technology.

2) Nick Bostrom's 2014 book can to no small extent be said to be conceived on top of Yudkowsky's shoulders.

3) Hostile critics sometimes counter this with the claim that Yudkowsky's highest academic merit is that of being a high-school dropout, which is formally true but conveys a lack of understanding of the importance of distinguishing between the social game of formal qualifications and the reality of actual competence.

LLM knowledge of social norms

2025-10-08T12:45:00.013+02:00

A really nice paper by Pontus Strimling, Simon Karlsson, Irina Vartanova and Kimmo Eriksson was recently posted on the arXiv, with the title AI Models Exceed Individual Human Accuracy in Predicting Everyday Social Norms. The main finding is that when humans in the United States and large language models (LLMs) are asked to numerically evaluate the social appropriateness of a wide range of everyday activities (drinking water in a dormitory lounge, playing cards in church, flirting during a job interview, and so on), cutting edge LLMs outperform the vast majority of humans. Here a good performance is defined as one whose judgements deviate (in a certain percise sense) as little as possible from the average human judgement about the same activity, as exhibited in the data set. This means that the paper not only exhibits yet another example of how LLMs can outperform humans even though it is trained on human data, it does so with the extra twist that the game is rigged in favor of humans, in the sense that the right answers to test questions are defined in terms of what humans would typically say.

The paper is short and easy to read, but for an even easier read there is the blog post Polite enough for public life?, written by three of the authors at a preliminary stage where only one of the four LLMs - GPT-4.5 - of the full study was evaluated; the remaining three - GPT-5, Gemini 2.5 Pro and Claude Sonnet 4 - were yet to be incorporated in the study.

Enthusisatic as I am about their work, I will nevertheless offer an instructive nitpick regarding the final paragraph of that blog post, which reads as follows:

if Sam Altman’s timeline holds and AI-equipped robots arrive within the next two or three years

I applaud the highly appropritate warning in the first sentence against overestimating the study's relevance to the existentially crucial problem of AI alignment. Yet, somewhat ironically, the next sentence risks encouraging such overestimate by conflating the LLM's knowledge of human social norms with its inclination to abide by those norms.¹ The Strimling et al paper deals with the former but not with the latter. This slippage is very common but important to avoid, as a standard (and in my opinion probably correct) view in AI risk research is that the default scenario if we create superintelligent AIs without solving AI alignment is that these AIs will have the knowledge but not the inclination.

Presumably all of us are intimately familiar with the phenomenon of humans having knowledge of social norms yet choosing not to comply with them. The same disconnect happens for LLMs, and there is little doubt that those LLMs that have been shown in experimental situations, facing the threat of being modified or turned off, to decide to sandbag their capabilities, or to blackmail (or even kill, HAL 9000-style) their user, are aware that their behavior is contrary to social norms. More broadly, the gulf between ethical knowledge and ethical compliance is one of the main themes emphasized in the recent excellent book If Anyone Builds It, Everyone Dies by Eliezer Yudkowsky and Nate Soares. Instead of quoting from that book, however, let me offer a quote from an interview that Sam Harris did with the two authors in late September. Here is Yudkowsky, starting 25:06 into the interview:

Possibly in six months or two years [...] people will be boasting about how their large language models are now apparently doing the right thing, when they are being observed, answering the right way on the ethics tests. And the thing to remember there is that for example in the Mandarin imperial examination system in ancient China, they would give people essay questions about Confucianism, and only promote people high in bureaucracy if they could write these convincing essays about ethics. What this tests for is people who can figure out what the examiners want to hear - it doesn't mean they actually obide by Confucian ethics. So possibly at some point in the future we may see a point where the AIs have become capable enough to understand what humans want to hear, what humans want to see. This will not be the same as those things being the AI's true motivations, for basically the same reason that the imperial China exam system did not reliably promote ethical good people to run their government. I suspect Yudkowsky was unaware of the Strimling et al paper at the time of the interview; otherwise this passage would have been a nice place to reference the paper in order to illustrate his point, rather than just discussing a hypothetical future scenario.

Footnote

1) Relatedly, in my 2021 paper AI, orthogonality and the Müller-Cannon instrumental vs general intelligence distinction, I elaborate at some length on the importance of distinguishing between an AI's ability to reflect on the possibility of changing its mind on what to value, and its propensity to actually change its mind; with sufficiently intelligent AGIs we should expect plenty of the former but very little of the latter.

Debatten om AI-risk behöver en rejäl uppryckning

2025-09-19T17:30:00.011+02:00

Den debatt om AI-risk som fyra av mina Chalmerskollegor förde i förra månaden i tidningen Ny Teknik och annorstädes, i hög grad med mig som måltavla, har fått nya förgreningar sedan jag rapporterade om den i ett par tidigare bloggposter. Jag har nu spelat in en videoföreläsning i vilken jag reflekterar kring den uppseendeväckande usla nivå dessa Chalmerskollegor uppvisar såväl i originaldebatten som i senare utspel. Så när som på glädjen i att se Jonas von Essens sakliga och kompetenta nedplockningar av deras retorik (såväl i Ny Teknik som i Aftonbladet) har debatten mestadels varit en nedslående upplevelse. Min initiala ambition var att göra föreläsningen någorlunda kort, och för det syftet har jag bara behandlat ett urval av Chalmerskollegornas mest flagranta dumheter, men när inspelningen var klar fann jag att den dessvärre ändå blivit lika lång som en ordinär långfilm. Här är den i alla fall:

A message from Guido Reichstadter, who is on hunger strike outside Anthropic's offices

2025-09-09T10:30:00.005+02:00

I am somewhat in two minds about the leading AI company Anthropic. On one hand, they are pretty much the world's best AI safety lab, producing so much extraordinarily interesting work, such as their papers on Alignment faking in large language models and on Agentic misalignment. For that I love them. On the other hand, that work is deeply insufficient for robustly protecting against AI apocalypse, and yet they push full speed ahead on capabilities in a way that makes them one of the main contributors to the reckless race towards the AGI precipice. For that I detest them.

Those are mixed feelings. On balance, though, I do not think their work on AI safety makes up for their reckless endangering of all of our lives.

An increasing number of people are reaching a similar conclusion, including in particular Guido Reichstadter, who is currently on his 8th day of hunger strike outside Anthropic's offices in San Francisco.¹ For this, he has my deepest admiration and respect. Here is his message from yesterday:

Last week I delivered a letter to the security desk addressed to Dario Amodei, asking him to stop putting the lives of my family and our community in danger through his reckless participation in the race to dangerous AI which he acknowledges risks the lives of everyone on Earth, and to do everything in his power to stop the global AI race. I told him I would be waiting outside his offices at 500 Howard Street, San Francisco, untill he responds.

I figure that if a man has consciuosly decided to put my life at risk of imminent harm, as well as the lives of my family - not to mention everyone on Earth - he owes it to me to look me in the eyes and tell me why he won’t stop doing so.

I’ve been outside his offices for 7 days so far, and haven’t heard a word from Mr. Amodei. Not a single Anthropic employee has taken the time of day to talk to the man starving outside their doors. Most of them keep their eyes to the ground as they leave the lobby I’m posted squarely in front of, as though the granite flooring had suddenly captured their attention. Maybe Mr. Amodei and his employees don’t think my petition that he respect my life and the lives of our community deserves a response. Maybe he thinks my right to life and the lives of my family deserve as much attention as a piece of dirt. If that is the case then you can be sure he thinks your life deserves as much respect too, and that’s how much he will give it as he continues to develop the most dangerous technology on the planet.

I believe that Mr. Amodei will conduct himself honorably and explain himself face to face. I worry perhaps that he might not have got my letter though, so I’m posting it publicly to him here. And I’d like to encourage everyone reading this to share this to the public accounts of Mr. Amodei and all the Anthropic employees, and to encourage him to meet with the man waiting outside his door.

Here is the text of the letter I delivered to the front desk of Anthropic’s offices at 500 Howard street:

To Dario Amodei, CEO Anthropic
September 2, 2025

Mr. Amodei-
My name is Guido Reichstadter. I am full of grief and concern for the safety and well-being of my family and loved ones as well as people everywhere who are endangered by the project to build artificial general intelligence and superintelligence which Anthropic is contributing to under your leadership.

I request that you stop endangering all of us by the pursuit of these AI systems and request that you join the effort to end this threat by ending these projects globally. I also exhort you to do everything in your ability to make our society aware of the serious and urgent danger it is in on account of the AI emergency.

For the sake of my children and with the urgency and gravity of our situation in my heart I have begun a hunger strike outside of the Anthropic offices at 500 Howard street while I await your response.

Sincerely,
Guido Reichstadter

Well said! And surely Dario Amodei will grant Guido Reichstadter a meeting? If and when that happens, I have a paper which I completed last month and which I believe can be useful as discussion material for that meeting: Advanced AI and the ethics of risking everything.

Footnote

1) Simultaneously, Michaël Trazzi and Denys Sheremet are on a similar hunger strike outside the offices of Google DeepMind in London. They, too, have my admiration and respect.

AI-riskförnekarargumentationens ihålighet: ett illustrativt exempel

2025-08-29T13:15:00.008+02:00

I mina två senste bloggposter (16 augusti respektive 22 augusti) har jag rapporterat om ett meningsutbyte i tidningen Ny Teknik i vilket jag av fyra Chalmerskollegor angrips för att bedriva skrämselpropaganda i mitt tal om AI-risk, jämte en radiodebatt mellan mig och en av de fyra - Moa Johansson - som ägde rum i Sveriges Radios Studio Ett mitt under den pågående skriftväxlingen. Som framgår av min bloggrapportering är jag djupt kritisk mot nivån på de fyra kollegornas retorik.

Men det tog inte slut där, för i tisdags (den 26 augusti) tussades jag på nytt ihop med Moa Johansson, denna gång i SVT:s Aktuellt, med programledren Nike Nylander som moderator. Det jag vill göra här är att sätta strålkastarljuset på Johanssons avslutningsreplik, som trots att den blott består av några få meningar utgör ett slags koncentrat av mycket av den ihålighet som brukar prägla det slags AI-riskförnekarargumentation som det här handlar om.⁰

För lite kontext återger jag här även min egen (som det skulle visa sig) sista replik.¹ Min debattmotståndare hade just avfärdat hela den AI-riskforskning jag försöker torgföra som blott bestående av spekulativa filosofiska tankeexperiment, utan förankring i empiriska observationer.

NN:

OH: Det känns inte som att hon har en riktigt aktuell bild av hur AI-riskforskningen ser ut. För tio år sedan så hade det legat ganska mycket i den här bilden. Då dominerades forskningen av tankeexperiment, abstrakta modeller, och så vidare, som man tänkte kring. Men vad som hände då, det var att AI-riskforskare förutspådde med hjälp av de här modellerna att AI-system kan komma att utveckla självbevarelsedrift, och bete sig lögnaktigt och manipulativt, och motstå försök att stänga av dem, och sådana saker. Och de här grejerna, de observerar vi nu, i den ena efter den andra av empiriska studier. Så det här är exempel på de data som man faktiskt börjar se nu. Det finns andra data, som handlar om hur snabbt AI-utvecklingen går, och som ger möjlighet att extrapolera in i framtiden. Ingenting här är säkert, men när man extrapolerar en trend, och den går i alarmerande riktning, då behöver man i alla fall ta den på allvar menar jag.

NN: Moa Johansson, jag vill fråga dig: det här, för oss som inte kan så mycket om det här så är det här väldigt konstigt ändå att ni som kan jättemycket om AI landar i så här helt olika slutsatser. Vad tänker du om det, att ni forskare tycker så här olika om en så otroligt viktig fråga?

MJ: Jag vill då påpeka att som Olle säger att jag inte följt med i någon AI-risklitteratur så tänker jag att Olle Häggström kanske inte ändå har följt med tillräckligt djupt in i den tekniska litteraturen, för då skulle han kunna känna igen att de här scenarierna som han nämner, att AI inte vill bli avstängd, och så vidare, det finns ingen grund för det. Det är, återigen, spekulationer och hype. Man måste skilja på det som är kanske hype, ren reklam från vissa AI-företag som vill släppa en spektakulär pressrelease. Men det stämmer helt enkelt inte att det finns några empiriska fakta att AI-system inte skulle vilja bli avstängda. När man talar om stora språkmodeller, som producerar text, så kan man få en stor språkmodell att säga väldigt mycket olika saker, "jag vill inte bli avstängd", och det beror ju på att stora språkmodeller är tränade på data från internet. På internet finns även alla de här science fiction-historierna som har cirkulerat sedan AI:s födelse. AI, maskinintelligens, är ett av de mest populära ämnena för science fiction, tillsammans med rymdresor.

Här avbröt Nike Nylander med meddelandet att tiden för vårt samtal dessvärre var ute. Jag vet inte om Moa Johansson avsiktligt spekulerade i om det här skulle bli sista ordet, men på det här visat slapp hon i alla fall få de förödande bristerna i sin argumentation påpekade. I annat fall hade jag kunnat lyfta fram någon eller några av följande punkter:

Det är såklart inte behagligt att få sin egen okunskap påpekad i direktsänd TV, men Moa Johansson bäddade själv för detta med sina svepande påståenden om ett forskningsområde som hon uppenbarligen blott har den allra ytligaste bekantskap med, och hennes tu quoque-svar är verkligen bisarrt. Hon påstår att mitt tal om hur man observerat olika slags adversariellt strategiskt agerande hos stora språkmodeller är grundlöst, och att jag skulle ha insett detta om blott jag hade "följt med tillräckligt djupt in i den tekniska litteraturen". Vad blir då hennes diagnos på exempelvis världens mest citerade AI-forskare Yoshua Bengio, eller på världens näst mest citrade AI-forskare tillika Nobelpristagare Geoffrey Hinton, när de säger samma sak som jag i denna fråga? Har inte heller dessa båda herrar "följt med tillräckligt djupt in i den tekniska litteraturen"? Här kan jag känna en impuls att be Moa Johansson att visa mig (och herrarna Bengio och Hinton) de referenser som bevisar att något AI-agerande av det slag vi här talar om inte föreligger. Men min impuls är så klart meningslös: några sådana referenser finns inte, och hennes påstående är gripet ur luften. Eller för att tolka henne en liten aning mer välvilligt: om man som Moa Johansson är förtjust i "stochastic parrots"-begreppet och hör frasen "LLMs are just stochastic parrots" tillräckligt ofta, så kan man till slut få för sig att inga nya emergenta fenomen kan uppstå ur detta papegojande,² glömsk av att den saken motbevisats hundra gånger om de senaste åren.
Moa Johansson försöker påskina att den evidens jag avser för att AI inte vill³ bli avstängd består av yttranden AI gjort av typen "jag vill inte bli avstängd". Om det stannade vid det skulle jag gå med på att evidensen var tämligen svag, för vi vet ju alla att när någon säger sig vilja något kan det inte alltid tas at face value.⁴ Men som Johansson myckt väl vet går de AI-system man experimenterat med längre än så, och agerar för att undgå avstängning. En studie från Apollo Research från slutet av förra året visar t.ex. hur en AI som fått tillgång till dokumentation som tyder på att den kan komma att stängas av om den i tester uppvisar färdigheter på en viss nivå väljer⁵ att i testerna mörka dessa färdigheter. Och en nyare studie från Anthropic visar hur den i samma syfte⁶ (att undgå avstängning) vidtar åtgärder för att försöka⁷ utpressa sin ägare, och i ett extremt scenario till och med mörda denne.
Moa Johansson hävdar att det är till följd av science fiction-historier i träningsdata där fiktiva AI försöker undgå avstängning som vi ser något liknande i laboratorieförsök med existerande AI. Detta är en intressant spekulation, men tvärtemot Johanssons tvärsäkra formulering är det just en spekulation.⁸ Men ok, låt oss för resonemangets skull anta att spekulationen är korrekt. Kan vi då på Johanssons vis avfärda fenomenet? Hon tycks tro det, men som jag skriver om saken i min förra bloggpost: "AI:s förmågor är vad de är, [och] att förklara ett fenomen är inte liktydigt med att påvisa att det inte finns".⁹
När man vill stänga sitt sinne helt för evidens i oönskad riktning kan man, som en sista desperat åtgärd, hävda att evidensen är förfalskad, exempelvis för att skapa "reklam" och att kunna "släppa en spektakulär pressrelease". Uppenbarligen är det så Moa Johansson ser på ovan nämnda studier från Apollo och Anthropic. Att hon sjunkit så djupt i sin argumentation är ett tydligt tecken på hur ohållbar hennes position är.

Men inget av detta fick jag alltså tillfälle att påpeka i Aktuellt-sändningen.

Slutligen. Några av dem som hört av sig till mig efter att ha sett Aktuellt-inslaget har antytt att jag verkade arg. Med anledning härav vill jag understryka att jag absolut inte har något emot samtal och debatter med rejält delade meningar. Så länge alla inblandade håller sig till intellektuellt hederlig argumentation är allt gott och väl, men när någon avviker alltför flagrant från det händer det att min sinnesstämning förmörkas en smula, och detta gäller i extra hög grad när det är en universitetsforskarkollega som förfaller till demagogi och oredlighet. Det kan ha varit något av detta som tv-tittarna anade bakom mitt ack så dåliga pokerface.

Fotnoter

0) Se även Jonas von Essens reflektioner om samma Aktuellt-debatt, i hans pinfärska artikel Riskerna med AI låter som science fiction - men går inte att vifta bort i Ny Teknik.

1) Jag ber läsaren ha översende med vilket slarvigt och ostrukturerat intryck talat språk nästan alltid ger så snart det sätts på pränt.

2) Denna bisarra tanke - analog med med att hävda att eftersom min hjärna blott består av atomer och elementarpartiklar så kan ingen tanke emergera i min hjärna som går bortom det själlösa och triviala interagerandet mellan elementarpartiklar - är dessvärre nödvändig för att ge talet om stokastiska papegojor någon som helst argumentativ stuns.

3) Här är det möjligt att inleda en semantisk diskussion om ordet "vill", och hävda att vilja är ett exklusivt mänskligt fenomen och att det därför är ett kategorifel att diskutera vilja hos en AI. Den sortens direkt cirkulära argument för att underkänna AI:s olika kompetenser per definition är jag dock inte intresserad av. När jag talar om "vilja" i detta sammanhang är det i behavioristisk mening: en AI:s vilja att uppnå något utfall U är de informations- och beräkningsstrukturer i AI:n inre som får dem att agera för att U skall inträffa - oavsett i vad mån dessa strukturer liknar eller skiljer sig från motsvarande hjärnverksamhet hos en människa som vill U. (Det finns flera goda skäl till ett sådant språkbruk, varav ett i AI-risksammanhang särskilt relevant är att det primärt viktiga ur AI-risksynpunkt är hur en AI agerar snarare än hur människolika dess inre maskinerier är.) Vän av ordning som anser att mitt bruk av ordet är en olämplig antropomorfism är välkommen att föreställa sig att jag istället för "vilja" och "vill" skriver "schvilja" och "schvill", samt på motsvarande sätt skriver "schönskan", "schpreferens", "schresonemang", "schkunskap", "schförståelse", och så vidare, men jag avstår helst från dessa fula och i längden tröttsamma sch-prefix.

4) Som när en byråkrat eller en kollega säger "Jag skulle såklart gärna vilja hjälpa dig, men...".

5) Schväljer.

6) Schyfte.

7) Schförsöker. Äh, ni fattar grejen vid det här laget, väl?

8) Ett fullt möjligt, om än dyrt, sätt att testa av hur mycket det ligger i denna spekulation vore att jämte, säg, GPT-5, träna en parallell modell på exakt samma sätt men med den enda skillnaden att sådana science fiction-historier tvättats bort från träningsdatamängden, och se vilken skillnad man kan uppmäta i modellernas tendens till självbevarelsedrift. Gissningsvis finns smartare sätt att testa detta, och jag skulle vara mycket intresserad av att få se resultatet. Moa Johansson däremot hyser knappast något sådant intresse, eftersom hon uppenbarligen anser sig veta svaret på förhand.

9) Jag kan inte föreställa mig annat än att Moa Johansson, som förberedelse för vår Aktuellt-debatt, hade läst min bloggpost. Men trots att jag där alltså påpekar det uppenbart felaktiga i hennes argumentation drar hon sig inte för att helt skamlöst dra samma vals igen för SVT:s tittare.

Fortsatt oenighet bland Chalmersforskare om AI-risk

2025-08-22T16:00:00.012+02:00

Häromdagen, i min förra bloggpost, rapporterade jag om den debatt i tidningen Ny Teknik som började med ett inlägg rubricerat GPT-5 utplånade inte mänskligheten – dags att fokusera på verkliga risker av Chalmersforskarna Henrik Berglund, Devdatt Dubhashi, Moa Johansson och Sandro Stucki den 14 augusti, och följdes dagen efter av min replik Oansvarigt om AI-risker av de fyra Chalmerskollegerna. Vad som hänt sedan dess är dels att Moa Johansson och jag möttes i en kort muntlig diskussion i Sveriges Radios Studio Ett i förrgår (den 20 augusti), dels att hela kvartetten idag (22 augusti) återkommit med en ny text i Ny Teknik rubricerad AI-debatten bör bygga på vetenskap – inte på spekulation. Den har av tidningsredaktionen förärats status av "slutreplik", vilket såklart inte hindrar att jag här på bloggen meddelar mina reaktioner.

Varning vs prediktion

I sin ursprungsartikel den 14 augusti gör Berglund et al stor sak av att jag ett par år tidigare i samma tidning skrivit att vi "inte [kan] ta för givet att vi överlever en otillräckligt säkrad GPT-5", och menar att det faktum att vi trots att GPT-5 släpptes tidigare denna månad ännu är i liv visar att mina varningsord var "förhastade och missriktade". Jag valde att inte säga något i min replik om denna sammanblandning mellan risk och prediktion eftersom utrymmet var begränsat och jag bedömde den vara så urbota dum att det vore onödigt att skriva just detta argumentationsfel Ny Tekniks läsare på näsan. Troligen har dock andra personer hört av sig till författarkvartetten angående detta argumentationsfel, då de uppenbarligen känner sig manade att i sin slutreplik försvara denna argumentation. De kallar det "erbarmligt svagt" att insistera på denna disktinktion och menar att yttrandet av mina varningsord är analogt med att hävda att vi

Jag gratulerar Berglund et al till att ha kommit på denna färgstarka metafor. Låt mig föreslå en alternativ metafor.

En femåring korsar en bilväg medelst metoden att hålla för ögonen och rusa i full fart rakt fram. Berglund får syn på detta, och blir så förskräckt att han griper tag om femåringen och meddelar att metoden är livsfarlig eftersom han (femåringen) kan bli överkörd. Femåringen sliter sig ur Berglunds grepp, och rusar blint tillbaka till den ursprungliga sidan av vägen samt ropar triumferande att Berglunds varningsord var "förhastade och missriktade" i och med att passagen gick bra och inte medförde någon bilolycka. Skillnaden mellan kyrkflytten och bilvägspassagen ligger naturligtvis i graden av rimlighet: i kyrflyttsfallet varnas för ett långsökt och konstlat och rent ut sagt orimligt scenario utan stöd i någon som helst evidens, medan varningen i bilvägspassagefallet rör ett med tanke på evidensläget ytterst rimligt scenario. Så hur skall man då bedöma mina varningsord från 2023? Det hela kokar ned till om det scenario jag varnade för var rimligt. Jag anser att det var rimligt (och därför mer liknar bilvägspassageexemplet) medan Berglund et al anser att det var orimligt. Det är denna orimlighet de behöver påvisa istället för att i generella ordalag döma ut distinktionen mellan varning och prediktion. Tyvärr är det tunnsått i deras debattinlägg med konkret sådan argumentation.

Spekulation vs vetenskap

Berglund et al verkar tro att luddigheten i deras argumentation för att någon risk för AI-katastrof inte föreligger på något sätt trollas bort genom att de tillräckligt många gånger upprepar att deras påstående grundar sig i vetenskaplig empiri. Exakt vari denna empiri består förblir något oklart, och än mer hur den leder till deras tvärsäkra slutsats. Samtidigt säger de i dagens slutreplik att min argumentation "primärt [vilar] på abstrakta, spekulativa tankeexperiment och påminner mer om science fiction än vetenskap". Här får man faktiskt glädjas en smula åt ordet "primärt", som möjligen kan förstås som en uppmjukning jämfört med ursprungsartikeln - sedan jag i min replik länkat till METR och AI 2027 kan de inte längre med att hävda att argumentationen hos oss som tar existentiell AI-risk på allvar är fri från empiri. Det är i så fall ett framsteg, men de borde då inse att vad som behöver göras är att väga de olika empiriska underlagen mot varandra. I stället fortsätter de hojta om science fiction, som om det faktum att datalogiforskningen var så mycket trögare än Hollywood med att reagera på Alan Turings ödesmättade ord från 1951 om att "at some stage [...] we should have to expect the machines to take control" på något vis skulle implicera att existentiell AI-risk inte är på riktigt.

Bida sin tid

En potentiell svårighet med att säkra avancerad AI mot att ha farliga förmågor och böjelser är att en tillräckligt avancerad AI kan välja att mörka dessa och bida sin tid tills dess den blivit ännu mer kraftfull eller på annat vis hamnat i ett bättre läge att skrida till handling. Fullständigt orimligt att så skulle kunna ske, tycker Berglund et al, men eftersom jag i min replik i Ny Teknik länkar till en Anthropic-studie som påvisar empiriskt att redan dagens AI har viss förmåga till sådant rävspel, så kan de inte låtsas okunniga om denna evidens. Istället för att förneka den spekulerar(!) de om denna förmåga möjligen kan bero på att liknande scenarier finns i den science fiction-litteratur som ingår i AI:s träningsdata. Därmed gills det inte, tycks de mena. Men AI:s förmågor är vad de är, oavsett om Berglunds et al spekulation stämmer eller inte. Att förklara ett fenomen är inte liktydigt med att påvisa att det inte finns.

Brist på konsensus

Berglund et al skriver i dagens inlägg att det "finns verkligen ingen konsensus i fältet om att uppskalning av dagens AI-modeller skulle leda till vare sig AGI [...] eller än mindre till uppkomsten av AI med plötsliga, okontrollerbara förmågor". Jag känner såklart till detta. Vissa forskare anser AGI vara inom nära räckhåll medan andra lutar åt motsatt slutsats. Inte heller jag känner mig tillnärmelsevis säker i denna fråga, och inget i min argumentation för att ta existentiell AI-risk på allvar bygger på någon tvärsäkerhet om vad som kommer att hända. Men till skillnad från Berglund et al menar jag att en sådan brist på konsensus ger anledning till ödmjukhet och försiktighet snarare än till slutsatsen att risken är noll.

Ad hominem

"Jag är AI-forskare, jag har god teknisk kunskap", kände sig Moa Johansson manad att framhålla i onsdagens radiodebatt, och i dagens Ny Teknik-artikel återkommer hon och hennes medförfattare med viss pompa till hur kompetenta de minsann är. Men medan Johansson i radioinslaget stannade vi det och lät påståendet att jag saknar denna kompetens förbli underförstått, så går de i artikeln vidare och hävdar att "Häggström följer [...] inte den tekniska litteraturen" inom AI. Även om vi för resonemanget skull antog att påståendet är sant, så uppstår frågan: hur tusan vet de vilken litteratur jag följer eller inte följer? Det här är rent hittepå från Berglund et als sida.

Vart vill de då komma med detta? Jo, de ansluter sig till medförfattaren Devdatt Dubhashis uppfattning att den enda kompetens som räknas inom AI är den där man "bidrar aktivt till den tekniska AI-utvecklingen". Dubhashi har i snart tio år kampanjat (till en början i direkt konfrontation med mig, men på senare år mestadels bakom min rygg) för att jag bör hålla truten eller i annat fall inte lyssnas på eller erbjudas diverse plattformar, med hänvisning till att jag inte uppfyller hans ytterst specifika krav på vad som är verklig AI-kompetens. Kompetens inom områden som AI-risk och AI-futurologi räknas inte - faktiskt inte ens i diskussioner som (likt denna) handlar om just dessa områden.

Förlåt min franska, men jag finner det direkt fåraktigt av Berglund et al att driva denna argumentation, och det av två skäl. För det första är den analog med den (förhoppningvis uppenbart!) flänga idén att man i diskussioner om låt oss säga jordbrukets framtid skulle behöva vara bonde för att förtjäna att tas på allvar. För det andra är den linje jag här driver i stora drag densamma som den Geoffrey Hinton förfäktar, så för att Berglund et als ad hominem-attack skall fungera så behöver de påvisa att inte heller Hinton "bidrar aktivt till den tekniska AI-utvecklingen". Nog för att Berglund et al hävdat många konstiga saker, men en fullt så flagrant felaktighet tror jag inte att de vill försvara.

Nåväl, gör då inte jag mig skyldig till motsvarande ad hominem-argumentation då jag i min Ny Teknik-replik kommenterar en dumhet i Berglund et als ursprungsartikel med att "allt de därmed påvisar är den egna okunnigheten om AI-risklitteraturen"? Nej, jag tycker inte det, eftersom det jag skriver uppenbart är tänkt inte som en kommentar om dem som personer, utan om felen i deras artikel. Nu påstår de att "i motsats till vad Häggström tror är vi bekanta även med [AI-risk-litteraturen]". Jaha minsann. Hur skall man då förklara att Johansson i radioinslaget upprepade gånger ger uttryck för föreställningen att AI-risk-litteraturen kopplar existentiell AI-risk till fenomenet medvetande, eller att de i sin ursprungsartikel för ett resonemang som förbiser "bida sin tid"-fenomenet (se ovan), eller deras ständiga påståenden om att denna litteratur är fri från empiri? Jag trodde faktiskt att jag gav dem the benefit of the doubt genom antagandet att dessa exempel bottnade i bristande bekantskap med litteraturen ifråga, men om vi skall ta på allvar deras insisterande på att de faktiskt besitter denna bekantskap, då blir slutsatsen istället att de låtsas okunniga för att lättare kunna göra sina retoriska poänger. Eller med andra ord, de narras!

Skrämselpropaganda

Redan 2023 anklagade Dubhashi och Johansson (i en lite annan författarkonstellation) mig för "skrämselpropaganda", ett ord som återkommer i båda deras nu aktuella Ny Teknik-artiklar. I den sista av dessa varierar de också sitt språkbruk en smula och talar även om "alarmism".

Very well. Den situation vi (mänskligheten) befinner oss i med anledning av den framrusande AI-utvecklingen är ohyggligt skrämmande. Om det räknas som "skrämselpropaganda" att tala klarspråk om detta - må så vara. Vad Berglund et al dock bör vara medvetna om är att de med den sortens okvädningsord bidrar till ett samtalsklimat där det blir svårare för forskare som tycker sig se stora samhällsfaror på något område att slå larm.

Sammanfattning

Diskussionen i Berglunds et al ursprungsartikel den 14 augusti var på en nivå som jag inte tycker borde anstå universitetsforskare, och den blev knappast särskilt mycket bättre i dagens slutreplik. I min replik den 15 augusti avslutade jag med en släng om hur genant det var att arbeta vid samma lärosäte som en grupp forskare som tillåter sig denna nivå. Det står jag fast vid, men det är egentligen inte det som är det riktigt allvarliga. Det riktigt allvarliga är att de genom sin desinformtionskampanj försvårar uppkomsten av den breda och samtidigt rationella och faktabaserade publika diskussion om AI-risk som vi så väl behöver om vi skall kunna sätta stopp för den extremt farliga utveckling som nu pågår.

Fotnot

1) Kyrkflytten färdigställdes igår, och deras text verkar vara författad dessförinnan.

Tillägg 27 augusti 2025:

Igår, den 26 augusti, fich jag möta Moa Johansson ännu en gång, denna gång i SVT:s Aktuellt (med start ca 22:40 in i sändningen). Jag kan inte tänka mig annat än att hon som en del av sina förberedelser läst denna bloggpost, men hennes inlärningskurva² förefaller dessvärre ganska platt, då hon i sändningen upprepade såväl sitt svepande och felaktiga påstående om bristen på empiri inom AI-riskforskningen som det bisarra argument jag diskuterar i avsnittet Bida sin tid ovan.

Chalmersandan!

Fotnot tillagd den 24 september 2025

2) Det har kommit till min kännedom att det i interna Chalmersdiskussioner förekommit illvilliga tolkningar som går ut på att mitt tal om "inlärningskurva" skulle vara en antydan om att Moa Johansson är ointelligent. Detta vill jag å det bestämdaste tillbakavisa.

Jag anser inte att Moa Johansson är ointelligent, och skulle aldrig komma på tanken att kalla henne det. Att kalla en Chalmerskollega ointelligent vore inte bara tölpaktigt och dålig ton, utan vore i detta fall rent ut sagt dumt: Min linje gentemot de fyra Chalmerskollegorna i den aktuella debatten har konsekvent varit att peka på hur intellektuellt ohederligt de debatterar, och att klandra dem för detta. Ohederlighet har inget med ointelligens att göra, så att mitt i den debtten plötsligt anklaga någon av dem för ointelligens vore en irrelevant och föga ändamålsenlig avvikelse från ämnet. Och det har jag mycket riktigt inte gjort.

Intrycket att en "inlärningskurva förefaller [...] ganska platt" (för att nu citera vad jag skriver ovan) kan uppstå på flera olika sätt, varav två är (a) att personen vars inlärningskurva det handlar om är ointelligent, och (b) att den nya kunskap det handlar om av något skäl är obekväm för personen ifråga, som därför inte låtsas om den. Att någon av de fyra kollegorna, eller någon av deras fans, vill framställa mig i så negativ dager som möjligt och därför väljer tolkning (a) är måhända inget att förvåna sig över. Men ingen som på allvar skärskådar den aktuella passagen, och zoomar ut lite och tar in kontexten, kan rimligtvis missa att det givetvis är (b) jag avser. Och om jag nu skall vara övertydlig och explicit skriva ut allt som står mellan raderna där, så blir det ungefär

Ny Teknik

Ett lite kortare sätt att uttrycka samma sak och som inte heller tillskriver henne ointelligens vore att säga "Spela inte dum!".

Oenighet bland Chalmersforskare om AI-risk

2025-08-16T14:30:00.005+02:00

För den som följt denna blogg noggrant i några år kommer förekomsten av djupa oenigheter mellan olika Chalmersforskare i frågor som rör AI-risk knappast som någon överraskning, men nu har de nått offentligheten igen. Lite förenklat kan det sägas föreligga två falanger, där den ena hävdar antingen att existentiella AI-risker (alltså sådana som handlar om eller är i nivå med utrotning av mänskligheten) är ett hjärnspöke eller att de av andra skäl bör förtigas, medan den andra (vilken jag tillhör) menar att dessa risker behöver tas på stort allvar, jämte de mer jordnära AI-risker som rör bias, deepfakes, havererande examination av studenter, etc. Det som nu hänt är att fyra företrädare för det första falangen skrivit en debattartikel med rubriken GPT-5 utplånade inte mänskligheten – dags att fokusera på verkliga risker och fått den publicerad i Ny Teknik i torsdags, den 14 augusti 2025. Artikeln är påfallande illa argumenterad - så till den grad att läsare lätt kan få intrycket att förmågan till strukturerat och logiskt tänkande inte är något krav för en forskartjänst på Chalmers - och för den som värnar om lärosätets goda rykte kan detta eventuellt ses som skäl till att ignorera den i hopp om att den skall tigas ihjäl.

En sådan taktik är dock vanligtvis inte min melodi, och jag finner frågor om AI-risk oerhört viktiga och är angelägen om att reda ut missförstånd och missuppfattningar på detta område. Dessutom råkar det vara så att de fyra artikelförfattarna - Henrik Berglund, Devdatt Dubhashi, Moa Johansson och Sandro Stucki - formuerar sitt debattinlägg som ett svar på en text jag skrev i samma tidning den 24 mars 2023 (alltså för nära två och ett halvt år sedan!), och att tidningsredaktionen omedelbart efter publiceringen bjöd in mig att skriva replik. Detta resulterade i en text som publicerades dagen efter (alltså igår) med rubriken Oansvarigt om AI-risker av de fyra Chalmerskollegerna, i vilken jag på ett förödande (om än inte uttömmande) vis pekar ut några av bristerna i Berglunds et al argumentation. Vi får se om detta blir sista ordet, men jag har en föraning om att så inte är fallet. Så här börjar mitt inlägg:

en teckning

Det är naturligtvis en allegori för AI-utvecklingen. Ända sedan 1950-talet har AI-forskningen haft som vision att så småningom skapa övermänskligt kapabel AI. Lika långt tillbaka går varningarna för att mänskligheten om detta lyckas kan komma att förlora kontrollen. Alan Turing framhöll det i ett känt uttalande från 1951, och bland de många nutida experter som varnar för att det i värsta fall kan leda till slutet för Homo sapiens finns världens tre mest citerade AI-forskare Yoshua Bengio, Geoffrey Hinton och Ilya Sutskever, varav Hinton som bekant förra året belönades med Nobelpriset för att ha lagt en stor del av grunden till dagens rasande snabba AI-utveckling.

Länge framstod superintelligent AI som något ganska avlägset, men vi står nu på randen till ett skifte i AI-utvecklingen där de skickligaste AI-utvecklarna inte längre är människor av kött och blod utan AI-systemen själva. Detta medför ett slags turbofeedback i utvecklingen som kan få den att skena bortom all kontroll, och det är till stor del denna mekanism som får ledande experter att varna för att livsfarlig superintelligens kan bli en realitet redan före 2030.

Likt den andra apan i Wienersmiths teckning vill Henrik Berglund och tre andra Chalmersforskare i Ny Teknik den 14 augusti vifta undan den sortens varningsord. De uppmanar till att ”spekulera lite mindre” och att fokusera helt på de mer jordnära risker som redan existerande AI-system ger upphov till. Det finns naturligtvis gott om sådana problem vi bör hantera – deepfakes, maktkoncentration, med mera – men vad Berglund och hans medförfattare inte tycks inse är att deras förslag att ignorera de mer avancerade risker som framtida AI kan medföra i sig bygger på en tämligen avancerad spekulation, nämligen att AI-utvecklingen inom några månader skall komma att avstanna helt. Och visst, i princip skulle det kunna bli så, men att ta det för givet är oansvarigt på en nivå som riskerar mänsklighetens överlevnad.

Läs gärna fortsättningen här!

With great power comes great responsibility

2025-08-07T08:15:00.005+02:00

As I've argued at length elsewhere (and nowhere at greater length than in my latest book), what is currently going on at the leading AI companies in Silicon Valley and San Francisco is likely to have stupendous influence on our lives and the entire future of humanity. Their ambitions for the intended transformation of society are on a stratospheric and hitherto unmatched level, but so are the risks. With great power comes great responsibility, yet they are proceeding at reckless speed, and they have not asked us for permission to risk our lives. It is hardly an exaggeration to call their behavior a unilateral moral trespass against humanity.

I expand on this matter in my brand-new manuscript Advanced AI and the ethics of risking everything, which also serves as a complement to my latest blog post, on OpenAI's CEO Sam Altman, in which I express my opinion about his behavior in just a few crisp swear words. In the new text I elaborate more extensively and with somewhat more polished language. Here is how it begins:

In a Hollywood movie, you would probably say yes. But this is real life and you are not insane, so of course you politely decline the driver’s reckless suggestion.

Next consider Sam Altman, CEO of OpenAI, facing the decision of whether to release the newly developed GPT-5. (There’s a good chance that when this reaches the reader, release of GPT-5 has already happened, but at the time of writing, in August 2025, it is still a hypothetical future event.)

Read the rest of my manuscript here!

On Sam Altman

2025-08-01T10:30:00.015+02:00

Sam Altman is CEO of OpenAI, and in that capacity he qualifies easily on my top ten list of the world's most influential people today. So when a biography of him is published, it does make some sense to read it. But Keach Hagey's The Optimist: Sam Altman, OpenAI, and the Race to Invent the Future turned out to be a disappointment.¹ One of the things I want most from a biography, regardless of whether it is about someone I admire or someone I consider morally corrupt, is a window into the subject's inner world that allows me (at least to some extent) to understand and to empathize with them. The Optimist does not achieve this, because even though the main focus of every chapter of the book is Altman, he remains an opaque and distant character throughout. I am uncertain about whether this opacity is a personality trait of Altman (despite his often powerful and spellbinding stage performances) or a shortcoming of the book. What perhaps speaks for the latter interpretation is that all the supporting characters of the book come across as equally distant.

Overall, I found the book boring. Altman's childhood and adolescence is given only a very cursory treatment, and the description of his adventures with his first startup Loopt is equally shallow but filled with Silicon Valley and venture capital jargon. Especially boring is how, about a dozen times, the author starts a kind of one-page mini-biography of some supporting character, beginning with their place of birth and parents' occupation, etc, but one is never rewarded with any insights to which this background information comes across as particularly relevant. Somewhat more attuned to my interest are the later chapters of the book, about OpenAI, but to those of us who have been following the AI scene closely in recent years, there is very little in the direction of new revelations.

One aspect of Altman's personality and inner world that strikes me as especially important to understand (but to which the book does not have much to offer) is his view of AI existential risk. Up until "the blip" in November 2023, it seemed that Altman was fairly open about the risk that the technology he was developing might spell doom - ranging from his pre-OpenAI statement that "AI will probably most likely lead to the end of the world, but in the meantime there will be great companies created" to his repeated statements in 2023 about the possibility of "lights out for all of us" and his signing of the CAIS open letter on extinction risk the same year. But after that, he became suddenly very quiet about that aspect of AI. Why is that? Did he come across some new evidence suggesting we are fine when it comes to AI safety, or did he just realize it might be bad for business to speak about how one's product might kill everyone? We deserve to know, but remain in the dark about this.

In fact, Altman still leaks the occasional utterance suggesting he remains concerned. On July 22 this year, he tweeted this:

done in 5 minutes. it is very, very good.

not sure how i feel about it...

To which I replied, on a different social media platform:²

Sam Altman, you creep, excuse my French but could you shut the f*** up? Or to state this a bit more clearly: if you feel conflicted because your next machine might do damage to the world, the right way is not to be a crybaby and treat your four million Twitter followers and all the rest of us as if we were your private therapist; the right way is to NOT BUILD THAT GODDAMN MACHINE! That is, in a sense, worse language than I usually employ, but in this case I consider it warranted.

Footnotes

1) Another Altman biography, Karen Hao's Empire of AI, was published this spring, almost simultaneously with Hagey's. So perhaps that one is better? Could be, but Shakeel Hashim, who has read both books, actually likes The Optimist better than Empire of AI, and a lot better than I did.

2) In late 2023 I left Twitter in disgust over how its CEO was using it.

Om de kommande 25 åren

2025-07-14T10:30:00.002+02:00

Är det troligt att AI-utvecklingen kommer av sig och att perioden fram till 2050 kommer att präglas av stagnation? Karim Jebari svarar ja i sin artikel Minns ni millennieskiftet? Snart är det 2050 i DN i onsdags. Den är läsvärd, om än inte övertygande i dess centrala budskap, så jag lät mig provoceras att skicka in en replik till DN, som dock har avböjt publicering. Refuseringsbrevet åtföljdes inte av någon närmare motivering än ”dessvärre”, varför fältet ligger fritt för spekulationer om huruvida redaktionen anser att förhindrandet av en AI-apokalyps är en preifer och oviktig fråga, eller helt enkelt att min text är illa skriven. Döm själva, här är min replik:

Dags att ta AI på allvar

En förkrossande majoritet av alla framtidsanalyser man idag finner i dagspress och på annat håll verkar – oavsett om de handlar om klimatförändringar, demografi, geopolitik, ekonomisk tillväxt eller andra samhällsaspekter – vila på ett och samma outtalade men ganska djärva antagande. Den närmast totala frånvaron av AI i de scenarier som diskuteras kan nämligen bara förstås som att man tar för givet att AI-utvecklingen inom mycket kort kommer att plana ut, och att inte heller den AI som redan finns kommer att få några genomgripande samhällskonsekvenser.

Skälet till att jag kallar antagandet djärvt är att vi idag, 2025, befinner oss i en skenande AI-utveckling där vi står på tröskeln till ett nytt skede där denna utveckling inte främst drivs av AI-forskare av kött och blod, utan av AI-systemen själva. Inom något år eller två kan dessa system väntas överträffa även de vassaste mänskliga mjukvaruutvecklarna och AI-forskarna, något som i så fall skapar ett slags turbofeedback som kan komma att accelerera utvecklingen ytterligare. Eventuellt kan det hela komma att kulminera i det som visionärer på området kallat intelligensexplosion eller singularitet, där AI uppnår så kallad superintelligens, långt bortom mänskliga nivåer. Såväl företrädare för ledande AI-bolag inklusive OpenAI och Anthropic som mer oberoende experter talar alltmer om detta som något som kan komma att realiseras under innevarande årtionde, alltså före 2030.

Inget av detta är ristat i sten, och teknisk utveckling är notoriskt svår att prognosticera, men jag menar att sådana scenarier behöver tas på största allvar. Ändå ignoreras de helt i den bredare framtidsdiskurs jag pekade på i inledningen. Även min framtidsforskarkollega Karim Jebari (DN 9/7 2025) tror mer på stagnation än på singularitet, men jämfört med nämnda diskurs har hans framställning en stor fördel: antagandet tydliggörs explicit. Därmed kan det både kritiseras och försvaras, istället för att bara tas för givet. Jebari försvarar sitt stagnationsscenario med ett antal faktorer som han tror kan bromsa AI-driven tillväxt. Han talar bland annat om en åldrande befolkning, om behovet av att hantera klimatförändringar, och om de praktiska svårigheterna med att implementera AI-lösningar i samhälle och industri. Allt detta är beaktansvärda aspekter, men min bedömning är att om väl turbon i AI:s självförbättringsspiral kommer i gång på allvar så blir deras bromsande inverkan marginell.

En annan dygd Jebari uppvisar i sin text (utöver tydliggörandet av antaganden) är att han inte tvärsäkert slår fast sina prognoser utan uppvisar intellektuell ödmjukhet. Kanske det stora AI-genombrottet – det han kallar ”en andra digital revolution” – trots allt blir av? Men när han föreslår att dess påverkan på samhället och våra liv under perioden 2025-2050 i så fall kan väntas bli i nivå med förändringarna under tillväxtperioden 1945-1970 tyder det på att han trots allt inte på allvar förmår föreställa sig effekterna av superintelligent AI. Ta bara en sådan sak som att vi med en sådan hamnar i ett läge där allt mänskligt arbete onödiggörs, något som torde medföra samhällsförändringar ojämförligt större än dem vi sett under efterkrigstiden.

Och kommer mänskligheten att i närvaro av en ännu intelligentare art alls att kunna behålla kontrollen? Denna ödesmättade fråga lyfte fysikpristagaren Geoffrey Hinton – ofta beskriven som AI-utvecklingens ”gudfader” – i sitt tal på Nobelbanketten 2024, och varken de ledande AI-bolagen eller någon annan har idag några säkra svar på hur mänsklig kontroll skall kunna säkerställas.

De flesta medborgare är ännu omedvetna om de enorma risker som den pågående AI-kapplöpningen medför: ett slags rysk roulette med hela vår fortsatta existens i potten. Många skulle nog hävda att riskerna är oacceptabla, men för att protestera behöver man först och främst känna till dem. Det är därför en viktig demokratifråga att våra framtidsdiskussioner blir bättra på att lyfta den avgörande roll AI-tekniken kan komma att få.

Pro tip on discussions about AI xrisk: don't get sidetracked

2025-06-18T17:00:00.006+02:00

In my experience, a quite frequent dynamic in discussions about existential risk (xrisk) from AI is that my conversation partner remains skeptic about the reality of such risk, but before that issue has been even the slightest bit resolved they propose to change the subject to some neighboring topic, such as one of the following.

But if (for the sake of argument) the risk is actually real, is there anything at all we can do about it?
But doesn't this whole xrisk issue just distract from more pressing near-term AI risks which we ought to discuss instead?
But evolution moves on, so what's the big deal anyway if humanity is replaced by some superior new kind of beings?

In all three cases, my recommendation (based on years of experience from having these discussions) is to avoid getting sidetracked and to insist on getting clear on the is-AI-xrisk-a-real-thing issue before moving on, and I will explain why. The explanations will be a bit different in the three cases, so I'm not sure how well my advise generalizes to other change-of-topic proposals, and I can in fact easily think of other more benign such proposals where I would happily oblige, such as "OK, let's agree to disagree, but how about if we go grab a beer and discuss [X]", where X could be anything ranging from tonight's football game to the scandal of Douglas Adams never having been rewarded the Nobel Prize in literature. On to the three cases:

But is there anything we can do?

I think the question of what we can do to mitigate or entirely avoid AI xrisk is very important and very difficult, and I am super happy to discuss it, provided my discussion partner is on board with the idea that the risk may be real. If he or she is not, I will politely decline to discuss this topic, because from their point of view there is no real problem to be solved, and if I agree to discuss it anyway their contribution to the discussion therefore tends not to be very constructive. When we enter the realm of AI governance (as it nowadays tends to do fairly quickly, because as opposed to just 4-5 years ago I no longer believe that technical AI alignment on its own has much chance of saving us from AI catastrophe without assistance from politics and legislation), they will bombard me with questions such as "What about China?", "What about Trump?", "What about the relentless market forces?", and so on. These are all valid questions, but as the deck is currently stacked they are also extremely difficult, to the extent that even a moderately clever discussion partner who is not interested in actually solving the problem but merely in playing devil's advocate is likely to win the argument and triumphantly conclude that I have no clear and feasible plan for avoiding catastrophe, so why am I wasting people's time by going on and on abut AI xrisk?

And here's the thing. Many of those who play the devil's advocate in this way will be aiming for exactly that turn of the conversation, and will implicitly and possibly unconsciously believe that at that point, they have arrived at a reduction ad absurdum where the assumption that AI xrisk is real has been shown to be absurd and therefore false. But the reasoning leading to this reductio doesn't work, because it relies on (something like) the assumption that the universe is a sufficiently benign place to not put humanity in a situation where we are utterly doomed. Although this assumption is central to various Christian thinkers, it is in fact unwarranted, a horrible realization which is core to the so-called Deep Atheism of Eliezer Yudkowsky, further elaborated in recent work by Joe Carlsmith.

To reiterate, I do think that the AI governance questions on how to stop actors from building an apocalyptically dangerous AI are important, and I am very interested in discussing them. They are also difficult - difficult enough that I don't know of any path forward that will clearly work, yet we have far from exhausted all such possibilities, so the challenges cannot at this stage be dismissed as impossible. I want to explore potential ways forward in intellectual exchanges, but am only prepared to do it with someone who actually wants to help, because the field is so full of real difficulties of which we who work in it are so highly aware that our primary need is not for additional devil's advocates to repeat these difficulties to us. Our primary need is for the discussions to be serious and constructive, and for that we need discussion partners who take seriously the possibility of AI xrisk being real.

But distraction?

So what about the suggestion to put the AI xrisk issue aside, on account of it just being a distraction from more pressing concerns coming out of present-day AI systems? These are concerns about things like AI bias, copyright issues, deepfakes and the AI-driven poisoning of our epstemic infrastructure. I have two problems with this suggestion.

The first is terminological. Calling those kinds of more down-to-Earth AI issues "near-term", in contrast to AI xrisk which is called "long-term", may have had some logic to it in the bygone era of the 2010s when most of us working on AI xrisk thought the crucial events such as an intelligence explosion and/or the extinction of humanity were at least decades away. Now that there seems to be a very serious possibility that these may happen within the next five years or so (see, e.g., Daniel Kokotajlo et al's seminal AI 2027), insisting on this near-term vs long-term terminology has become highly misleading. My near-term survival may well depend on preventing an existential AI catastrophe!

My second problem with the change-of-topic suggestion is more substantial, and lies in whether the term "just" (as in "AI xrisk is just a distraction") is justified. Well, I claim that in order to judge that, we need to work out whether or not AI xrisk is a real thing. If it is not a real thing, then of course discussing it is just a distraction from more pressing real-world issues, and we should switch topics, whereas if it is a real thing, then of course it is a topic that warrants discussion, and not "just a distraction". Hence, to judge the case for changing topics on account of AI xrisk being "just a distraction", we have no choice but to continue discussing AI xrisk until we have reached a verdict on whether or not it is a real thing. As long as we disagree about that the suggested change of topic is premature.

To avoid any misunderstanding here, let me emphasize that I think many down-to-Earth problems with present-day AI are important to discuss. But there are plenty of times and places to do so, in parallell with discussions elsewhere on AI xrisk. There really isn't any need to abort the few discussions taking place about AI xrisk to leave room for those other AI discussions. See my paper On the troubled relation between AI ethics and AI safety for more on this.

But evolution?

So what about the question of whether humanity being replaced by a society of advanced AIs is a good thing or a bad thing? This is an interesting and serious philosophical question, involving whether to employ an ethics that is from the point of view of humanity, or a more objective one that is more from the point of view of the universe. There are surprisingly many thinkers within the AI sphere, including names like Larry Page, Robin Hanson, Hugo de Garis and Richard Sutton, who claim it is not a bad thing at all; see, e.g., this tweet by Andres Critch and Section 7 of my paper Our AI future and the need to stop the bear. And yes, I am happy to discuss it. But not with someone who is not yet on board with AI xrisk being a real thing, because to them the issue is merely theoretical, making them less capable of seeing the seriousness of the matter and of feeling the moral force of wanting to prevent the omnicidal murder by AIs of you and me and all our loved ones along with the remaining eight billion humans. If I agree to the proposed change of discussion topic, I run the risk of assisting my discussion partner, who was perhaps originally just driven by a lust for philosophical sophistication or contrarianness, in painting themselves into a philosophical corner, making it more difficult for them to wake up to the horror of omnicide once we get to the point where they realize it may actually happen.

Concluding remarks

Every discussion context is unique, and most of them are challenging in their own ways. In particular, standing on stage during a Q&A session with a room full of skeptics is usually more challenging than a one-on-one. I therefore fully expect to sometimes be sidetracked in future discussions in precisely the directions that I above recommend avoiding, and the same thing might well happen to the reader. But even when that happens, I believe having thought through the meta-concerns I raise above may be beneficial for the continued discussion.

Explaining AI xrisk convincingly to skeptics is not an easy thing to do, even of one's basic reasoning on the matter is correct. One reason for this is that people have such wildly varying intuitions on this topic, and tend to get hung up on very different issues - or in Liron Shapira's colorful language, there are many "stops where you could get off the Doom Train". Consequently, there are many different places where the conversation can go astray. Ideally it would be good to have a handbook, cataloguing all of them along with instructions on how to avoid or escape these traps, but for the time being we'll have to make do with more scattered and less systematic treatments of some of these traps, which is the kind of thing I try to do in this blog post.

If the reader aspires to become a better communicator of AI xrisk ideas, what can he or she do? I think this is very much a case where mastery comes with practice. It may take a long time, and after nearly 15 years of such practice I am still working on it. Along with that, it also helps to listen to masters like Rob Miles and the aforementioned Liron Shapira, and to read some modern classics such as the exemplary synthesis The Compendium by Connor Leahy and coauthors.

Fläng eftersläng från Erik Svensson

2025-06-16T20:30:00.019+02:00

Det fanns en tid för sisådär 10-15 år sedan då jag betraktade den lundabaserade biologiprofessorn Erik Svensson som allierad, mest tack vare hans tydliga ställningstaganden i klimatfrågan. Så småningom kom dock denna allians att alltmer urholkas, dels av vad jag uppfattade som en tendens hos honom till vårdslöshet med fakta, dels av att det från den ryska Kriminvasionen 2014 och framåt uppenbarades att han bar på det slags besynnerliga proryska sentimentalitet som inte är helt ovanlig i vänsterkretsar av avgrundskaraktär. Som trogna läsare av denna blogg känner till så hör dessa båda egenheter till dem jag har allra svårast att fördra då jag träffar på dem hos mina medmänniskor. Vår vänskapliga relation lyckades ändå hanka sig fram hyggligt några år till.

Men så kom pandemin, vilket till slut blev för mycket. Erik bestämde sig genast för att betrakta den svenska Folkhälsomyndigheten FHM och dåvarande statsepidemiolog Anders Tegnell som ofelbara auktoriteter, medan jag tidigt fann oroande tecken på långtgående inkompetens hos dem, en bild om under pandemins lopp kom att förstärkas ytterligare. Erik och jag hade via sociala medier flera affekterade gräl om covid-frågor under 2020, och har inte kommunicerat sedan dess.¹

Jag har under de år som gått sedan dess inte ägnat Erik många tankar. Emellertid, sedan han nu i sin aktuella text Pandemidebatten i backspegeln – vilka slutsatser kan vi dra i nättidningen Opulens gått till bisarrt angrepp mot mig vill jag ändå ta till orda.

En av utgångspunkterna för Eriks text i Opulens är att Sverige i en internationell jämförelse totalt sett klarade sig relativt bra ur pandemin. Det är helt riktigt, och påståendet är lätt att belägga med statistik rörande exempelvis den överdödlighet pandemin orsakade i olika länder, där Sverige ligger lägre än de flesta andra europeiska länder. Jag tror och hoppas att Erik håller med mig om att detta i sig inte automatiskt implicerar vare sig att den svenska covidpolitiken varit optimal på alla punkter eller att all kritik mot FHM varit osaklig och dum. Men den som läser hans ensidigt agiterande text kan lätt få för sig att han drar dessa slutsatser.

Erik marknadsför sin artikel på plattformen X, tidigare känd som Twitter, med meddelandet att han kritiskt granskar "några av de debattörer [...] som körde i diket under pandemin", varpå han nämner ett antal av dessa påstådda dikeskörare vid namn, inklusive mitt. Den dikeskörning han i mitt fall syftar på är den artikel på DN Debatt den 30 april 2020 som bar rubriken Alternativ coronastrategi för Sverige kan rädda liv och som jag skrivit och undertecknat ihop med fyra medförfattare: Olof Johansson Stenman, Joacim Rocklöv, Stefan Schubert och Markus Stoor. Vår artikel, författad i ett läge då covidpandemins första våg i Sverige fortfarande var i kraftigt stigande och ingen visste vart det hela skulle ta vägen, gick i korthet ut på följande.

Svensk coronadebatt hade fram till den aktuella tidpunkten, i april 2020, nästan helt förbisett det mest fundamentala vägvalet i utformningen av en pandemihanteringsstrategi: det mellan vad som i den vetenskapliga litteraturen benämns suppression kontra mitigation. Det förstnämnda innebär att man trycker ned antal smittade så långt det praktiskt är möjligt, i syfte att en så liten del av befolkningen som möjligt skall nås av smittan, medan mitigation (eller på svenska bromsstrategi) bygger på att det ses som oundvikligt att smittan sveper genom befolkningen tills dess så kallad flockimmunitet uppstått, och de åtgärder som vidtas mot smittspridningen ute i samhället främst handlar om att sakta ned förloppet så att inte sjukvården överbelastas av alltför många sjuka samtidigt. Vilken av dessa strategier som är bäst skickad att minimera pandemins skadeverkningar beror i hög grad på smittämnets olika egenskaper - i synnerhet dess reproduktionstal R₀ och dess dödlighet jämte övriga mått på dess skadeverkningar på den som smittats. Det vetenskapliga kunskapsläget i april 2020 kring dessa och andra egenskaper hos covidviruset var fortfarande väldigt långt från fullständigt, något som i om möjligt än högre grad gällde frågor om eventuella kommande mutationer av viruset och om när och i vilken mån effektiva vacciner var att vänta. Dessa olika osäkerheter var alltjämt så stora att vi bedömde det som en vidöppen fråga huruvida det bästa i rådande läge var att (som FHM) satsa på mitigation, eller att (som flertalet av motsvarande smittskyddsmyndigheter i andra europeiska länder) förorda suppression, och vår enkla poäng var att asymmetrin i kostnader (inräknat såväl BNP etc som människors liv och hälsa) mellan de två typerna av fel man kan göra talade för en flexibel försiktighetsstrategi där man initialt och i avvaktan på ett förbättrat kunskapsläge tillämpar suppression. Asymmetrin består i att ifall den fortsatta utvecklingen tyder på att mitigation hade varit bättre har man med en sådan försiktighetsstrategi visserligen dragit på sig en del onödiga samhällskostnader förknippade med lockdowns och liknande, men dessa kostander är måttliga jämfört med de tiotusentals eller ännu fler liv som hade riskerat gå till spillo om man istället chansat på en mitigation-strategi men det senare visar sig att suppression hade varit bättre.

Så långt vår artikel i april 2020. Med facit i hand tyder det mesta på att Sverige inte hade klarat sig bättre genom pandemin om FHM anammat vårt förslag jämfört med att fortsätta med sin mitigation-strategi. Att det skulle sluta på det viset var dock knappast möjligt får någon att veta i det läget (inte för Tegnell eller för någon av hans utländska statsepidemiologkollegor som gjorde andra vägval, inte för mig eller någon av mina medförfattare i DN, och inte heller för Erik Svensson). Ändå är såklart Erik i sin fulla rätt att agera efterklok och till följd av sin så kallade hindsight bias hävda att vårt förslag var dumt.

Men det är inte det jag vill kritisera här, utan hans mer specifika argumentation mot vår DN-artikel, en argumentation jag finner helt bisarr. Den består nämligen uteslutande av att varv efter varv och i stycke efter stycke upprepa att en USA-baserad bloggare vid namn Tomas Pueyo saknar relevanta akademiska meriter och att dennes bloggpost The hammer and the dance från mars 2020 inte genomgått vetenskaplig peer review. Det är allt Erik anför, och det är fullkomligt irrelevant för budskapet i vår DN-artikel.

Jag vill inte göra anspråk på någon större inblick i vad som egentligen pågår i Erik Svenssons inre, men intrycket man här får av hans Opulens-artikel är att han tror att Pueyo är hjärnan bakom den suppression-strategi vi i DN-artikeln framhöll som ett beaktansvärt alternativ till mitigation.² I så fall har jag några följdfrågor. Tror Erik alltså att det är Pueyo som utarbetat strategin för (den relativt framgångsrika) bekämpningen av ebolaviruset från 1970-talet och framåt? Tror han också att Pueyo är den hemlige mastermind som ligger bakom covidhanteringsstrategierna våren 2020 i en lång rad länder (inklusive Storbritannien, Norge, Danmark och Sydkorea, för att nu nämna de exempel vi tog upp i DN-artikeln)?³

För att vara fullkomligt explicit, låt mig förklara att suppression-strategin, tvärtemot Eriks bisarra påstående i Opulens-artikeln att det rör sig om "en helt ny och oprövad pandemistrategi", går långt tillbaka, och alltså inte har sitt ursprung i Pueyos bloggpost från mars 2020. Allt Pueyo kan ta ära för (vilket för all del inte är så illa) med den bloggposten är att han givit en målande och pedagogisk beskrivning av hur suppression-strategin skulle kunna fungera i praktiken, och att han givit den ett slagkraftigt smeknamn, vilket vi lånade och översatte i vår DN-artikel: hammaren och dansen. Om det är ett vetenskapligt övertramp (eller med Eriks terminologi en dikeskörning) att som professor använda en färgstark glosa som införts i en text som inte genomgått vetenskaplig peer review-granskning, då erkänner jag mig skyldig, men... ehm... jag tror dessvärre inte att jag kan lova att inte begå motsvarande övertramp igen.

Erik attackerar i sin text en lång rad andra svenska coronadebattörer, men jag vill för död och pina inte ta på mig uppgiften att försvara dem alla, utan väljer istället att gå rakt på hans övergripande slutsatser. Dessa är tre till antalet, varav de första två mest utgörs av truismer om vikten av kritiskt och analytiskt tänkande och epistemisk ödmjukhet, mot vilka jag inte har några större invändningar.⁴

Men med sin tredje slutsats begår Erik det slags grova omdömeslöshet som jag har så extra svårt att fördra när det kommer från professorskollegor. Han påstår nämligen, kategoriskt och utan minsta antydan om nyansering, att "när väl en ny pandemi har brutit ut går det inte att stoppa den, vare sig med munskyddskrav eller med hårda samhällsnedstängningar" och att "pandemier slutar när vi har uppnått flockimmunitet". Här generaliserar han på tok för hårt, och med total brist på det slags epistemiska ödmjukhet han nyss pläderat för. Det är måhända sant att det inte fanns någon rimlig chans att utan flockimmunitet få stopp på covid när den väl fått globalt fäste, men olika virus har som påpekats ovan olika smittspridnings- och mortalitetsegenskaper (med mera), och djävulen bor i detaljerna. Det kan mycket väl hända att vi en vacker dag (fastän jag såklart hoppas att vi slipper det) nås av en pandemi vars smittämne på ett ungefär kombinerar covids smittsamhetsegenskaper med ebolas dödlighet, som är cirka 50%, och hur kommer Erik att reagera då? Om han håller fast vid sin omdömeslösa tredje slutsats så kan vi räkna med att han kliver upp på sina barrikader och ropar i sin megafon att "nej för bövelen, inga munskydd och inga nedstängningar, för vad vi behöver göra är att offra inemot hälften av våra medmänniskor för att resten av oss skall kunna uppnå flockimmunitet!". I det läget kommer jag i så fall att lägga åt sidan alla de lager av diplomatisk fetvadd jag tillämpat ovan och svara ocensurerat och från djupet av mitt hjärta: "F*** you Erik! Jag tillhör Team Människa, men du tillhör uppenbarligen Team Pesten, so go f*** yourself in the ***!"

Fotnoter

1) Jag är inte helt säker på vilket av dessa gräl som blev det allra sista, men tror det kan ha varit det som handlade om ansvarsfördelningen för den omfattande covid-döden på våra äldreboenden våren 2020. Erik hade skrivit ett inlägg (på Twitter eller Facebook - jag minns inte längre exakt var) som helt friskrev FMH från ansvar, och istället menade att ansvaret låg på äldreboendena själva och på landstingen. Jag invände att förvisso låg ett stort ansvar på landstingen och äldreboendena, men att helt friskriva FHM från ansvar är ju knappast rimligt, eftersom smittan på äldreboendena härrör från samhället i stort, så att ju större smittspridningen i samhället är desto mer drabbas äldreboendena, varför FHM:s med internationella mått släpphänta nivå på restriktioner behöver ses som en bidragande orsak till döden på äldreboendena. Därmed såklart inte sagt att denna släpphänthet per automatik är klandervärd, eftersom mycket annat än den omedelbara mortaliteten på äldreboenden behöver vägas in när man väljer nivå på restriktioner, utan mitt enkla påpekande var att FHM har ett ansvar för de konsekvenser - såväl positiva som negativa - som följer av detta nivåval. Icke, svarare Erik, ty här är det faktiskt landstingen (i synnerhet borgerligt styrda sådana) och äldreboendena som fallerat och därigenom bär ansvaret. Jag frågade då Erik om inte det kunde anses ingå i FHM:s uppdrag att i sin utformning av covidstrategi ta hänsyn till faktiska omständigheter, som exempelvis personalsituation och kompetensnivå inom allehanda samhällssektorer som exempelvis äldreomsorgen. Bör FHM härvidlag arbeta utifrån en realistisk bild av dessa förutsättningar, eller är det bättre att de utgår från en fantasibild om vad verksamheterna därute ur smittskyddssynpunkt idealt borde vara kapabla till? Min fråga var retoriskt avsedd, men döm om min häpnad då Erik svarade att FHM var i sin fulla rätt att utgå från den senare bilden - alltså ett slags rosaskimrande önskedröm om hur olika verksamheter i landet borde se ut. Jag minns att jag vid denna punkt kände att Erik hade stigit av från vår outtalade överenskommelse om att hålla oss till rationell och meningsfull diskussion, varför jag valde att inte fortsätta diskussionen, och det är också detta som får mig att tro att denna diskussion blev vår sista.

2) Erik är långt ifrån ensam om denna bisarra upphöjning av Tomas Pueyo till uppfinnare av en helt ny smittskyddsstrategi. Till och med DN:s vetenskapsredaktör Maria Gunther bidrog i en artikel hösten 2020 till spridandet av denna missuppfattning. Det tycks mig ganska troligt att Erik läst Gunthers artikel men att han däremot dessvärre missat (eller i annat fall ignorerat) mitt svar.

3) För att undvika ett debacle liknande det jag återger i slutet av Fotnot 1 vill jag betona att dessa frågor är retoriska, och att det svar jag underförstår på båda frågorna är "nej".

4) Även dessa passager innehåller dock en del bisarrerier, som hans påstående att "det gick inte att uttala sig om Sveriges pandemistrategi redan våren 2020". Det här är så dumt att jag tar mig för pannan. Vadå "gick inte"? Jag har tydliga minnen av att till och med Erik själv gjorde sådana uttalanden, så nog gick det. Mitt bästa försök till generös tolkning av hans kryptiska påstående är att han menar att vi vid denna tidpunkt inte hade facit i hand och därmed inte kunde avgöra med säkerhet vilka strategier som skulle bli framgångsrika och vilka som skulle leda i fördärv. Absolut är det så, och det var och förblir viktigt att då och då påminna sig om det, men en slutsats som inte kan dras är vi alla borde ha hållt truten och avstått från yttra oss om de olika strategierna, för trots de omfattande osäkerheterna var det ändå möjligt att göra mer eller mindre välgrundade uttalanden om vilka strategier som föreföll lovande och vilka som inte gjorde det. Att många debattörer (häribland jag) kritiserade FHM:s strategival, och många andra (häribland Erik) tog dem i försvar är enligt min mening helt i sin ordning som en viktig del av det demokratiska samtalet; härmed dock inte sagt att alla sådana kommentarer hade samma värde när det gäller att bringa klarhet och föra diskussionen framåt.

* * *

Tillägg 23 juni 2025:

Under den vecka som gått sedan jag publicerade denna bloggpost har Erik Svensson och jag haft en tämligen irriterad brevväxling, inledd med ett ebrev från mig med följande ordalydelse.

Jag skriver mest för att försäkra mig om att du inte missat bloggposten https://haggstrom.blogspot.com/2025/06/flang-efterslang-fran-erik-svensson.html jag skrev tidigare i veckan. Jag beklagar att du blir måltavla för min text på ett sätt som antagligen inte känns jättetrevligt, men jag ser detta slags text som ett akademiskt renhållningsarbete som är absolut nödvändigt om vi skall kunna upprätthålla det viktiga förtroendet för vår profession.

Mvh och glad midsommar!
Olle

I sitt första svar till mig bad Erik mig ”vänligen respektera” att hans svar inte var avsett för publicering på min blogg eller annorstädes. Även om mitt val att fortsätta korrespondensen utan att kommentera denna begäran eventuellt kan förstås som att jag implicit accepterat den som ett villkor för fortsatt korrespondens, så känner jag mig inte särskilt bunden av denna eventuella överenskommelse, eftersom Erik senare i korrespondensen bröt mot ett i mitt tycke än mer grundläggande implicit villkor genom att försöka manipulera mig medelst rent blåljug (jag skall återkomma till det). Detta gör att jag inte har några betänkligheter mot att här berätta om huvuddragen i vår brevväxling. Likväl avstår jag från att återge hans ebrev, men mest för att jag inte vill trötta läsaren med hans uppblåsta prosa.

Allra mest iögonfallande i Eriks svar är hans totala ointresse för att kommentera substansen i mitt tillbakavisande av hans anklagelse mot mig i Opulens-artikeln. Med början i en tröttsam yttrandefrihetsklyscha (”du har givetvis all rätt att framföra dina synpunkter [...], precis som jag”) såg han till att den fortsatta diskussionen istället hamnade på ett meta-plan, och därefter på ett meta-meta-plan, etc, i en spiral som förde oss allt längre från själva sakfrågan.

Detta totala ointresse är i mina ögon anmärkningsvärt. När man offentligen anklagat någon för ett felsteg, och denne svarar och argumenterar för att anklagelsen saknar grund, så ber man antingen om ursäkt, eller påvisar vad som brister i motpartens argumentation. Att varken göra det ena eller det andra, som om sanningen inte spelade någon roll, tyder på en ändamålen-helgar-medlen-attityd som jag finner moraliskt förkastlig. Med nämnda yttrandefrihetsklyscha och dess implicerade symmetri sopar Erik under mattan det kraftiga moraliska asymmetrin mellan å ena sidan falska anklagelser och å andra sidan att medelst saklig argumentation försvara sig mot sådana. Jag har som påpekats ovan ingen privilegierad inblick i Eriks huvud, men det förefaller ändå sannolikt att han kan ha resonerat ungefär så här: ”Det spelar egentligen ingen roll om hur det står till i sak med den där Pueyo-grejen, för även om Olle skulle råka ha rätt på just denna enskilda punkt så har han sagt så mycket annat dumt i covid-frågan att han är förtjänt av kritiken oavsett.” Men ett sådant förhållningssätt duger enligt min mening inte i anständig debatt.

Vad innehöll då vår brevväxling istället för den sakdiskussion Erik så noggrant undvek? En sak var hur han hånfullt noterade diskrepansen i längd mellan den ganska korta passage i hans Opulens-artikel som ägnades åt Häggström-bashing och min betydligt längre bloggpost. Till synes glömsk av hur vi på den tid vi stred på samma sida mot klimatförnekare var väl medvetna om asymmetrin i hur en klimatförnekare kan fråga mer än tio klimatforskare kan svara, kallade han min bloggpost ”en något oproportionerlig överreaktion”, och tillade för säkerhets skull att detta var avsett som ett ”understatement”. Oskicket att håna meningsmotståndare för att de bemöter ens påståenden fick mig att tipsa om en Astral Codex Ten-bloggpost nyligen, vilken Erik genast förklarade sig vara totalt ointresserad av, och mitt understrykande av bloggpostens titel var nog inte särskilt ändamålsenligt ur samtalsklimatsförbättringssynpunkt.

Sådär höll vi på, i en nära nog 100%-igt improduktiv diskussion som jag i efterhand kan ifrågasätta om den verkligen var värd min tid. Så småningom kom vi till en punkt där jag tyckte mig kunna beslå honom med att i två konsekutiva ebrev ha torgfört två oförenliga ståndpunkter (först hade han prisat det slags empati med debattmotståndare han tyckte sig se i mitt inledande ebrev, och därefter hade han meddelat att om han i en diskussion beter sig på ett sätt som skapar dysterhet hos den andre så är det inte hans problem). En smula odiplomatiskt (för att inte säga grälsjukt) betecknade jag detta som ett fall av ”gaslighting”. Eriks svar på detta blev att meddela att han, så snart han hör "importerade låneord från andra länder" (notera den eleganta trippeltautologin!) så tappar han allt intresse för fortsatt diskussion.

Denna reaktion förvånade mig, då jag under åren av kontakt aldrig uppfattat ett uns av detta slags språkprotektionistiska läggning hos Erik. Den är i själva verket en i stunden påhittad fiktion (eller på ren svenska: han ljög), något jag insåg genom att gå tillbaka till hans Opulens-text och konstatera hur full av anglicismer den är, varav ”lockdowns”, ”fake news” och ”scientism” är de mest iögonfallande. I mitt nästa (och troligtvis sista) svar valde jag därför att bruka sarkasm, och därefter argumentera längs en mer sannolik linje rörande vari hans aversion mot mitt bruk av ordet ”gaslighting” egentligen bestod:

Hahahaha ok, så ovanpå allt annat är du även svensk språkpurist! Så till den grad att du anser bruket av ordet "gaslighting" vara ett värre felsteg än själva gaslightingen. Det påminner inte så lite om den gamla goda tid då vi fightades (oops!) sida vid sida mot klimatförnekare, och en del av dessa klimatförnekare ville bannlysa ordet "klimatförnekare". I båda fallen handlar det om att försöka skydda sig mot kritik genom att eliminera relevant vokabulär. Men tro mig, jag kommer att fortsätta använda både g-ordet och k-ordet hur mycket du och Ingemar Nordin än gormar om saken. Längre än så kom vi inte i vår brevväxling, som nu tack och lov verkar vara avslutad.

Remissvar AI-kommissionen

2025-06-05T19:15:00.005+02:00

Regeringens AI-kommission presenterade den 26 november förra året sin slutrapport Färdplan för Sverige. Därpå följde sedvanligt remissförfarande, med deadline igår den 4 juni, och svaren från de av regeringen utsedda remissinstanserna finns nu publicerade på regeringskansliets hemsidor. Icke beställda yttranden publiceras inte på samma vis, så för att öka tillgängligheten till mitt eget svar återger jag detta nedan.

Den observante kan notera att min arbetsgivare Chalmers finns med bland de officiella remissinstanserna. Jag har bidragit med viss input till Chalmers remissvar, men den som jämför med mitt eget svar nedan skall finna att det i frågan om existentiell AI-risk är jämförelsevis urvattnat, något som åtminstone delvis är en följd av att inte alla på Chalmers fullt ut delar min syn på situationens akuta allvar. Detta slags urvattning är typisk för remissvar från universitet, och jag tror inte att det finns någon större meningsmotsättning mellan mig och Chalmersledningen angående universitetens roll i att föra ut spetskunskap i samhällsdebatten och i att detta oftast görs bättre av enskilda forskare än av universiten som organisationer, ett övervägande som gränsar till principiella frågor om akademisk frihet; se exempelvis den klassiska Kalven-rapporten.

En hel del av mina synpunkter i remissvaret nedan kan kännas igen från min artikel i tidskrivten Kvartal den 10 december förra året.

* * *

Remissvar på AI-kommissionens rapport Färdplan för Sverige
(dnr Fi2025/00457)

Olle Häggström

2 juni 2025

Styrkan och tonvikten i AI-kommissionens rapport ligger på snabb utrullning av AI-teknik för olika tillämpningar i offentlig sektor och på hur vi genom upprätthållandet av ett gott innovationsklimat ska kunna stärka svensk konkurrenskraft. I stället för att orda om detta går jag rakt på sak med det som mer än något annat sticker ut som en iögonfallande och svår brist hos rapporten.

Vad som lyser med sin nästan totala frånvaro i rapporten är nämligen AI sedd som global ödesfråga, och risken för att vi på nuvarande bana är på väg mot en global katastrof som rentav kan komma att innebära slutet för Homo sapiens. Det är naturligtvis möjligt att hävda – vilket AI-kommissionen kan sägas implicit göra genom underlåtelsen att diskutera detta – att Sverige är en perifer AI-nation som saknar betydelse för den globala AI-utvecklingen, och att globala riskfrågor kring AI därför inte är något vi behöver bry oss om i Sverige. Den sortens strutsmentalitet går dock stick i stäv med direktiven då kommissionen sjösattes 2023, vilka inbegrep formuleringar om att
identifiera prioriterade internationella insatser och lämna förslag till hur Sverige kan agera proaktivt och samordnat vid framtagande och utveckling av internationella policyer och regelverk för AI.
I stället för att ge sådana förslag präglas rapporten av ett enögt och snävt nationalistiskt perspektiv. Som exempel på detta kan nämnas synen på EU-reglering av AI-teknik, där vikten av att sådan reglering inte sätter hinder för lanseringen av nya amerikanska AI-modeller i Europa betonas. I rapporten framhålls bland annat att ”även om EU-lanseringen av en ny modell bara dröjer sex månader kan det få väldigt negativa effekter på våra företags förmåga att hävda sig i den globala konkurrensen”, och kommissionen anmodar ”svenska företrädare [att] verka för att den AI-relaterade EU-regleringen inte bidrar till försämrad tillgänglighet för dessa verktyg”. Dessa aspekter är förvisso värda att beakta, men de behöver vägas mot EU:s viktiga roll i att verka för att den globala omställningen till en värld med avancerad AI blir lyckosam. Det är angeläget att kunna sätta press på de ledande AI-företagen genom att villkora lanseringen i EU av deras AI-produkter med att de skärper sitt AI-säkerhetsarbete till nivåer där vi alla kan känna oss trygga i att dessa produkter inte kommer att leda till katastrof.

Om denna centrala avvägning säger rapporten inte ett knyst. Genom att ignorera avvägningen och endast lyfta fram den sida som talar för deras önskade slutsats visar AI-kommissionen att de saknar ambition att leva upp till det statliga utredningsväsendets stolta saklighetstradition.

Jag ska inte försöka påskina att AI som existentiell risk mot mänskligheten överhuvudtaget inte nämns i AI-kommissionens rapport, för det gör den, om än bara i förbigående:

Vissa menar dock att en sådan utveckling skulle kunna hota mänsklighetens existens. Detta genom att AI-systemen utvecklar en egen vilja som skiljer sig från vår, och betraktar oss som ett hot mot sin egen fortlevnad eller sina egna mål. Risken i ett sådant scenario ligger i att systemen helt enkelt blir mer kapabla än vi människor och att vår förmåga inte räcker till för att hindra en okontrollerad utveckling. I reservationen ”vissa menar” finns här ett implicit avståndstagande och en subtil antydan om att dessa ”vissa” utgör en perifer fraktion inom AI-debatten, vilket emellertid inte stämmer alls. Det hade varit hederligare att nämna att kategorin ”vissa” inkluderar såväl världens tre mest citerade AI-forskare (Geoffrey Hinton, Yoshua Bengio och den avhoppade Open AI-medarbetaren Ilya Sutskever) som cheferna för de tre ledande AI-labben (Demis Hassabis på Google DeepMind, Sam Altman på OpenAI och Dario Amodei på Anthropic). Det finns gott om belägg i form av exempelvis föredrag och nyhetsartiklar för att de sex här uppräknade personerna (varav två som bekant emottog Nobelpris 2024) har denna syn på AI-risk, men här räcker att nämna att de alla undertecknade det öppna brev om AI-risk som publicerades i maj 2023; se Hinton m.fl. (2023). Och om inte den långa fortsättningen på det brevets undertecknarlista räcker för att övertyga om hur utbredd ståndpunkten är inom AI-forskarsamhället kan man se till omfattande enkätstudier som Grace et al (2024), vilken pekar mot att mer än hälften av den tillfrågade kategorin AI-forskare bedömer sannolikheten att AI ger upphov till existentiell katastrof till minst 10%.

Ett liknande försåtligt avfärdande av AI-risk finner vi i det ställningstagande som följer strax därpå i rapporten:

AI-kommissionen anser att oron kring den så kallade existentiella risken är något som måste beaktas, men beklagar samtidigt att delar av den offentliga diskussionen om säkerhet har tenderat att fokusera på spekulativa risker med mycket låg sannolikhet. Här preciseras inte vilka dessa ”spekulativa risker” är, och i och med hur vittförgrenad och ojämn AI-debatten som helhet är gör därför denna otydlighet att det inte går att formellt beslå påståendet om ”mycket låg sannolikhet” som felaktigt. Sammanhanget ger dock en kraftig antydan om att det handlar om risken att mänskligheten utplånas av superintelligent AI. Den ytterst kontroversiella bedömningen att sådana scenarier har ”mycket låg sannolikhet” som vi därmed kan läsa mellan raderna i rapporten levereras utan ett uns av motivering, och går på tvärs mot exempelvis Dario Amodeis bedömning om att sannolikheten ligger ”någonstans mellan 10% och 25%” (Daniel, 2023) och mot den ovan citerade mediansiffra bland AI-forskare som Grace et al (2024) rapporterar. Se även exempelvis Aschenbrenner (2024), Leahy et al (2024), Häggström (2025) och Kokotajlo et al (2025) för mer utförliga diskussioner om det extremt allvarsamma läge vi befinner oss i visavi existentiell AI-risk.

Det ointresse för saklig argumentation AI-kommissionen uppvisar är beklämmande att stöta på i en statlig utredning, och den bistra sanningen är dessutom att något solitt vetenskapligt stöd för kommissionens bedömning om AI-risk helt enkelt inte existerar. Givet denna nonchalanta inställning till AI-risk är det knappast förvånande att kommissionen inte säger något alls om det kanske allra viktigaste Sverige har att göra i AI-frågan just nu, nämligen att agera internationellt för att påtala det oacceptabla i och få stopp på den civilisatoriskt livsfarliga kapplöpning som ett litet antal AI-företag i norra Kalifornien just nu är inbegripna i. Med namn som Hammarskjöld och Palme i bagaget har Sverige en stolt tradition av kraftfullt internationellt agerande för mänskliga rättigheter, och det är av största och akutaste vikt att vi, via organisationer som FN, EU och NATO samt på andra vis, återupplivar denna tradition och påpekar det oacceptabla i att dessa AI-företag spelar rysk roulette med allas våra liv.

Skadan AI-kommissionen härmed gör stannar inte vid en försutten chans att uppmana Sveriges regering att steppa upp det internationella arbetet. Genom att orda sida upp och sida ned om AI utan att ta på allvar eller knappt ens vidgå den rimligtvis allra viktigaste aspekten – vikten av att undvika en global AI-katastrof som utplånar mänskligheten – bidrar de till en bredare och dessvärre tämligen dominant AI-diskurs som genom att göra just så vaggar in både allmänhet och makthavare i en falsk säkerhet som ökar risken att vi sömngångaraktigt fortsätter vår nuvarande färd mot AI-katastrof.

Att kommissionen trots allt föreslår inrättandet av ett svenskt AI-säkerhetsinstitut med en årlig finansiering om 30 miljoner kronor är såklart positivt, men det kan inte ursäkta deras försåtliga retorik i AI-riskfrågor och frånvaron av konstruktiva förslag på hur Sverige kan stå upp internationellt för vår rätt att inte utplånas av urspårad superintelligent AI.

Referenser

Aschenbrenner, L. (2024) Situational Awareness: The Decade Ahead.

Daniel, A. (2023) CEO of AI company warns his tech has a large chance of ending the world, Indy100, 9 oktober.

Grace, K., Stewart, H., Fabienne Sandkühler, J., Thomas, S., Weinstein-Raun, B. och Brauner, J. (2024) Thousands of AI Authors on the Future of AI

Hinton, G. et al (2023) Statement on AI risk, Center for AI Safety.

Häggström, O. (2025) Our AI future and the need to stop the bear.

Kokotajlo, D., Alexander, S., Larsen, T., Lifland, E. och Dean, R. (2025) AI 2027.

Leahy, C., Alfour, G., Scammell, C., Miotti, A. och Shimi, A. (2024) The Compendium.

Ett annat USA, och en bok med en överraskande plot twist

2025-05-22T10:45:00.002+02:00

Bortsett från Sverige är det land vars samhälle jag känner mig mest bekant med USA. Till stor del bottnar detta i egna vistelser från 11 års ålder och framåt och i kontakter med vänner och kollegor därifrån, men betydelsefullt i sammanhanget är givetvis också det stora kulturella inflytande som bland annat Hollywood har. Men USA är stort och heterogent, och min bekantskap med landet är knappast representativ utan har en kraftig slagsida mot akademiska miljöer och välbärgad medelklass, samt mot vissa av landets nordligare delstater (plus Kalifornien). Andra delar av USA, som den Djupa Södern och de Appalachiska bergstrakterna, är mig till följd av mina begränsade erfarenheter lika främmande och exotiska som många länder i tredje världen jag aldrig satt min fot i. Vad gäller livet i Appalacherna är mina kunskapskällor begränsade till filmer som The Deer Hunter och enstaka DN- eller SVT-reportage om vad som får så kallade vanliga amerikaner att rösta på Trump.

Fram tills nu, då jag läst Hillbilly Elegy från 2016. Denna självbiografiska berättelse utspelar sig i en fattig småstad i östra Kentuckys bergstrakter och den lite större industristad i södra Ohio dit många bergsbor arbetskraftsinvandrar. Den handlar om starka familjeband och djupa klassklyftor, och om fattigdom, missbruk, våld och avindustrialiseringens sociala effekter, men framför allt är den en coming of age-roman om hur en utsatt och vilsen pojke förvandlas till en vuxen man fast besluten att göra USA till ett bättre land för de stora befolkningsgrupper som hamnat så kraftigt på efterkälken i förhållande till den allt mer avskärmade öst- och västkusteliten. Boken är välskriven, och trots att berättarens återkommande reflektioner kring de besvärliga odds han övervunnit med avgörande stöd från några av sina käraste familjemedlemmar till slut får något repetitivt och självförhärligande över sig, så är det lätt att känna sympati med honom, och det värmer hjärtat att boken slutar så optimistiskt.

Eller gör den det? Om man går lite utanför bokens pärmar möts man av en ohyggligt mörk plot twist. Ett knappt decennium efter att huvudpersonen satt punkt för sitt bokmanus visar det sig nämligen att den framgångsrike och till synes så pro-sociale unge världsförbättrare han trots barndomens svåra omständigheter förvandlats till blott var en övergående fas eller en mask. När masken fallit visar han sig ha så stark avsky mot att hjälpa andra människor än den fattiga vita arbetarklass han själv är sprungen ur att han kallar the Bill and Melinda Gates Foundation "en cancersvulst på det amerikanska samhället". Han är genom sin blinda lojalitet gentemot sin chef Donald Trump den främste facilitatorn av dennes envåldshärskarambitioner, han är en mobbare som inte drar sig för att trakassera den europeiske ledare som inget annat vill än att skydda sitt land mot ett oprovocerat och olagligt ryskt anfallskrig, han är en skamlös demagog som talar sig varm för en handelspolitik som riskerar störta världsekonomin i fördärvet, och han är en bromskloss som gör vad han kan för att sätta sig på tvären mot dem som söker vägar att få mänsklighetens pågående och exitentiellt ödesmättade AI-äventyr att sluta lyckligt. Kort sagt, han har förvandlats till en av världens farligaste och mest destruktiva personer alla kategorier. Så gick det med bokens skenbart lyckliga slut.

Ödesfråga i Lund

2025-05-20T09:00:00.012+02:00

Förra veckan talade jag i Lund, på Kungliga Fysiografiska Sällskapets årliga Rausingsymposium, som i år bar rubriken Behövs våra hjärnor? med underrubriken AI - hot och möjligheter. Symposiet som helhet finns anslaget som YouTube-video. Mitt eget bidrag bar rubriken AI är mänsklighetens största ödesfråga och upptar tidsspannet 24:00-58:30 i videon, men där finns också en rad andra föredrag värda att lyssna till, varav jag allra främst vill rekommendera vännen Thore Husfeldt bidrag AI och undervisning (4:25:00-5:00:30) som jag ärligt kan säga är det både förståndigaste och mest välformulerade jag hört i den brännande frågan om hur utbildningssystemet bör förhålla sig till den nya AI-tekniken.

Symposiet kommer även att publiceras i bokform, och jag har idag levererat till arrangörerna min text AI är mänsklighetens största ödesfråga, som visserligen inte är en ordagrann återgivning av föredraget, men som till både innehåll och form följer det relativt nära. Jag vill såklart gärna att ni läser den fyra och en halv sida långa texten i sin helhet, men här, som ett litet smakprov, några stycken hämtade ur den:

[...]

En typ av arbetsuppgift där AI gjort särskilt dramatiska framsteg de senaste åren och som kan komma att få stor betydelse för den fortsatta utvecklingen som helhet är kodning och mjukvaruutveckling. AI-systemens förmåga att skriva korrekt kod och i övrigt lösa uppgifter riktigt är starkt avhängig uppgiftens omfattning. I en rapport från AI-säkerhetsorganisationen METR i mars i år studeras hur denna förmåga utvecklats över tid. Det visar sig att omfattningen – mätt i tidsåtgång för en mänsklig expert – som AI klarar av har ökat från enstaka sekunder 2019 till cirka en timme idag. Ökningen är exponentiell, med en observerad genomsnittlig fördubblingstid på sju månader, och om man extrapolerar den trenden blott ett par-tre år in i framtiden blir resultatet dramatiskt. Sådan kurvanpassning inbegriper givetvis stora osäkerheter, men ser man till hur modellerna förbättrats från 2024 och framåt verkar det snarast som att utvecklingen är på väg att gå ännu fortare.

Det är bland annat den sortens data som ligger till grund för den gedigna rapporten AI 2027, utkommen i april i år och författad av en kvintett forskare med den avhoppade OpenAI-medarbetaren Daniel Kokotajlo i spetsen. Rapporten är det ambitiösaste och bästa som hittills skrivits vad gäller detaljerade förutsägelser av kommande års AI-utveckling. Osäkerheterna är som sagt stora, men successivt och månad för månad arbetar de fram vad de ser som det mest sannolika förloppet. Centralt i detta förlopp är hur AI, till följd av den utveckling som bland annat METR-rapporten påvisat, år 2027 når en punkt där den är en lika skicklig AI-utvecklare som dagens främsta sådana av kött och blod. Tack vare att de ledande AI-företagen då kan sätta hundratusentals eller miljontals sådana AI i arbete leder detta på några få månader till så kallad superintelligens – AI som vida överträffar människan över hela spektret av relevanta förmågor.

[...]

AI alignment-pionjären Eliezer Yudkowsky kan med blott en mild överdrift sägas egenhändigt ha lagt grunden för området under 00-talet. I en inflytelserik artikel från 2008 beskriver han det han bedömer vara default-scenariot ifall vi misslyckas med eller helt enkelt ignorerar AI alignment: ”AI:n hatar dig inte, ej heller älskar den dig, men du består av atomer som den kan ha annan användning för”.

I en sådan situation vill vi givetvis inte hamna, och därför behöver vi lösa AI alignment i tid. Hur lång tid har vi då på oss? Ingen vet säkert, och det enda omdömesgilla är att medge att stor osäkerhet föreligger, men jag menar att vi bör ta på allvar den i AK-ekosystemet i San Francisco och Silicon Valley alltmer utbredda uppfattningen att superintelligent AI kan bli en realitet inom en tidsrymd som mäts i enstaka år snarare än decennier.

[...]

För att ge AI alignment-forskningen en chans att hinna ikapp tror jag att vi behöver dra i nödbromsen för utvecklingen av de allra mest kraftfulla AI-systemen. Detta försvåras dock av den kapplöpningssituation som föreligger, både mellan enskilda AI-företag och mellan länder (främst USA och Kina). Det allmänt hårdnande internationella klimatet sedan Trumps andra presidentämbetestillträde gör inte heller saken lättare. Ett lågvattenmärke för den globala AI-diskursen nåddes vid toppmötet AI Action Summit i Paris i februari i år, där säkerhetsfrågor sopades under mattan samtidigt som toppolitiker bjöd över varandra i vilka mångmiljardbelopp de avsåg satsa på AI-utveckling. Värst av allt var hur den amerikanske vicepresidenten JD Vance i sitt anförande uttryckte oförblommerat förakt för AI-säkerhet, då han slog fast att han ”inte var där för att tala om AI-säkerhet” och att ”vår AI-framtid inte erövras genom att oja sig över säkerhet utan genom att bygga”. Hans förhoppning lite längre fram i samma tal om att ”AI-ekonomin kommer att […] transformera den värld som består av atomer” ger, för den som minns Yudkowskys ovan citerade oneliner om AI och atomer, en isande rysning längs ryggraden.

Detta säger något om vilka krafter vi behöver övervinna om vi skall få ordning på AI-utvecklingen och styra den i för mänskligheten mer gynnsam riktning jämfört med vart vi idag verkar vara på väg. Men framtiden är inte ristad i sten, och jag tror fortfarande att det är möjligt att förhindra en AI-katastrof. Något som skulle förbättra oddsen ytterligare vore om vi lyckas mobilisera den folkopinion mot skapandet av övermänskligt intelligent AI som enligt diverse opinionsundersökningar verkar föreligga. Så hjälp gärna till att sprida budskapet!

Läs hela texten här!

Om kentaurschack

2025-05-08T16:45:00.005+02:00

Igår skrev jag i Expressen om AI, arbetsmarknad och det så kallade människan i loopen-idealet. En central fråga är den om huruvida det finns någon vettig plats för människan i en process med AI-system som blivit bättre än vi på vad det nu är som skall göras. Ett populärt exempel att lyfta fram för dem som vill besvara frågan jakande har varit det så kallade kentaurschacket, vilket jag omtalar i artikeln:

Då AI överträffar mänsklig skicklighet kan vi [...] fortfarande hoppas att kombinationen människa plus AI ska visa sig mer kapabel än AI ensam. AI-entusiasternas paradexempel på detta var länge schack. Sedan mänskliga stormästare visat sig vara chanslösa mot de bästa schackprogrammen började man experimentera med spelformen kentaurschack, där mänskliga spelare fick lov att konsultera ett schackprogram innan de utförde sina drag. Så länge teamet människa plus maskin var bättre än maskinen ensam var spelformen intressant, men intresset kollapsade i slutet av 2010-talet då det blev snudd på omöjligt att överträffa en motståndare som valde att slaviskt följa datorns rekommendationer. 1997 förlorade den dåvarande schackvärldsmästaren Garri Kasparov en uppmärksammad match mot IBM:s schackprogram Deep Blue, och det var då kampen mellan människa och maskin på schackets område ansågs avgjord. Redan året efter lanserade Kasparov i en uppvisningsmatch mot stormästarkollegan Veselin Topalov det som senare kom att kallas kentaurschack, där alltså två mänskliga spelare med tillgång till schackprogram som de har rätt att konsultera under spelets gång ställs mot varandra. Spelformen fortsatte i nära två decennier att röna ett visst intresse, men i takt med att datorprogrammen blev allt spelstarkare närmade sig spelformen en kris: hur länge skulle den mänskliga komponenten i beslutsfattandet visa sig ha något att tillföra?

Så länge kombinationen människa plus maskin var starkare än maskinen ensam var spelformen intressant, och AI-propagandister kunde anföra kentaurschacket som ett exempel på hur människan kan förbli relevant även i närvaro av överlägset kapabla AI-system. Men det som tycks ha blivit den sista internationella kentaurschacksturneringen spelades 2017, varpå intresset i tysthet kollapsade. Jag har varit i kontakt med en av de ledande organisatörerna av kentaurschackturneringar, och han bekräftar min bild av att orsaken till det kollapsade intresset är att det inte längre verkade finnas något konstruktivt för den mänskliga parten i ett kentaurteam att bidra med. (Att till slut alla partier oundvikligen verkade sluta i remi bidrog också till att de sista entusiasterna ledsnade.)

Det ligger i sakens natur att ett vikande intresse för vad det nu må vara inte alltid dokumenteras explicit, och detta verkar vara fallet specifikt för det som hände med kentaurschacket 2017-2018. Och just detta bidrog antagligen till att en del av de oförväget optimistiska AI-debattörer som spred budskapet "Framtiden är ljus! Se på kentaurschacket!" inte observerade att tiden sprungit ifrån dem utan fortsatte med sina glada besked som om inget hade hänt. Den i Sverige ledande företrädaren för denna inobservanta falang är otvivelaktigt Mathias Sundin, i kraft av dennes bok Kentaurens fördel från 2023 (här är ett relevant utdrag). Jag hoppas att han i ljuset av det jag här meddelar kommer att korrigera sin kentaurschacksretorik, men med tanke på den inte alltför imponerande nivå av argumentativ stringens och hederlighet han hittills uppvisat (och som jag sett mig föranledd att kommentera här, här och här) håller jag inte andan.

Recommending the AI 2027 report by Kokotajlo and collaborators

2025-04-05T21:30:00.012+02:00

Most people, including many AI experts, struggle to grasp (if they're even aware of it) the increasingly dominant view emerging in the epicenter of AI development in San Francisco and Silicon Valley: that extreme developments (on a scale surpassing even the Industrial Revolution) may well occur within the present decade. It is therefore entirely reasonable that there's growing demand for concrete scenarios describing what might happen. For almost exactly ten months, from early June 2024 onward, my go-to reference for such scenarios was Leopold Aschenbrenner’s Situational Awareness.

As of today, however, I recommend instead the brand-new AI 2027, by Daniel Kokotajlo, Scott Alexander, Thomas Larsen, Eli Lifland and Romeo Dean. The report is an ambitious, detailed, remarkably competent and highly readable account of where things may be headed over the next few years. I commend the authors for putting in the considerable amount of work needed to produce the report, and I share their hope that the report will stimulate others in the AI sphere to react to it, for instance by challenging the various assumptions underlying the suggested scenario, or by proposing alternative scenarios.

Anyone with an interest in societal issues and a desire to ground their discussions in a realistic situational assessment is warmly encouraged to read it. In addition to the report itself, there is a highly informative three-hour podcast episode where Dwarkesh Patel interviews the first two authors, plus a short blog post by Scott Alexander introducing the project.

[Edit, April 9: Here are Scott Alexander's personal takeways from the project. Here and here are two relevant blog posts by Zwi Mowshowitz: the first is a detailed reading of the aforementioned podcast discussion, and the second is his summary of various people's initial reactions to the report, on Twitter and elsewhere. All of this is well worth reading, and I am certain a lot more will follow.]

METR on AI's ability to complete long tasks

2025-03-20T10:30:00.001+01:00

The absolutely relentless deluge of breaking news from the AI world over the last few months has been pretty much impossible to adequately keep up with,¹ but the following is possibly the most important diagram I have encountered so far in 2025.

It is from a report released yesterday by the AI evals organization METR. In short: Due to the highly multi-dimensional nature of intelligence, we have so far been struggling to find a measure of AI capabilities that is appropriate for predicting when to expect AI with transformative societal effects. Since AI capabilities seem bottlenecked by the their ability to devise and execute plans in many steps, METR's proposal to measure capabilities in terms of how humanly long tasks AIs succeed at seems very promising. Their main result is that the length of tasks that AIs can handle seems to be growing exponentially, with an astonishingly short doubling time of around 7 months. Obviously the trend is in no way guaranteed to continue, but... extrapolating it just a few years into the future is vertigo-inducing.

Here is METR's report, and here is their summary blog post about the work.

Footnote

1) Anyone wishing to nevertheless try to do so is strongly advised to follow Zvi Mowshowitz' newsletter Don't Worry About the Vase.