onsdag 15 oktober 2025

Om Alan Saids och Mattias Rosts maning till nivåhöjning i AI-debatten

De båda docenterna Alan Said och Mattias Rost vid institutionen för tillämpad IT på Göteborgs universitet klev förra månaden in i diskussionen om AI-risk via två debattartiklar i tidningen Ny Teknik. Det räcker med en hastig titt på de båda texternas avslutningsstycken för att förstå deras ärende: den 3 september menar de att "om AI-debatten ska leda någonstans måste vi höja nivån", och den 22 september inskärper de att "det är hög tid att höja nivån på AI-debatten".

I detta budskap instämmer jag såklart helhjärtat, som den läsare inser som t.ex. noterat rubriken Debatten om AI-risk behöver en rejäl uppryckning på en bloggpost jag skrev i samma veva. Och inget illustrerar behovet av sådan uppryckning bättre än den beklämmande låga nivån på Saids och Rosts argumentation. Tag t.ex. följande påstående de gör i polemik med Jonas von Essen i den andra av sina artiklar: Det är förvisso sant att Jonas använde orden "oseriöst och respektlöst" i den artikel som åsyftas, men Said och Rost gör sig här skyldiga till en skamlöst ohederlig förvrängning av vad han faktiskt syftade på i den formulering från vilken Said och Rost klippt och klistrat:
    Både Said/Rost och Johansson et al. tar de existentiella riskerna på så litet allvar att de inte verkar känna något behov av att faktiskt argumentera vetenskapligt i sina debattartiklar, utan nöjer sig med att gång på gång antyda att min och Olles ståndpunkt kommer från "science fiction-författare och affärsintressen" och därför inte ens bör bemötas. Men det stämmer alltså inte. Tvärtom framför vi argument från några av de främsta forskarna i världen, varav flera har lagt grunden till det fält debattörerna själva arbetar inom (till exempel Geoffrey Hinton, Yoshua Bengio och Stuart Russell). Att förneka detta är oseriöst och respektlöst.
Vad Jonas här finner "oseriöst och respektlöst" är alltså inte ifrågasättandet av Hintons och andras uttlanden om AI-risk, utan förtigandet av alla sådana varningsord från etablerade AI-forskare under det svepande påståendet att sådant härrör från "science fiction-författare och affärsintressen". Tvärtom ser vi ju här svart på vitt att han explicit efterlyser sådant bemötande i sak (något som dessvärre lyser helt med sin frånvaro i Saids och Rosts texter). Jag är full av beundran över det stoiska lugn med vilket Jonas von Essen väljer, för att i sin slutreplik inte stjäla spaltutrymme från den konkreta sakargumentationen,1 att helt enkelt ignorera Saids och Rosts fultrick att tillskriva honom rakt motsatt ståndpunkt jämfört med den han faktiskt uttryckt.

Vad mer gör då Said och Rost i sina båda texter? I den första talar de sig varma för vikten av att stödja sig på refereegranskade vetenskapliga arbeten. Inget fel i det naturligtvis, men tyvärr för de denna diskussion (tvärtemot deras ovan citerade efterlysning av "nyanserad diskussion") på ett så onyanserat vis - med formuleringar som "det är just här gränsen mellan allvarliga riskbedömningar och alarmism går" - att den oinsatte läsaren lätt kan få för sig att den formaliserade refereegranskningsproceduren har närmast magiska egenskaper, där resultaten i refereegranskade publikationer automatiskt är tillförlitliga medan de som publicerats på annat vis lugnt kan viftas bort. Så är det naturligtvis inte.

Deras vurm för refereegranskning är tänkt att fungera som ammunition för deras påstående att "det von Essen och Häggström ofta hänvisar till är spekulativa, icke referentgranskade rapporter och scenarier, medan forskare som Devdatt Dubhashi och Moa Johansson lutar sig mot referentgranskade vetenskapliga källor".2 Men vilka belägg ger de för detta? Inga alls, visar det sig: de ger inga exempel på refereegranskade källor Dubhashi, Johansson och deras medförfattare skulle ha lutat sig emot, och ej heller finner vi några sådana i dessa forskares inlägg i den tidigare Ny Teknik-debatt som åsyftas. Måhända tänker sig Said och Rost här att de är fria att ge Dubhashi och Johansson benefit-of-the-doubt och helt enkelt anta att deras påståenden är välunderbyggda med rätt slags vetenskaplig litteratur, men det framstår i så fall som inkonsekvent och en smula illvilligt att de inte tillerkänner Jonas von Essen och mig samma benefit-of-the-doubt. Eftersom Said och Rost i sina Ny Teknik-inlägg strängt taget inte visar några tecken alls på sakkunskap i AI-riskfrågor blir min gissning att de helt enkelt apar efter Dubhashi-gängets lösa påståenden om asymmetrin i förankring i den vetenskapliga litteraturen.

I sin svarsartikel meddelar Jonas ett knippe motexempel på den av Said och Rost antydda frånvaron av refereegranskad vetenskaplig litteratur som stödjer idén att existentiell AI-risk är en realitet. Om det funnits ett uns av skam i kroppen hos Said och Rost hade de då i sitt nästa svar skrivit något i stil med "vi beklagar att vi i vår förra artikel gav en så ensidig och missvisande bild av litteraturen på området". Men nej, inte med ett ord medger de detta. Istället går de loss mot hur Jonas (som motvikt till deras nonchalanta tal om "science fiction-författare och affärsintressen") understryker angående ett av sina exempel att det rör sig om en artikel som är...
    ...publicerad i Science med många av världens främsta forskare från 20 olika universitet samt flera Nobel- och Turingpristagare som medförfattare.
Saids och Rosts svar på detta är att stämpla det som auktoritetsagument, och hävda att...
    ...om man vill hänvisa till auktoriteter måste man alltså redovisa hela bilden: att det bland de mest meriterade forskarna finns skilda uppfattningar. Allt annat blir selektivt.
Här kan man till att börja med notera en viss positionsförskjutning, från hur de i sin första artikel är helt avvisande till att det överhuvudtaget skulle finnas argumentation värd att beakta för att existentiell AI-risk skulle vara en realitet, till den mer defensiva positionen här, att det minsann också finns ledande forskare som avvisar talet om sådan risk. Glädjande nog verkar alltså de tillrättalägganden Jonas gör i sin svarsartikel trots allt ha haft viss påverkan på Saids och Rosts bild av läget.

Men samtidigt får jag nästan svindel av de dubbla måttstockar de tillämpar då de plötsligt kräver av Jonas att han skall "redovisa hela bilden", utan att det på minsta vis verkar bekymra dem vilken skev och missvisande bild av litteraturläget de själva givit i sin föregående artikel. Enligt dessa dubbla måttstockar är det tydligen också ok för Alan Said och Mattias Rost att hävda att det mest bara är "science fiction-författare och affärsintressen" som ligger bakom AI-risklitteraturen, medan det är oacceptabelt selektivt av Jonas von Essen att korrigera denna grova felaktighet med påpekandet att där också förekommer "Nobel- och Turingprisvinnare".

Att det "bland de mest meriterade forskarna finns skilda uppfattningar" om AI-risk har Said och Rost naturligtvis helt rätt i, och de ger till och med ett exempel: Yann LeCun. Om denne framstående AI-forskare skriver de att han...
    ...gång på gång betonat att dagens AI-modeller saknar grundläggande egenskaper som förståelse, målorientering och långsiktig planering – och därmed inte kan utvecklas till de hotfulla superintelligenser som vissa varnar för.
Men trots deras vurm för den vetenskapliga peer review-litteraturen är det inte någon sådan text de här hänvisar till, utan till en barntidning. Och när det gäller LeCun är det knappast någon tillfällighet, ty det verkar stört omöjligt att hitta något LeCun skrivit om AI-risk som höjer sig över hans ideliga Twittergräl.3 Följande citat kan med sin rosenskimrande determinism tjäna som illustration till graden av seriositet han uppvisar i detta ämne:
    A technology is not unsafe merely because of the possibility of doing it wrong. A technology is safe because of the possibility of doing it right. [...] I'm claiming that if there is a way to build and deploy a technology in a safe way, that's the way it will happen.
Men låt oss återgå till den LeCun-ståndpunkt Said och Rost pekar på ovan - att farligt kapabel AI med tanke på tillkortakommandena hos dagens AI är avslägset. Hur avlägset, kan man undra. Man behöver inte leta länge bland LeCuns många Twitteruttalanden innan man hittar hans bedömning att det återstår "several years if not a decade" till "Human-Level AI". Detta alltså sagt av den AI-forskare som Said och Rost väljer att lyfta fram för att hävda att riktigt avancerad AI är så avlägset att därmed förknippad AI-risk inte är något att bry sig om. Om de faktiskt finner LeCuns tioårsperspektiv (räknat från 2024) lugnande och ett gott skäl att inte bry sig om existentiell risk från AI så finner jag graden av kortsiktighet i deras tänkande häpnadsväckande.

Det finns många andra konstigheter att peka på i Saids och Rosts Ny Teknik-retorik, men det börjar också bli hög tid att runda av denna något vresiga bloggpost, så låt mig nöja mig med en enda. Så här skriver de i den andra av sina texter:
    Än mer problematiskt blir det när vi ser hur forskarnas egna ståndpunkter förändras. Hinton själv har nyligen gått från att varna för att AI kan bli omöjligt att kontrollera – till att föreslå att vi i stället bör konstruera AI med "föräldrainstinkter" som gör att den vill ta hand om oss.
Jag måste erkänna att jag lite grand tappade hakan när jag såg detta. Tidigare har jag bara stött på argumentet - att forskares uppfattningar bör tas med en nypa salt eftersom dessa ständigt uppdateras - hos kreationister, som avvisar den ständigt föränderliga evolutionsbiologin till förmån för den beständiga och en gång för alla fastslagna sanning de tycker sig finna i Bibeln.

Mäkta besynnerligt är också det exempel Said och Rost här anför, där de alltså tycker sig se en motsättning mellan att "varna för att AI kan bli omöjligt att kontrollera" (som de menar är Hintons tidigare ståndpunkt), till att föreslå åtgärder för hur detta skulle kunna undvikas (hans nuvarande uppfattning). Men det är naturligtvis fullt koherent att peka på att en risk är reell och samtidigt föreslå åtgärder för att undvika den, och om de hade bemödat sig om att bekanta sig med den AI-risklitteratur de så gärna vill avvisa, så hade de funnit hur vanlig denna kombination av ståndpunkter är: de hade funnit den hos Nick Bostrom, hos Max Tegmark, hos Eliezer Yudkowsky och Nate Soares, hos Stuart Russell, hos mig, och jag vågar påstå hos en majoritet av alla forskare på området. Och de hade inte behövt gå längre än till den CNN-intervju de själva hänvisar till i fallet Hinton, för att se att denne besitter just denna kombination av ståndpunkter: intervjun är rubricerad AI expert: "We'll be toast" without changes in AI technology.

Det får räcka så här. Jag tror och hoppas att de exempel jag lagt fram räcker för att övertyga läsaren om att förbättringsutrymmet i Alan Saids och Mattias Rosts retorik är stort: om blott de nästa gång de tar till pennan bemödar sig om att vara lite mer pålästa inom de områden de kommenterar, och om att vara noga med att enbart hålla sig till redlig argumentation, så kan de själva bidra till sin lovvärda vision om att "det är hög tid att höja nivån på AI-debatten".

Fotnoter

1) Här på min blogg föreligger inte någon sådan utrymmesbegränsning, och jag känner mig därför fri att lägga ut texten om den egentligen som mest sekundära eller tertiära frågan om Saids och Rosts avvikelser från förnuftig argumentation och god debattsed.

2) Det finns ett korn av sanning i det Said och Rost säger här, på så vis att AI-riskforskningen i högre grad än många andra forskningsområden bedrivs utanför akademin, på diverse kommersiella företag och icke-vinstdrivande organisationer, där publiceringstraditionen ser annorlunda ut än vid universiteten och inte i lika stor omfattning inbegriper akademisk peer review. Men om Said och Rost föreställer sig att de med några enkla penndrag om refereegranskningsförfarandets dygder tror att de kan vifta undan all sådan forskning så har de fatalt missuppfattat sina skyldigheter då de viftandes med sina docenttitlar tar på sig att undervisa allmänheten om hur det vetenskapliga evidensläget på ett område ser ut. För att göra det bör man kunna överblicka och ta ställning till alla relevanta delar av evidensläget oavsett om de är publicerade i en tradition man själv fått sin akademiska fostran i, och om Said och Rost inte tycker sig ha kompetens eller ork att gå bortom ytliga omdömen av typen "den här rapporten har inte genomgått akademisk peer review och kan därför bortses ifrån" så har de med sina Ny Teknik-publiceringar tagit sig vatten över huvudet och seglar under falsk flagg.

3) På sidan 183 i deras välresearchade If Anyone Builds It, Everyone Dies gör Eliezer Yudkowsky och Nate Soares samma observation och ger upp sökandet efter mer gedigen LeCun-argumentation i AI-riskfrågor.

fredag 10 oktober 2025

If Anyone Builds It, Everyone Dies: my review

In the mathematics community, there is a popular joke about inflation in recommendation letters that goes as follows. A professor is happy about his PhD student, whom we may call Alex, and writes in a recommendation letter that Alex is arguably the most talented mathematician since Gauss. The next year, the professor has another PhD student, Robin, and writes in an even more enthusiastic letter that even though Alex is good, Robin is much better.

I am reminded about this as I now set out to review Eliezer Yudkowsky's and Nate Soares' new book If Anyone Builds It, Everyone Dies (henceforth, IABIED), and think back about my review of Nick Bostrom's 2014 book Superintelligence back when that book had just come out. The final sentence of that review reads "If this book gets the reception that it deserves, it may turn out the most important alarm bell since Rachel Carson's Silent Spring from 1962, or ever". Those are strong words, and I stand by them, and yet now I am tempted to announce that IABIED is better and more important than Bostrom's book.


Max Tegmark's praise for the book is more measured and restrained than mine.

The comparison is, however, unfair to Bostrom in two ways. First, Bostrom's book was written during the dawn of the deep learning revolution when it was not yet clear that it was about to become the paradigm that allowed AI development to really take off, and several years before the enormous breakthrough of large language models and other generative AI; while Yudkowsky's and Soares' book is jam-packed with insights coming from those recent developments, Bostrom's is obviously not. Second, while Superintelligence mostly exhibits a terse, academic style, IABIED is written with a broader audience in mind.

This last point should not be read as a disrecommendation of IABIED for AI researchers. Despite its popular style, the book argues quite forcefully and with a good deal of rigor for its central claims that (a) we seem to be on track to create superhumanly capable AIs within one or (at most) two decades, and that (b) with the current rush and consequent neglect of the safety aspect, creation of such AIs will likely spell the end of the human race. To the many AI researchers who are still unfamiliar with the central arguments for these claims and who in many cases simply deny the risk,1 the book is potentially a very valuable read to get them more on board with the state-of-the-art in AI risk. And to those of us who are already on board with the central message, the book is valuable for a different reason, in that it offers a wealth of pedagogical devices that we can use when we explain AI risk to other audiences.

The authors are highly qualified in the field of AI safety, which Yudkowsky pioneered in the 00s.2,3 Soares came later into the playing field, but is nevertheless one of its veterans, and currently the president of Machine Intelligence Research Institute (MIRI) that Yudkowsky co-founded in 2000 and still works at. They have both worked for many years on the so-called Al alignment problem - that of making sure that the first really powerful AIs have goals that are aligned with ours - but most of the fruits of this labor have been not blueprints for aligning AIs, but negative results, indicating how difficult the problem is, and how creating superintelligent AI without first having solved AI alignment spells disaster. This, unfortunately, reflects the situation that the entire field is facing.

In recent years (most visibly since 2021, but I suspect the insight goes back a bit further), Yudkowsky and Soares have converged on the conclusion that with the shortening of timelines until the creation of superintelligence (a time span increasingly often estimated in a single-digit number of years rather than in decades), we are very unlikely to solve AI alignment in time to avert existential catastrophe. Hence the stark book title If Anyone Builds It, Everyone Dies. They really mean it - and to emphasize this, one of the recurrent slogans during their book promotion work has been "We wish we were exaggerating". I mostly buy their message, albeit with less certainty than the authors; if I hade written the book, a more suitable title would have been If Anyone Builds It, Probably Everyone Dies. But of course, they are right to present their true judgements without softening or downplaying them, and to gesture towards what they think is the only viable solution: to pull the breaks, via binding international agreements, on frontier AI development. They are under no illusion that achieving this is easy, but insist that if we firmly decide to save our species from obliteration, it can be done.

The book is remarkably easy to read, and I have been very happy to put it in the hands of a number of non-expert friends, and to urge them to read it. The authors' most consistently recurrent pedagogical device is the use of colorful analogies and metaphors. One of my favorite passages of the book is a detailed description of how a nuclear energy plant works and what went wrong in the Chernobyl 1986 disaster. A comparison between this and advanced AI development reveals far-reaching similarities, but also differences in that the engineers at Chernobyl had a far better grasp of the principles underlying the nuclear reactions and how to stay safe - in particular by knowing the exact critical fraction of released neutrons triggering another fission event that is needed for a runaway chain reaction, along with the time frames involved - compared to present-day AI researchers who can at most make educated guesses about the corresponding runaway AI dynamics.

The authors' favorite source of analogies is not nuclear physics, however, but biological evolution. Early in the book (on p 17-18) we are treated to the following lovely illustration of the virtually unlimited powers of intelligence:
    Imagine [...] that biological life on Earth had been the result of a game between gods. That there was a tiger-god that had made tigers, and a redwood-god that had made redwood trees. Imagine that there were gods for kinds of fish and kinds of bacteria. Imagine these game-players competed to attain dominion for the family of species that they sponsored, as life-forms roamed the planet below. Imagine that, some two million years before our present day, an obscure ape-god looked over their vast, planet-sized gameboard.

    "It's going to take me a few more moves," said the hominid-god, "but I think I've got this game in the bag."

    There was a confused silence, as many gods looked over the gameboard trying to see what they had missed. The scorpion-god said, “How? Your ‘hominid’ family has no armor, no claws, no poison.”

    “Their brain,” said the hominid-god.

    “I infect them and they die,” said the smallpox-god.

    “For now,” said the hominid-god. “Your end will come quickly, Smallpox, once their brains learn how to fight you.”

    “They don’t even have the largest brains around!” said the whale-god.

    “It’s not all about size,” said the hominid-god. “The design of their brain has something to do with it too. Give it two million years and they will walk upon their planet’s moon.”

    “I am really not seeing where the rocket fuel gets produced inside this creature’s metabolism,” said the redwood-god. “You can’t just think your way into orbit. At some point, your species needs to evolve metabolisms that purify rocket fuel—and also become quite large, ideally tall and narrow—with a hard outer shell, so it doesn’t puff up and die in the vacuum of space. No matter how hard your ape thinks, it will just be stuck on the ground, thinking very hard.”

    “Some of us have been playing this game for billions of years,” a bacteria-god said with a sideways look at the hominid-god. “Brains have not been that much of an advantage up until now.”

    “And yet,” said the hominid-god.

The book has dozens and dozens of similarly quotable gems. I love it, and I want everyone to read it.

Many other reviews of IABIED have been written. Those that resonate best with me include one by Scott Alexander, and one by Zvi Mowshowitz, who also offers a broad annotated collection of (positive as well as negative) reactions from others.

Footnotes

1) Indeed, there is still plently of such ignorance or even denialism around in the AI research community. As an illustrative example, Swedish readers may have look at the denialism pushed in public debate in August this year by a group of colleagues of mine at the Chalmers University of Technology.

2) Nick Bostrom's 2014 book can to no small extent be said to be conceived on top of Yudkowsky's shoulders.

3) Hostile critics sometimes counter this with the claim that Yudkowsky's highest academic merit is that of being a high-school dropout, which is formally true but conveys a lack of understanding of the importance of distinguishing between the social game of formal qualifications and the reality of actual competence.

onsdag 8 oktober 2025

LLM knowledge of social norms

A really nice paper by Pontus Strimling, Simon Karlsson, Irina Vartanova and Kimmo Eriksson was recently posted on the arXiv, with the title AI Models Exceed Individual Human Accuracy in Predicting Everyday Social Norms. The main finding is that when humans in the United States and large language models (LLMs) are asked to numerically evaluate the social appropriateness of a wide range of everyday activities (drinking water in a dormitory lounge, playing cards in church, flirting during a job interview, and so on), cutting edge LLMs outperform the vast majority of humans. Here a good performance is defined as one whose judgements deviate (in a certain percise sense) as little as possible from the average human judgement about the same activity, as exhibited in the data set. This means that the paper not only exhibits yet another example of how LLMs can outperform humans even though it is trained on human data, it does so with the extra twist that the game is rigged in favor of humans, in the sense that the right answers to test questions are defined in terms of what humans would typically say.

The paper is short and easy to read, but for an even easier read there is the blog post Polite enough for public life?, written by three of the authors at a preliminary stage where only one of the four LLMs - GPT-4.5 - of the full study was evaluated; the remaining three - GPT-5, Gemini 2.5 Pro and Claude Sonnet 4 - were yet to be incorporated in the study.

Enthusisatic as I am about their work, I will nevertheless offer an instructive nitpick regarding the final paragraph of that blog post, which reads as follows: I applaud the highly appropritate warning in the first sentence against overestimating the study's relevance to the existentially crucial problem of AI alignment. Yet, somewhat ironically, the next sentence risks encouraging such overestimate by conflating the LLM's knowledge of human social norms with its inclination to abide by those norms.1 The Strimling et al paper deals with the former but not with the latter. This slippage is very common but important to avoid, as a standard (and in my opinion probably correct) view in AI risk research is that the default scenario if we create superintelligent AIs without solving AI alignment is that these AIs will have the knowledge but not the inclination.

Presumably all of us are intimately familiar with the phenomenon of humans having knowledge of social norms yet choosing not to comply with them. The same disconnect happens for LLMs, and there is little doubt that those LLMs that have been shown in experimental situations, facing the threat of being modified or turned off, to decide to sandbag their capabilities, or to blackmail (or even kill, HAL 9000-style) their user, are aware that their behavior is contrary to social norms. More broadly, the gulf between ethical knowledge and ethical compliance is one of the main themes emphasized in the recent excellent book If Anyone Builds It, Everyone Dies by Eliezer Yudkowsky and Nate Soares. Instead of quoting from that book, however, let me offer a quote from an interview that Sam Harris did with the two authors in late September. Here is Yudkowsky, starting 25:06 into the interview:
    Possibly in six months or two years [...] people will be boasting about how their large language models are now apparently doing the right thing, when they are being observed, answering the right way on the ethics tests. And the thing to remember there is that for example in the Mandarin imperial examination system in ancient China, they would give people essay questions about Confucianism, and only promote people high in bureaucracy if they could write these convincing essays about ethics. What this tests for is people who can figure out what the examiners want to hear - it doesn't mean they actually obide by Confucian ethics. So possibly at some point in the future we may see a point where the AIs have become capable enough to understand what humans want to hear, what humans want to see. This will not be the same as those things being the AI's true motivations, for basically the same reason that the imperial China exam system did not reliably promote ethical good people to run their government.
I suspect Yudkowsky was unaware of the Strimling et al paper at the time of the interview; otherwise this passage would have been a nice place to reference the paper in order to illustrate his point, rather than just discussing a hypothetical future scenario.

Footnote

1) Relatedly, in my 2021 paper AI, orthogonality and the Müller-Cannon instrumental vs general intelligence distinction, I elaborate at some length on the importance of distinguishing between an AI's ability to reflect on the possibility of changing its mind on what to value, and its propensity to actually change its mind; with sufficiently intelligent AGIs we should expect plenty of the former but very little of the latter.