onsdag 15 oktober 2025

Om Alan Saids och Mattias Rosts maning till nivåhöjning i AI-debatten

De båda docenterna Alan Said och Mattias Rost vid institutionen för tillämpad IT på Göteborgs universitet klev förra månaden in i diskussionen om AI-risk via två debattartiklar i tidningen Ny Teknik. Det räcker med en hastig titt på de båda texternas avslutningsstycken för att förstå deras ärende: den 3 september menar de att "om AI-debatten ska leda någonstans måste vi höja nivån", och den 22 september inskärper de att "det är hög tid att höja nivån på AI-debatten".

I detta budskap instämmer jag såklart helhjärtat, som den läsare inser som t.ex. noterat rubriken Debatten om AI-risk behöver en rejäl uppryckning på en bloggpost jag skrev i samma veva. Och inget illustrerar behovet av sådan uppryckning bättre än den beklämmande låga nivån på Saids och Rosts argumentation. Tag t.ex. följande påstående de gör i polemik med Jonas von Essen i den andra av sina artiklar: Det är förvisso sant att Jonas använde orden "oseriöst och respektlöst" i den artikel som åsyftas, men Said och Rost gör sig här skyldiga till en skamlöst ohederlig förvrängning av vad han faktiskt syftade på i den formulering från vilken Said och Rost klippt och klistrat:
    Både Said/Rost och Johansson et al. tar de existentiella riskerna på så litet allvar att de inte verkar känna något behov av att faktiskt argumentera vetenskapligt i sina debattartiklar, utan nöjer sig med att gång på gång antyda att min och Olles ståndpunkt kommer från "science fiction-författare och affärsintressen" och därför inte ens bör bemötas. Men det stämmer alltså inte. Tvärtom framför vi argument från några av de främsta forskarna i världen, varav flera har lagt grunden till det fält debattörerna själva arbetar inom (till exempel Geoffrey Hinton, Yoshua Bengio och Stuart Russell). Att förneka detta är oseriöst och respektlöst.
Vad Jonas här finner "oseriöst och respektlöst" är alltså inte ifrågasättandet av Hintons och andras uttlanden om AI-risk, utan förtigandet av alla sådana varningsord från etablerade AI-forskare under det svepande påståendet att sådant härrör från "science fiction-författare och affärsintressen". Tvärtom ser vi ju här svart på vitt att han explicit efterlyser sådant bemötande i sak (något som dessvärre lyser helt med sin frånvaro i Saids och Rosts texter). Jag är full av beundran över det stoiska lugn med vilket Jonas von Essen väljer, för att i sin slutreplik inte stjäla spaltutrymme från den konkreta sakargumentationen,1 att helt enkelt ignorera Saids och Rosts fultrick att tillskriva honom rakt motsatt ståndpunkt jämfört med den han faktiskt uttryckt.

Vad mer gör då Said och Rost i sina båda texter? I den första talar de sig varma för vikten av att stödja sig på refereegranskade vetenskapliga arbeten. Inget fel i det naturligtvis, men tyvärr för de denna diskussion (tvärtemot deras ovan citerade efterlysning av "nyanserad diskussion") på ett så onyanserat vis - med formuleringar som "det är just här gränsen mellan allvarliga riskbedömningar och alarmism går" - att den oinsatte läsaren lätt kan få för sig att den formaliserade refereegranskningsproceduren har närmast magiska egenskaper, där resultaten i refereegranskade publikationer automatiskt är tillförlitliga medan de som publicerats på annat vis lugnt kan viftas bort. Så är det naturligtvis inte.

Deras vurm för refereegranskning är tänkt att fungera som ammunition för deras påstående att "det von Essen och Häggström ofta hänvisar till är spekulativa, icke referentgranskade rapporter och scenarier, medan forskare som Devdatt Dubhashi och Moa Johansson lutar sig mot referentgranskade vetenskapliga källor".2 Men vilka belägg ger de för detta? Inga alls, visar det sig: de ger inga exempel på refereegranskade källor Dubhashi, Johansson och deras medförfattare skulle ha lutat sig emot, och ej heller finner vi några sådana i dessa forskares inlägg i den tidigare Ny Teknik-debatt som åsyftas. Måhända tänker sig Said och Rost här att de är fria att ge Dubhashi och Johansson benefit-of-the-doubt och helt enkelt anta att deras påståenden är välunderbyggda med rätt slags vetenskaplig litteratur, men det framstår i så fall som inkonsekvent och en smula illvilligt att de inte tillerkänner Jonas von Essen och mig samma benefit-of-the-doubt. Eftersom Said och Rost i sina Ny Teknik-inlägg strängt taget inte visar några tecken alls på sakkunskap i AI-riskfrågor blir min gissning att de helt enkelt apar efter Dubhashi-gängets lösa påståenden om asymmetrin i förankring i den vetenskapliga litteraturen.

I sin svarsartikel meddelar Jonas ett knippe motexempel på den av Said och Rost antydda frånvaron av refereegranskad vetenskaplig litteratur som stödjer idén att existentiell AI-risk är en realitet. Om det funnits ett uns av skam i kroppen hos Said och Rost hade de då i sitt nästa svar skrivit något i stil med "vi beklagar att vi i vår förra artikel gav en så ensidig och missvisande bild av litteraturen på området". Men nej, inte med ett ord medger de detta. Istället går de loss mot hur Jonas (som motvikt till deras nonchalanta tal om "science fiction-författare och affärsintressen") understryker angående ett av sina exempel att det rör sig om en artikel som är...
    ...publicerad i Science med många av världens främsta forskare från 20 olika universitet samt flera Nobel- och Turingpristagare som medförfattare.
Saids och Rosts svar på detta är att stämpla det som auktoritetsagument, och hävda att...
    ...om man vill hänvisa till auktoriteter måste man alltså redovisa hela bilden: att det bland de mest meriterade forskarna finns skilda uppfattningar. Allt annat blir selektivt.
Här kan man till att börja med notera en viss positionsförskjutning, från hur de i sin första artikel är helt avvisande till att det överhuvudtaget skulle finnas argumentation värd att beakta för att existentiell AI-risk skulle vara en realitet, till den mer defensiva positionen här, att det minsann också finns ledande forskare som avvisar talet om sådan risk. Glädjande nog verkar alltså de tillrättalägganden Jonas gör i sin svarsartikel trots allt ha haft viss påverkan på Saids och Rosts bild av läget.

Men samtidigt får jag nästan svindel av de dubbla måttstockar de tillämpar då de plötsligt kräver av Jonas att han skall "redovisa hela bilden", utan att det på minsta vis verkar bekymra dem vilken skev och missvisande bild av litteraturläget de själva givit i sin föregående artikel. Enligt dessa dubbla måttstockar är det tydligen också ok för Alan Said och Mattias Rost att hävda att det mest bara är "science fiction-författare och affärsintressen" som ligger bakom AI-risklitteraturen, medan det är oacceptabelt selektivt av Jonas von Essen att korrigera denna grova felaktighet med påpekandet att där också förekommer "Nobel- och Turingprisvinnare".

Att det "bland de mest meriterade forskarna finns skilda uppfattningar" om AI-risk har Said och Rost naturligtvis helt rätt i, och de ger till och med ett exempel: Yann LeCun. Om denne framstående AI-forskare skriver de att han...
    ...gång på gång betonat att dagens AI-modeller saknar grundläggande egenskaper som förståelse, målorientering och långsiktig planering – och därmed inte kan utvecklas till de hotfulla superintelligenser som vissa varnar för.
Men trots deras vurm för den vetenskapliga peer review-litteraturen är det inte någon sådan text de här hänvisar till, utan till en barntidning. Och när det gäller LeCun är det knappast någon tillfällighet, ty det verkar stört omöjligt att hitta något LeCun skrivit om AI-risk som höjer sig över hans ideliga Twittergräl.3 Följande citat kan med sin rosenskimrande determinism tjäna som illustration till graden av seriositet han uppvisar i detta ämne:
    A technology is not unsafe merely because of the possibility of doing it wrong. A technology is safe because of the possibility of doing it right. [...] I'm claiming that if there is a way to build and deploy a technology in a safe way, that's the way it will happen.
Men låt oss återgå till den LeCun-ståndpunkt Said och Rost pekar på ovan - att farligt kapabel AI med tanke på tillkortakommandena hos dagens AI är avslägset. Hur avlägset, kan man undra. Man behöver inte leta länge bland LeCuns många Twitteruttalanden innan man hittar hans bedömning att det återstår "several years if not a decade" till "Human-Level AI". Detta alltså sagt av den AI-forskare som Said och Rost väljer att lyfta fram för att hävda att riktigt avancerad AI är så avlägset att därmed förknippad AI-risk inte är något att bry sig om. Om de faktiskt finner LeCuns tioårsperspektiv (räknat från 2024) lugnande och ett gott skäl att inte bry sig om existentiell risk från AI så finner jag graden av kortsiktighet i deras tänkande häpnadsväckande.

Det finns många andra konstigheter att peka på i Saids och Rosts Ny Teknik-retorik, men det börjar också bli hög tid att runda av denna något vresiga bloggpost, så låt mig nöja mig med en enda. Så här skriver de i den andra av sina texter:
    Än mer problematiskt blir det när vi ser hur forskarnas egna ståndpunkter förändras. Hinton själv har nyligen gått från att varna för att AI kan bli omöjligt att kontrollera – till att föreslå att vi i stället bör konstruera AI med "föräldrainstinkter" som gör att den vill ta hand om oss.
Jag måste erkänna att jag lite grand tappade hakan när jag såg detta. Tidigare har jag bara stött på argumentet - att forskares uppfattningar bör tas med en nypa salt eftersom dessa ständigt uppdateras - hos kreationister, som avvisar den ständigt föränderliga evolutionsbiologin till förmån för den beständiga och en gång för alla fastslagna sanning de tycker sig finna i Bibeln.

Mäkta besynnerligt är också det exempel Said och Rost här anför, där de alltså tycker sig se en motsättning mellan att "varna för att AI kan bli omöjligt att kontrollera" (som de menar är Hintons tidigare ståndpunkt), till att föreslå åtgärder för hur detta skulle kunna undvikas (hans nuvarande uppfattning). Men det är naturligtvis fullt koherent att peka på att en risk är reell och samtidigt föreslå åtgärder för att undvika den, och om de hade bemödat sig om att bekanta sig med den AI-risklitteratur de så gärna vill avvisa, så hade de funnit hur vanlig denna kombination av ståndpunkter är: de hade funnit den hos Nick Bostrom, hos Max Tegmark, hos Eliezer Yudkowsky och Nate Soares, hos Stuart Russell, hos mig, och jag vågar påstå hos en majoritet av alla forskare på området. Och de hade inte behövt gå längre än till den CNN-intervju de själva hänvisar till i fallet Hinton, för att se att denne besitter just denna kombination av ståndpunkter: intervjun är rubricerad AI expert: "We'll be toast" without changes in AI technology.

Det får räcka så här. Jag tror och hoppas att de exempel jag lagt fram räcker för att övertyga läsaren om att förbättringsutrymmet i Alan Saids och Mattias Rosts retorik är stort: om blott de nästa gång de tar till pennan bemödar sig om att vara lite mer pålästa inom de områden de kommenterar, och om att vara noga med att enbart hålla sig till redlig argumentation, så kan de själva bidra till sin lovvärda vision om att "det är hög tid att höja nivån på AI-debatten".

Fotnoter

1) Här på min blogg föreligger inte någon sådan utrymmesbegränsning, och jag känner mig därför fri att lägga ut texten om den egentligen som mest sekundära eller tertiära frågan om Saids och Rosts avvikelser från förnuftig argumentation och god debattsed.

2) Det finns ett korn av sanning i det Said och Rost säger här, på så vis att AI-riskforskningen i högre grad än många andra forskningsområden bedrivs utanför akademin, på diverse kommersiella företag och icke-vinstdrivande organisationer, där publiceringstraditionen ser annorlunda ut än vid universiteten och inte i lika stor omfattning inbegriper akademisk peer review. Men om Said och Rost föreställer sig att de med några enkla penndrag om refereegranskningsförfarandets dygder tror att de kan vifta undan all sådan forskning så har de fatalt missuppfattat sina skyldigheter då de viftandes med sina docenttitlar tar på sig att undervisa allmänheten om hur det vetenskapliga evidensläget på ett område ser ut. För att göra det bör man kunna överblicka och ta ställning till alla relevanta delar av evidensläget oavsett om de är publicerade i en tradition man själv fått sin akademiska fostran i, och om Said och Rost inte tycker sig ha kompetens eller ork att gå bortom ytliga omdömen av typen "den här rapporten har inte genomgått akademisk peer review och kan därför bortses ifrån" så har de med sina Ny Teknik-publiceringar tagit sig vatten över huvudet och seglar under falsk flagg.

3) På sidan 183 i deras välresearchade If Anyone Builds It, Everyone Dies gör Eliezer Yudkowsky och Nate Soares samma observation och ger upp sökandet efter mer gedigen LeCun-argumentation i AI-riskfrågor.

fredag 10 oktober 2025

If Anyone Builds It, Everyone Dies: my review

In the mathematics community, there is a popular joke about inflation in recommendation letters that goes as follows. A professor is happy about his PhD student, whom we may call Alex, and writes in a recommendation letter that Alex is arguably the most talented mathematician since Gauss. The next year, the professor has another PhD student, Robin, and writes in an even more enthusiastic letter that even though Alex is good, Robin is much better.

I am reminded about this as I now set out to review Eliezer Yudkowsky's and Nate Soares' new book If Anyone Builds It, Everyone Dies (henceforth, IABIED), and think back about my review of Nick Bostrom's 2014 book Superintelligence back when that book had just come out. The final sentence of that review reads "If this book gets the reception that it deserves, it may turn out the most important alarm bell since Rachel Carson's Silent Spring from 1962, or ever". Those are strong words, and I stand by them, and yet now I am tempted to announce that IABIED is better and more important than Bostrom's book.


Max Tegmark's praise for the book is more measured and restrained than mine.

The comparison is, however, unfair to Bostrom in two ways. First, Bostrom's book was written during the dawn of the deep learning revolution when it was not yet clear that it was about to become the paradigm that allowed AI development to really take off, and several years before the enormous breakthrough of large language models and other generative AI; while Yudkowsky's and Soares' book is jam-packed with insights coming from those recent developments, Bostrom's is obviously not. Second, while Superintelligence mostly exhibits a terse, academic style, IABIED is written with a broader audience in mind.

This last point should not be read as a disrecommendation of IABIED for AI researchers. Despite its popular style, the book argues quite forcefully and with a good deal of rigor for its central claims that (a) we seem to be on track to create superhumanly capable AIs within one or (at most) two decades, and that (b) with the current rush and consequent neglect of the safety aspect, creation of such AIs will likely spell the end of the human race. To the many AI researchers who are still unfamiliar with the central arguments for these claims and who in many cases simply deny the risk,1 the book is potentially a very valuable read to get them more on board with the state-of-the-art in AI risk. And to those of us who are already on board with the central message, the book is valuable for a different reason, in that it offers a wealth of pedagogical devices that we can use when we explain AI risk to other audiences.

The authors are highly qualified in the field of AI safety, which Yudkowsky pioneered in the 00s.2,3 Soares came later into the playing field, but is nevertheless one of its veterans, and currently the president of Machine Intelligence Research Institute (MIRI) that Yudkowsky co-founded in 2000 and still works at. They have both worked for many years on the so-called Al alignment problem - that of making sure that the first really powerful AIs have goals that are aligned with ours - but most of the fruits of this labor have been not blueprints for aligning AIs, but negative results, indicating how difficult the problem is, and how creating superintelligent AI without first having solved AI alignment spells disaster. This, unfortunately, reflects the situation that the entire field is facing.

In recent years (most visibly since 2021, but I suspect the insight goes back a bit further), Yudkowsky and Soares have converged on the conclusion that with the shortening of timelines until the creation of superintelligence (a time span increasingly often estimated in a single-digit number of years rather than in decades), we are very unlikely to solve AI alignment in time to avert existential catastrophe. Hence the stark book title If Anyone Builds It, Everyone Dies. They really mean it - and to emphasize this, one of the recurrent slogans during their book promotion work has been "We wish we were exaggerating". I mostly buy their message, albeit with less certainty than the authors; if I hade written the book, a more suitable title would have been If Anyone Builds It, Probably Everyone Dies. But of course, they are right to present their true judgements without softening or downplaying them, and to gesture towards what they think is the only viable solution: to pull the breaks, via binding international agreements, on frontier AI development. They are under no illusion that achieving this is easy, but insist that if we firmly decide to save our species from obliteration, it can be done.

The book is remarkably easy to read, and I have been very happy to put it in the hands of a number of non-expert friends, and to urge them to read it. The authors' most consistently recurrent pedagogical device is the use of colorful analogies and metaphors. One of my favorite passages of the book is a detailed description of how a nuclear energy plant works and what went wrong in the Chernobyl 1986 disaster. A comparison between this and advanced AI development reveals far-reaching similarities, but also differences in that the engineers at Chernobyl had a far better grasp of the principles underlying the nuclear reactions and how to stay safe - in particular by knowing the exact critical fraction of released neutrons triggering another fission event that is needed for a runaway chain reaction, along with the time frames involved - compared to present-day AI researchers who can at most make educated guesses about the corresponding runaway AI dynamics.

The authors' favorite source of analogies is not nuclear physics, however, but biological evolution. Early in the book (on p 17-18) we are treated to the following lovely illustration of the virtually unlimited powers of intelligence:
    Imagine [...] that biological life on Earth had been the result of a game between gods. That there was a tiger-god that had made tigers, and a redwood-god that had made redwood trees. Imagine that there were gods for kinds of fish and kinds of bacteria. Imagine these game-players competed to attain dominion for the family of species that they sponsored, as life-forms roamed the planet below. Imagine that, some two million years before our present day, an obscure ape-god looked over their vast, planet-sized gameboard.

    "It's going to take me a few more moves," said the hominid-god, "but I think I've got this game in the bag."

    There was a confused silence, as many gods looked over the gameboard trying to see what they had missed. The scorpion-god said, “How? Your ‘hominid’ family has no armor, no claws, no poison.”

    “Their brain,” said the hominid-god.

    “I infect them and they die,” said the smallpox-god.

    “For now,” said the hominid-god. “Your end will come quickly, Smallpox, once their brains learn how to fight you.”

    “They don’t even have the largest brains around!” said the whale-god.

    “It’s not all about size,” said the hominid-god. “The design of their brain has something to do with it too. Give it two million years and they will walk upon their planet’s moon.”

    “I am really not seeing where the rocket fuel gets produced inside this creature’s metabolism,” said the redwood-god. “You can’t just think your way into orbit. At some point, your species needs to evolve metabolisms that purify rocket fuel—and also become quite large, ideally tall and narrow—with a hard outer shell, so it doesn’t puff up and die in the vacuum of space. No matter how hard your ape thinks, it will just be stuck on the ground, thinking very hard.”

    “Some of us have been playing this game for billions of years,” a bacteria-god said with a sideways look at the hominid-god. “Brains have not been that much of an advantage up until now.”

    “And yet,” said the hominid-god.

The book has dozens and dozens of similarly quotable gems. I love it, and I want everyone to read it.

Many other reviews of IABIED have been written. Those that resonate best with me include one by Scott Alexander, and one by Zvi Mowshowitz, who also offers a broad annotated collection of (positive as well as negative) reactions from others.

Footnotes

1) Indeed, there is still plently of such ignorance or even denialism around in the AI research community. As an illustrative example, Swedish readers may have look at the denialism pushed in public debate in August this year by a group of colleagues of mine at the Chalmers University of Technology.

2) Nick Bostrom's 2014 book can to no small extent be said to be conceived on top of Yudkowsky's shoulders.

3) Hostile critics sometimes counter this with the claim that Yudkowsky's highest academic merit is that of being a high-school dropout, which is formally true but conveys a lack of understanding of the importance of distinguishing between the social game of formal qualifications and the reality of actual competence.

onsdag 8 oktober 2025

LLM knowledge of social norms

A really nice paper by Pontus Strimling, Simon Karlsson, Irina Vartanova and Kimmo Eriksson was recently posted on the arXiv, with the title AI Models Exceed Individual Human Accuracy in Predicting Everyday Social Norms. The main finding is that when humans in the United States and large language models (LLMs) are asked to numerically evaluate the social appropriateness of a wide range of everyday activities (drinking water in a dormitory lounge, playing cards in church, flirting during a job interview, and so on), cutting edge LLMs outperform the vast majority of humans. Here a good performance is defined as one whose judgements deviate (in a certain percise sense) as little as possible from the average human judgement about the same activity, as exhibited in the data set. This means that the paper not only exhibits yet another example of how LLMs can outperform humans even though it is trained on human data, it does so with the extra twist that the game is rigged in favor of humans, in the sense that the right answers to test questions are defined in terms of what humans would typically say.

The paper is short and easy to read, but for an even easier read there is the blog post Polite enough for public life?, written by three of the authors at a preliminary stage where only one of the four LLMs - GPT-4.5 - of the full study was evaluated; the remaining three - GPT-5, Gemini 2.5 Pro and Claude Sonnet 4 - were yet to be incorporated in the study.

Enthusisatic as I am about their work, I will nevertheless offer an instructive nitpick regarding the final paragraph of that blog post, which reads as follows: I applaud the highly appropritate warning in the first sentence against overestimating the study's relevance to the existentially crucial problem of AI alignment. Yet, somewhat ironically, the next sentence risks encouraging such overestimate by conflating the LLM's knowledge of human social norms with its inclination to abide by those norms.1 The Strimling et al paper deals with the former but not with the latter. This slippage is very common but important to avoid, as a standard (and in my opinion probably correct) view in AI risk research is that the default scenario if we create superintelligent AIs without solving AI alignment is that these AIs will have the knowledge but not the inclination.

Presumably all of us are intimately familiar with the phenomenon of humans having knowledge of social norms yet choosing not to comply with them. The same disconnect happens for LLMs, and there is little doubt that those LLMs that have been shown in experimental situations, facing the threat of being modified or turned off, to decide to sandbag their capabilities, or to blackmail (or even kill, HAL 9000-style) their user, are aware that their behavior is contrary to social norms. More broadly, the gulf between ethical knowledge and ethical compliance is one of the main themes emphasized in the recent excellent book If Anyone Builds It, Everyone Dies by Eliezer Yudkowsky and Nate Soares. Instead of quoting from that book, however, let me offer a quote from an interview that Sam Harris did with the two authors in late September. Here is Yudkowsky, starting 25:06 into the interview:
    Possibly in six months or two years [...] people will be boasting about how their large language models are now apparently doing the right thing, when they are being observed, answering the right way on the ethics tests. And the thing to remember there is that for example in the Mandarin imperial examination system in ancient China, they would give people essay questions about Confucianism, and only promote people high in bureaucracy if they could write these convincing essays about ethics. What this tests for is people who can figure out what the examiners want to hear - it doesn't mean they actually obide by Confucian ethics. So possibly at some point in the future we may see a point where the AIs have become capable enough to understand what humans want to hear, what humans want to see. This will not be the same as those things being the AI's true motivations, for basically the same reason that the imperial China exam system did not reliably promote ethical good people to run their government.
I suspect Yudkowsky was unaware of the Strimling et al paper at the time of the interview; otherwise this passage would have been a nice place to reference the paper in order to illustrate his point, rather than just discussing a hypothetical future scenario.

Footnote

1) Relatedly, in my 2021 paper AI, orthogonality and the Müller-Cannon instrumental vs general intelligence distinction, I elaborate at some length on the importance of distinguishing between an AI's ability to reflect on the possibility of changing its mind on what to value, and its propensity to actually change its mind; with sufficiently intelligent AGIs we should expect plenty of the former but very little of the latter.

fredag 19 september 2025

Debatten om AI-risk behöver en rejäl uppryckning

Den debatt om AI-risk som fyra av mina Chalmerskollegor förde i förra månaden i tidningen Ny Teknik och annorstädes, i hög grad med mig som måltavla, har fått nya förgreningar sedan jag rapporterade om den i ett par tidigare bloggposter. Jag har nu spelat in en videoföreläsning i vilken jag reflekterar kring den uppseendeväckande usla nivå dessa Chalmerskollegor uppvisar såväl i originaldebatten som i senare utspel. Så när som på glädjen i att se Jonas von Essens sakliga och kompetenta nedplockningar av deras retorik (såväl i Ny Teknik som i Aftonbladet) har debatten mestadels varit en nedslående upplevelse. Min initiala ambition var att göra föreläsningen någorlunda kort, och för det syftet har jag bara behandlat ett urval av Chalmerskollegornas mest flagranta dumheter, men när inspelningen var klar fann jag att den dessvärre ändå blivit lika lång som en ordinär långfilm. Här är den i alla fall:

tisdag 9 september 2025

A message from Guido Reichstadter, who is on hunger strike outside Anthropic's offices

I am somewhat in two minds about the leading AI company Anthropic. On one hand, they are pretty much the world's best AI safety lab, producing so much extraordinarily interesting work, such as their papers on Alignment faking in large language models and on Agentic misalignment. For that I love them. On the other hand, that work is deeply insufficient for robustly protecting against AI apocalypse, and yet they push full speed ahead on capabilities in a way that makes them one of the main contributors to the reckless race towards the AGI precipice. For that I detest them.

Those are mixed feelings. On balance, though, I do not think their work on AI safety makes up for their reckless endangering of all of our lives.

An increasing number of people are reaching a similar conclusion, including in particular Guido Reichstadter, who is currently on his 8th day of hunger strike outside Anthropic's offices in San Francisco.1 For this, he has my deepest admiration and respect. Here is his message from yesterday:
    Hey it’s Guido! It’s Day 7 out here in front of Anthropic, going strong!

    Last week I delivered a letter to the security desk addressed to Dario Amodei, asking him to stop putting the lives of my family and our community in danger through his reckless participation in the race to dangerous AI which he acknowledges risks the lives of everyone on Earth, and to do everything in his power to stop the global AI race. I told him I would be waiting outside his offices at 500 Howard Street, San Francisco, untill he responds.

    I figure that if a man has consciuosly decided to put my life at risk of imminent harm, as well as the lives of my family - not to mention everyone on Earth - he owes it to me to look me in the eyes and tell me why he won’t stop doing so.

    I’ve been outside his offices for 7 days so far, and haven’t heard a word from Mr. Amodei. Not a single Anthropic employee has taken the time of day to talk to the man starving outside their doors. Most of them keep their eyes to the ground as they leave the lobby I’m posted squarely in front of, as though the granite flooring had suddenly captured their attention. Maybe Mr. Amodei and his employees don’t think my petition that he respect my life and the lives of our community deserves a response. Maybe he thinks my right to life and the lives of my family deserve as much attention as a piece of dirt. If that is the case then you can be sure he thinks your life deserves as much respect too, and that’s how much he will give it as he continues to develop the most dangerous technology on the planet.

    I believe that Mr. Amodei will conduct himself honorably and explain himself face to face. I worry perhaps that he might not have got my letter though, so I’m posting it publicly to him here. And I’d like to encourage everyone reading this to share this to the public accounts of Mr. Amodei and all the Anthropic employees, and to encourage him to meet with the man waiting outside his door.

    Here is the text of the letter I delivered to the front desk of Anthropic’s offices at 500 Howard street:

    To Dario Amodei, CEO Anthropic
    September 2, 2025

    Mr. Amodei-
    My name is Guido Reichstadter. I am full of grief and concern for the safety and well-being of my family and loved ones as well as people everywhere who are endangered by the project to build artificial general intelligence and superintelligence which Anthropic is contributing to under your leadership.

    I request that you stop endangering all of us by the pursuit of these AI systems and request that you join the effort to end this threat by ending these projects globally. I also exhort you to do everything in your ability to make our society aware of the serious and urgent danger it is in on account of the AI emergency.

    For the sake of my children and with the urgency and gravity of our situation in my heart I have begun a hunger strike outside of the Anthropic offices at 500 Howard street while I await your response.

    Sincerely,
    Guido Reichstadter

Well said! And surely Dario Amodei will grant Guido Reichstadter a meeting? If and when that happens, I have a paper which I completed last month and which I believe can be useful as discussion material for that meeting: Advanced AI and the ethics of risking everything.

Footnote

1) Simultaneously, Michaël Trazzi and Denys Sheremet are on a similar hunger strike outside the offices of Google DeepMind in London. They, too, have my admiration and respect.

fredag 29 augusti 2025

AI-riskförnekarargumentationens ihålighet: ett illustrativt exempel

I mina två senste bloggposter (16 augusti respektive 22 augusti) har jag rapporterat om ett meningsutbyte i tidningen Ny Teknik i vilket jag av fyra Chalmerskollegor angrips för att bedriva skrämselpropaganda i mitt tal om AI-risk, jämte en radiodebatt mellan mig och en av de fyra - Moa Johansson - som ägde rum i Sveriges Radios Studio Ett mitt under den pågående skriftväxlingen. Som framgår av min bloggrapportering är jag djupt kritisk mot nivån på de fyra kollegornas retorik.

Men det tog inte slut där, för i tisdags (den 26 augusti) tussades jag på nytt ihop med Moa Johansson, denna gång i SVT:s Aktuellt, med programledren Nike Nylander som moderator. Det jag vill göra här är att sätta strålkastarljuset på Johanssons avslutningsreplik, som trots att den blott består av några få meningar utgör ett slags koncentrat av mycket av den ihålighet som brukar prägla det slags AI-riskförnekarargumentation som det här handlar om.0

För lite kontext återger jag här även min egen (som det skulle visa sig) sista replik.1 Min debattmotståndare hade just avfärdat hela den AI-riskforskning jag försöker torgföra som blott bestående av spekulativa filosofiska tankeexperiment, utan förankring i empiriska observationer.
    NN: Olle Häggström, det är rena spekulationer säger Moa Johansson här.

    OH: Det känns inte som att hon har en riktigt aktuell bild av hur AI-riskforskningen ser ut. För tio år sedan så hade det legat ganska mycket i den här bilden. Då dominerades forskningen av tankeexperiment, abstrakta modeller, och så vidare, som man tänkte kring. Men vad som hände då, det var att AI-riskforskare förutspådde med hjälp av de här modellerna att AI-system kan komma att utveckla självbevarelsedrift, och bete sig lögnaktigt och manipulativt, och motstå försök att stänga av dem, och sådana saker. Och de här grejerna, de observerar vi nu, i den ena efter den andra av empiriska studier. Så det här är exempel på de data som man faktiskt börjar se nu. Det finns andra data, som handlar om hur snabbt AI-utvecklingen går, och som ger möjlighet att extrapolera in i framtiden. Ingenting här är säkert, men när man extrapolerar en trend, och den går i alarmerande riktning, då behöver man i alla fall ta den på allvar menar jag.

    NN: Moa Johansson, jag vill fråga dig: det här, för oss som inte kan så mycket om det här så är det här väldigt konstigt ändå att ni som kan jättemycket om AI landar i så här helt olika slutsatser. Vad tänker du om det, att ni forskare tycker så här olika om en så otroligt viktig fråga?

    MJ: Jag vill då påpeka att som Olle säger att jag inte följt med i någon AI-risklitteratur så tänker jag att Olle Häggström kanske inte ändå har följt med tillräckligt djupt in i den tekniska litteraturen, för då skulle han kunna känna igen att de här scenarierna som han nämner, att AI inte vill bli avstängd, och så vidare, det finns ingen grund för det. Det är, återigen, spekulationer och hype. Man måste skilja på det som är kanske hype, ren reklam från vissa AI-företag som vill släppa en spektakulär pressrelease. Men det stämmer helt enkelt inte att det finns några empiriska fakta att AI-system inte skulle vilja bli avstängda. När man talar om stora språkmodeller, som producerar text, så kan man få en stor språkmodell att säga väldigt mycket olika saker, "jag vill inte bli avstängd", och det beror ju på att stora språkmodeller är tränade på data från internet. På internet finns även alla de här science fiction-historierna som har cirkulerat sedan AI:s födelse. AI, maskinintelligens, är ett av de mest populära ämnena för science fiction, tillsammans med rymdresor.

Här avbröt Nike Nylander med meddelandet att tiden för vårt samtal dessvärre var ute. Jag vet inte om Moa Johansson avsiktligt spekulerade i om det här skulle bli sista ordet, men på det här visat slapp hon i alla fall få de förödande bristerna i sin argumentation påpekade. I annat fall hade jag kunnat lyfta fram någon eller några av följande punkter:
  • Det är såklart inte behagligt att få sin egen okunskap påpekad i direktsänd TV, men Moa Johansson bäddade själv för detta med sina svepande påståenden om ett forskningsområde som hon uppenbarligen blott har den allra ytligaste bekantskap med, och hennes tu quoque-svar är verkligen bisarrt. Hon påstår att mitt tal om hur man observerat olika slags adversariellt strategiskt agerande hos stora språkmodeller är grundlöst, och att jag skulle ha insett detta om blott jag hade "följt med tillräckligt djupt in i den tekniska litteraturen". Vad blir då hennes diagnos på exempelvis världens mest citerade AI-forskare Yoshua Bengio, eller på världens näst mest citrade AI-forskare tillika Nobelpristagare Geoffrey Hinton, när de säger samma sak som jag i denna fråga? Har inte heller dessa båda herrar "följt med tillräckligt djupt in i den tekniska litteraturen"? Här kan jag känna en impuls att be Moa Johansson att visa mig (och herrarna Bengio och Hinton) de referenser som bevisar att något AI-agerande av det slag vi här talar om inte föreligger. Men min impuls är så klart meningslös: några sådana referenser finns inte, och hennes påstående är gripet ur luften. Eller för att tolka henne en liten aning mer välvilligt: om man som Moa Johansson är förtjust i "stochastic parrots"-begreppet och hör frasen "LLMs are just stochastic parrots" tillräckligt ofta, så kan man till slut få för sig att inga nya emergenta fenomen kan uppstå ur detta papegojande,2 glömsk av att den saken motbevisats hundra gånger om de senaste åren.
  • Moa Johansson försöker påskina att den evidens jag avser för att AI inte vill3 bli avstängd består av yttranden AI gjort av typen "jag vill inte bli avstängd". Om det stannade vid det skulle jag gå med på att evidensen var tämligen svag, för vi vet ju alla att när någon säger sig vilja något kan det inte alltid tas at face value.4 Men som Johansson myckt väl vet går de AI-system man experimenterat med längre än så, och agerar för att undgå avstängning. En studie från Apollo Research från slutet av förra året visar t.ex. hur en AI som fått tillgång till dokumentation som tyder på att den kan komma att stängas av om den i tester uppvisar färdigheter på en viss nivå väljer5 att i testerna mörka dessa färdigheter. Och en nyare studie från Anthropic visar hur den i samma syfte6 (att undgå avstängning) vidtar åtgärder för att försöka7 utpressa sin ägare, och i ett extremt scenario till och med mörda denne.
  • Moa Johansson hävdar att det är till följd av science fiction-historier i träningsdata där fiktiva AI försöker undgå avstängning som vi ser något liknande i laboratorieförsök med existerande AI. Detta är en intressant spekulation, men tvärtemot Johanssons tvärsäkra formulering är det just en spekulation.8 Men ok, låt oss för resonemangets skull anta att spekulationen är korrekt. Kan vi då på Johanssons vis avfärda fenomenet? Hon tycks tro det, men som jag skriver om saken i min förra bloggpost: "AI:s förmågor är vad de är, [och] att förklara ett fenomen är inte liktydigt med att påvisa att det inte finns".9
  • När man vill stänga sitt sinne helt för evidens i oönskad riktning kan man, som en sista desperat åtgärd, hävda att evidensen är förfalskad, exempelvis för att skapa "reklam" och att kunna "släppa en spektakulär pressrelease". Uppenbarligen är det så Moa Johansson ser på ovan nämnda studier från Apollo och Anthropic. Att hon sjunkit så djupt i sin argumentation är ett tydligt tecken på hur ohållbar hennes position är.
Men inget av detta fick jag alltså tillfälle att påpeka i Aktuellt-sändningen.

Slutligen. Några av dem som hört av sig till mig efter att ha sett Aktuellt-inslaget har antytt att jag verkade arg. Med anledning härav vill jag understryka att jag absolut inte har något emot samtal och debatter med rejält delade meningar. Så länge alla inblandade håller sig till intellektuellt hederlig argumentation är allt gott och väl, men när någon avviker alltför flagrant från det händer det att min sinnesstämning förmörkas en smula, och detta gäller i extra hög grad när det är en universitetsforskarkollega som förfaller till demagogi och oredlighet. Det kan ha varit något av detta som tv-tittarna anade bakom mitt ack så dåliga pokerface.

Fotnoter

0) Se även Jonas von Essens reflektioner om samma Aktuellt-debatt, i hans pinfärska artikel Riskerna med AI låter som science fiction - men går inte att vifta bort i Ny Teknik.

1) Jag ber läsaren ha översende med vilket slarvigt och ostrukturerat intryck talat språk nästan alltid ger så snart det sätts på pränt.

2) Denna bisarra tanke - analog med med att hävda att eftersom min hjärna blott består av atomer och elementarpartiklar så kan ingen tanke emergera i min hjärna som går bortom det själlösa och triviala interagerandet mellan elementarpartiklar - är dessvärre nödvändig för att ge talet om stokastiska papegojor någon som helst argumentativ stuns.

3) Här är det möjligt att inleda en semantisk diskussion om ordet "vill", och hävda att vilja är ett exklusivt mänskligt fenomen och att det därför är ett kategorifel att diskutera vilja hos en AI. Den sortens direkt cirkulära argument för att underkänna AI:s olika kompetenser per definition är jag dock inte intresserad av. När jag talar om "vilja" i detta sammanhang är det i behavioristisk mening: en AI:s vilja att uppnå något utfall U är de informations- och beräkningsstrukturer i AI:n inre som får dem att agera för att U skall inträffa - oavsett i vad mån dessa strukturer liknar eller skiljer sig från motsvarande hjärnverksamhet hos en människa som vill U. (Det finns flera goda skäl till ett sådant språkbruk, varav ett i AI-risksammanhang särskilt relevant är att det primärt viktiga ur AI-risksynpunkt är hur en AI agerar snarare än hur människolika dess inre maskinerier är.) Vän av ordning som anser att mitt bruk av ordet är en olämplig antropomorfism är välkommen att föreställa sig att jag istället för "vilja" och "vill" skriver "schvilja" och "schvill", samt på motsvarande sätt skriver "schönskan", "schpreferens", "schresonemang", "schkunskap", "schförståelse", och så vidare, men jag avstår helst från dessa fula och i längden tröttsamma sch-prefix.

4) Som när en byråkrat eller en kollega säger "Jag skulle såklart gärna vilja hjälpa dig, men...".

5) Schväljer.

6) Schyfte.

7) Schförsöker. Äh, ni fattar grejen vid det här laget, väl?

8) Ett fullt möjligt, om än dyrt, sätt att testa av hur mycket det ligger i denna spekulation vore att jämte, säg, GPT-5, träna en parallell modell på exakt samma sätt men med den enda skillnaden att sådana science fiction-historier tvättats bort från träningsdatamängden, och se vilken skillnad man kan uppmäta i modellernas tendens till självbevarelsedrift. Gissningsvis finns smartare sätt att testa detta, och jag skulle vara mycket intresserad av att få se resultatet. Moa Johansson däremot hyser knappast något sådant intresse, eftersom hon uppenbarligen anser sig veta svaret på förhand.

9) Jag kan inte föreställa mig annat än att Moa Johansson, som förberedelse för vår Aktuellt-debatt, hade läst min bloggpost. Men trots att jag där alltså påpekar det uppenbart felaktiga i hennes argumentation drar hon sig inte för att helt skamlöst dra samma vals igen för SVT:s tittare.

fredag 22 augusti 2025

Fortsatt oenighet bland Chalmersforskare om AI-risk

Häromdagen, i min förra bloggpost, rapporterade jag om den debatt i tidningen Ny Teknik som började med ett inlägg rubricerat GPT-5 utplånade inte mänskligheten – dags att fokusera på verkliga risker av Chalmersforskarna Henrik Berglund, Devdatt Dubhashi, Moa Johansson och Sandro Stucki den 14 augusti, och följdes dagen efter av min replik Oansvarigt om AI-risker av de fyra Chalmerskollegerna. Vad som hänt sedan dess är dels att Moa Johansson och jag möttes i en kort muntlig diskussion i Sveriges Radios Studio Ett i förrgår (den 20 augusti), dels att hela kvartetten idag (22 augusti) återkommit med en ny text i Ny Teknik rubricerad AI-debatten bör bygga på vetenskap – inte på spekulation. Den har av tidningsredaktionen förärats status av "slutreplik", vilket såklart inte hindrar att jag här på bloggen meddelar mina reaktioner.

Varning vs prediktion

I sin ursprungsartikel den 14 augusti gör Berglund et al stor sak av att jag ett par år tidigare i samma tidning skrivit att vi "inte [kan] ta för givet att vi överlever en otillräckligt säkrad GPT-5", och menar att det faktum att vi trots att GPT-5 släpptes tidigare denna månad ännu är i liv visar att mina varningsord var "förhastade och missriktade". Jag valde att inte säga något i min replik om denna sammanblandning mellan risk och prediktion eftersom utrymmet var begränsat och jag bedömde den vara så urbota dum att det vore onödigt att skriva just detta argumentationsfel Ny Tekniks läsare på näsan. Troligen har dock andra personer hört av sig till författarkvartetten angående detta argumentationsfel, då de uppenbarligen känner sig manade att i sin slutreplik försvara denna argumentation. De kallar det "erbarmligt svagt" att insistera på denna disktinktion och menar att yttrandet av mina varningsord är analogt med att hävda att vi
    inte [kan] utesluta att Gud kommer att straffa Sverige som ett resultat av kyrkflytten i Kiruna, och denna fråga är extremt akut!1
Jag gratulerar Berglund et al till att ha kommit på denna färgstarka metafor. Låt mig föreslå en alternativ metafor.
    En femåring korsar en bilväg medelst metoden att hålla för ögonen och rusa i full fart rakt fram. Berglund får syn på detta, och blir så förskräckt att han griper tag om femåringen och meddelar att metoden är livsfarlig eftersom han (femåringen) kan bli överkörd. Femåringen sliter sig ur Berglunds grepp, och rusar blint tillbaka till den ursprungliga sidan av vägen samt ropar triumferande att Berglunds varningsord var "förhastade och missriktade" i och med att passagen gick bra och inte medförde någon bilolycka.
Skillnaden mellan kyrkflytten och bilvägspassagen ligger naturligtvis i graden av rimlighet: i kyrflyttsfallet varnas för ett långsökt och konstlat och rent ut sagt orimligt scenario utan stöd i någon som helst evidens, medan varningen i bilvägspassagefallet rör ett med tanke på evidensläget ytterst rimligt scenario. Så hur skall man då bedöma mina varningsord från 2023? Det hela kokar ned till om det scenario jag varnade för var rimligt. Jag anser att det var rimligt (och därför mer liknar bilvägspassageexemplet) medan Berglund et al anser att det var orimligt. Det är denna orimlighet de behöver påvisa istället för att i generella ordalag döma ut distinktionen mellan varning och prediktion. Tyvärr är det tunnsått i deras debattinlägg med konkret sådan argumentation.

Spekulation vs vetenskap

Berglund et al verkar tro att luddigheten i deras argumentation för att någon risk för AI-katastrof inte föreligger på något sätt trollas bort genom att de tillräckligt många gånger upprepar att deras påstående grundar sig i vetenskaplig empiri. Exakt vari denna empiri består förblir något oklart, och än mer hur den leder till deras tvärsäkra slutsats. Samtidigt säger de i dagens slutreplik att min argumentation "primärt [vilar] på abstrakta, spekulativa tankeexperiment och påminner mer om science fiction än vetenskap". Här får man faktiskt glädjas en smula åt ordet "primärt", som möjligen kan förstås som en uppmjukning jämfört med ursprungsartikeln - sedan jag i min replik länkat till METR och AI 2027 kan de inte längre med att hävda att argumentationen hos oss som tar existentiell AI-risk på allvar är fri från empiri. Det är i så fall ett framsteg, men de borde då inse att vad som behöver göras är att väga de olika empiriska underlagen mot varandra. I stället fortsätter de hojta om science fiction, som om det faktum att datalogiforskningen var så mycket trögare än Hollywood med att reagera på Alan Turings ödesmättade ord från 1951 om att "at some stage [...] we should have to expect the machines to take control" på något vis skulle implicera att existentiell AI-risk inte är på riktigt.

Bida sin tid

En potentiell svårighet med att säkra avancerad AI mot att ha farliga förmågor och böjelser är att en tillräckligt avancerad AI kan välja att mörka dessa och bida sin tid tills dess den blivit ännu mer kraftfull eller på annat vis hamnat i ett bättre läge att skrida till handling. Fullständigt orimligt att så skulle kunna ske, tycker Berglund et al, men eftersom jag i min replik i Ny Teknik länkar till en Anthropic-studie som påvisar empiriskt att redan dagens AI har viss förmåga till sådant rävspel, så kan de inte låtsas okunniga om denna evidens. Istället för att förneka den spekulerar(!) de om denna förmåga möjligen kan bero på att liknande scenarier finns i den science fiction-litteratur som ingår i AI:s träningsdata. Därmed gills det inte, tycks de mena. Men AI:s förmågor är vad de är, oavsett om Berglunds et al spekulation stämmer eller inte. Att förklara ett fenomen är inte liktydigt med att påvisa att det inte finns.

Brist på konsensus

Berglund et al skriver i dagens inlägg att det "finns verkligen ingen konsensus i fältet om att uppskalning av dagens AI-modeller skulle leda till vare sig AGI [...] eller än mindre till uppkomsten av AI med plötsliga, okontrollerbara förmågor". Jag känner såklart till detta. Vissa forskare anser AGI vara inom nära räckhåll medan andra lutar åt motsatt slutsats. Inte heller jag känner mig tillnärmelsevis säker i denna fråga, och inget i min argumentation för att ta existentiell AI-risk på allvar bygger på någon tvärsäkerhet om vad som kommer att hända. Men till skillnad från Berglund et al menar jag att en sådan brist på konsensus ger anledning till ödmjukhet och försiktighet snarare än till slutsatsen att risken är noll.

Ad hominem

"Jag är AI-forskare, jag har god teknisk kunskap", kände sig Moa Johansson manad att framhålla i onsdagens radiodebatt, och i dagens Ny Teknik-artikel återkommer hon och hennes medförfattare med viss pompa till hur kompetenta de minsann är. Men medan Johansson i radioinslaget stannade vi det och lät påståendet att jag saknar denna kompetens förbli underförstått, så går de i artikeln vidare och hävdar att "Häggström följer [...] inte den tekniska litteraturen" inom AI. Även om vi för resonemanget skull antog att påståendet är sant, så uppstår frågan: hur tusan vet de vilken litteratur jag följer eller inte följer? Det här är rent hittepå från Berglund et als sida.

Vart vill de då komma med detta? Jo, de ansluter sig till medförfattaren Devdatt Dubhashis uppfattning att den enda kompetens som räknas inom AI är den där man "bidrar aktivt till den tekniska AI-utvecklingen". Dubhashi har i snart tio år kampanjat (till en början i direkt konfrontation med mig, men på senare år mestadels bakom min rygg) för att jag bör hålla truten eller i annat fall inte lyssnas på eller erbjudas diverse plattformar, med hänvisning till att jag inte uppfyller hans ytterst specifika krav på vad som är verklig AI-kompetens. Kompetens inom områden som AI-risk och AI-futurologi räknas inte - faktiskt inte ens i diskussioner som (likt denna) handlar om just dessa områden.

Förlåt min franska, men jag finner det direkt fåraktigt av Berglund et al att driva denna argumentation, och det av två skäl. För det första är den analog med den (förhoppningvis uppenbart!) flänga idén att man i diskussioner om låt oss säga jordbrukets framtid skulle behöva vara bonde för att förtjäna att tas på allvar. För det andra är den linje jag här driver i stora drag densamma som den Geoffrey Hinton förfäktar, så för att Berglund et als ad hominem-attack skall fungera så behöver de påvisa att inte heller Hinton "bidrar aktivt till den tekniska AI-utvecklingen". Nog för att Berglund et al hävdat många konstiga saker, men en fullt så flagrant felaktighet tror jag inte att de vill försvara.

Nåväl, gör då inte jag mig skyldig till motsvarande ad hominem-argumentation då jag i min Ny Teknik-replik kommenterar en dumhet i Berglund et als ursprungsartikel med att "allt de därmed påvisar är den egna okunnigheten om AI-risklitteraturen"? Nej, jag tycker inte det, eftersom det jag skriver uppenbart är tänkt inte som en kommentar om dem som personer, utan om felen i deras artikel. Nu påstår de att "i motsats till vad Häggström tror är vi bekanta även med [AI-risk-litteraturen]". Jaha minsann. Hur skall man då förklara att Johansson i radioinslaget upprepade gånger ger uttryck för föreställningen att AI-risk-litteraturen kopplar existentiell AI-risk till fenomenet medvetande, eller att de i sin ursprungsartikel för ett resonemang som förbiser "bida sin tid"-fenomenet (se ovan), eller deras ständiga påståenden om att denna litteratur är fri från empiri? Jag trodde faktiskt att jag gav dem the benefit of the doubt genom antagandet att dessa exempel bottnade i bristande bekantskap med litteraturen ifråga, men om vi skall ta på allvar deras insisterande på att de faktiskt besitter denna bekantskap, då blir slutsatsen istället att de låtsas okunniga för att lättare kunna göra sina retoriska poänger. Eller med andra ord, de narras!

Skrämselpropaganda

Redan 2023 anklagade Dubhashi och Johansson (i en lite annan författarkonstellation) mig för "skrämselpropaganda", ett ord som återkommer i båda deras nu aktuella Ny Teknik-artiklar. I den sista av dessa varierar de också sitt språkbruk en smula och talar även om "alarmism".

Very well. Den situation vi (mänskligheten) befinner oss i med anledning av den framrusande AI-utvecklingen är ohyggligt skrämmande. Om det räknas som "skrämselpropaganda" att tala klarspråk om detta - må så vara. Vad Berglund et al dock bör vara medvetna om är att de med den sortens okvädningsord bidrar till ett samtalsklimat där det blir svårare för forskare som tycker sig se stora samhällsfaror på något område att slå larm.

Sammanfattning

Diskussionen i Berglunds et al ursprungsartikel den 14 augusti var på en nivå som jag inte tycker borde anstå universitetsforskare, och den blev knappast särskilt mycket bättre i dagens slutreplik. I min replik den 15 augusti avslutade jag med en släng om hur genant det var att arbeta vid samma lärosäte som en grupp forskare som tillåter sig denna nivå. Det står jag fast vid, men det är egentligen inte det som är det riktigt allvarliga. Det riktigt allvarliga är att de genom sin desinformtionskampanj försvårar uppkomsten av den breda och samtidigt rationella och faktabaserade publika diskussion om AI-risk som vi så väl behöver om vi skall kunna sätta stopp för den extremt farliga utveckling som nu pågår.

Fotnot

1) Kyrkflytten färdigställdes igår, och deras text verkar vara författad dessförinnan.

Tillägg 27 augusti 2025:

Igår, den 26 augusti, fich jag möta Moa Johansson ännu en gång, denna gång i SVT:s Aktuellt (med start ca 22:40 in i sändningen). Jag kan inte tänka mig annat än att hon som en del av sina förberedelser läst denna bloggpost, men hennes inlärningskurva2 förefaller dessvärre ganska platt, då hon i sändningen upprepade såväl sitt svepande och felaktiga påstående om bristen på empiri inom AI-riskforskningen som det bisarra argument jag diskuterar i avsnittet Bida sin tid ovan.

Chalmersandan!

Fotnot tillagd den 24 september 2025

2) Det har kommit till min kännedom att det i interna Chalmersdiskussioner förekommit illvilliga tolkningar som går ut på att mitt tal om "inlärningskurva" skulle vara en antydan om att Moa Johansson är ointelligent. Detta vill jag å det bestämdaste tillbakavisa.

Jag anser inte att Moa Johansson är ointelligent, och skulle aldrig komma på tanken att kalla henne det. Att kalla en Chalmerskollega ointelligent vore inte bara tölpaktigt och dålig ton, utan vore i detta fall rent ut sagt dumt: Min linje gentemot de fyra Chalmerskollegorna i den aktuella debatten har konsekvent varit att peka på hur intellektuellt ohederligt de debatterar, och att klandra dem för detta. Ohederlighet har inget med ointelligens att göra, så att mitt i den debtten plötsligt anklaga någon av dem för ointelligens vore en irrelevant och föga ändamålsenlig avvikelse från ämnet. Och det har jag mycket riktigt inte gjort.

Intrycket att en "inlärningskurva förefaller [...] ganska platt" (för att nu citera vad jag skriver ovan) kan uppstå på flera olika sätt, varav två är (a) att personen vars inlärningskurva det handlar om är ointelligent, och (b) att den nya kunskap det handlar om av något skäl är obekväm för personen ifråga, som därför inte låtsas om den. Att någon av de fyra kollegorna, eller någon av deras fans, vill framställa mig i så negativ dager som möjligt och därför väljer tolkning (a) är måhända inget att förvåna sig över. Men ingen som på allvar skärskådar den aktuella passagen, och zoomar ut lite och tar in kontexten, kan rimligtvis missa att det givetvis är (b) jag avser. Och om jag nu skall vara övertydlig och explicit skriva ut allt som står mellan raderna där, så blir det ungefär

    Moa Johansson uppvisar med sina SVT-uttalanden en platt inlärningskurva. Vad kan det bero på? Det kan knappast handla om ointelligens - hon är ju trots allt docent i datavetenskap vid ett av Sveriges ledande lärosäten - så uppenbarligen beror plattheten på att hon inte vill låtsas om den nya kunskapen att hennes argument från Ny Teknik visat sig vara felaktiga.
Ett lite kortare sätt att uttrycka samma sak och som inte heller tillskriver henne ointelligens vore att säga "Spela inte dum!".