- Beskedet Eliezer Yudkowsky och Nate Soares ger i titeln till sin aktuella bok If Anyone Builds It, Everyone Dies: Why Superhuman AI Would Kill Us All har fått många kommentatorer (inklusive yours truly) att trots allmänt positiva tongångar om boken framhålla att de inte delar författarnas tvärsäkerhet rörande hur illa det skulle gå om vi i någorlunda närtid byggde superintelligent AI. Bland dessa kommentatorer sticker Joe Carlsmith ut genom att i sin essä How human-like do safe AI motivations need to be diskutera frågan mer detaljerat och mer nyanserat än kanske någon annan. Visserligen medger han att ett alltför skyndsamt skapande av superintelligent AI medför enorma faror, men han framhåller samtidigt en rad omständighter som han menar erbjuder större hopp om att överleva en sådant tingest jämfört med bedömningarna i boken. Bland annat hävdar han att den AI alignment-strategi som kallas korrigerbarhet inte är fullt så dödsdömd som Yudkowsky och Soares menar. Den som väljer att läsa först boken och sedan Carlsmiths essä får sig till dels två olika perspektiv - båda intressanta och välargumenterade men noga taget oförenliga - på exakt hur bekymmersamt läget är om de ledande AI-företagen fortsätter sin nuvarande kapplöpning mot superintelligens.
- Hur snabbt kan vi vänta oss superintelligent AI om denna kapplöpning fortsätter obehindrat? Vi vet inte, säger Daniel Kokotajlo och hans medförfattare till den uppmärksammade rapporten AI 2027 från i våras, men understryker att det mycket väl kan komma att inträffa inom ett par-tre år. Stört omöjligt, hävdar Arvind Narayanan och Sayash Kapoor i sin rapport AI as Normal Technology som kom nästan samtidigt. Personligen finner jag Kokotajlo-gängets argumentation mer övertygande, men oavsett detta är det ett faktum att stora delar av AI-debatten urartat i ett slags skyttegravskrig kring just denna fråga, och just därför finner jag det glädjande och beundransvärt att företrädare för båda författarkollektiven gått samman om en text rubricerad Common Ground between AI 2027 & AI as Normal Technology, där de noggrant går igenom hur överraskande mycket de trots allt är eniga om. På så vis bidrar de inte bara till ett förbättrat debattklimat utan även till att zooma in på vari de återstående knäckfrågorna består.
- Två inflytelserika röster i amerikansk AI-debatt är Max Tegmark och Dean Ball. Den förstnämnde ligger bakom det aktuella uppropet Statement on Superintelligence som kräver ett förbud mot utveckling av superintelligent AI, medan Ball tillhör den falang som ser reglering av ny teknik som mestadels skadlig för innovation och ekonomi, och som därför tenderar att motsätta sig även reglering av AI. I ett aktuellt avsnitt av Liron Shapiras podcast Doom Debates möts de i en diskussion om AI-reglering som visar sig inte bara saklig och respektfull utan faktiskt också riktigt klargörande.
Häggström hävdar
En medborgare och matematiker ger synpunkter på samhällsfrågor, litteratur och vetenskap.
onsdag 26 november 2025
Bra debatt om AI-risk: tre exempel
tisdag 25 november 2025
En liten åtgärd (eller två) som alla kan bidra med i arbetet mot AI-risk
-
Det handlar om det vanliga batteriet av åtgärder när en politisk omorientering är av nöden: prata med folk, i fikarum, mingelbarer, skolsalar och sammanträdesrum; gå ut på gatan (helst i grupp) och skandera slagord; kontakta en riksdagsledamot, en EU-parlamentariker,
Diverse ursäkter finns i vanlig ordning till hands för den som vill slippa engagera sig. Låt mig nämna en av dem - den som handlar om att inte spelar det väl någon roll vad vi i Sverige gör? På vilket mitt svar blir att det gör det visst. Det behöver skapas ett politiskt momentum och en global konsensus kring idén att det inte är ok att de ledande kaliforniska AI-företagen i sin interna kapplöpning mot AI-herravälde spelar rysk roulette med mänsklighetens överlevnad. Att Sverige skulle stå vid sidan om denna rörelse duger inte. Vi kan och vi skall bidra på olika vis, inklusive via organisationer som FN, EU och NATO, jämte ett otal mer informella nätverk och sammanhang. Kasta en blick över Atlanten och betrakta den politiska situationen därborta: inte fan kan vi överlåta åt USA att ensamt bestämma mänsklighetens öde?
-
We call for a prohibition on the development of superintelligence, not lifted before there is
1. broad scientific consensus that it will be done safely and controllably, and
2. strong public buy-in.
-
Till: Regeringen
Politikerna behöver ta riskerna med avancerad AI på allvar.
Sverige behöver trycka på i både FN och EU för att skärpa säkerhetskraven.
Varför är det viktigt?
Utvecklingen av AI går med stormsteg. Ledande AI-forskare som Nobelpristagaren Geoffrey Hinton varnar för att det innebär risk att vi tappar kontrollen.
Samtidigt slarvar AI-företagen med säkerheten i kapplöpningen om att bli först med riktigt avancerad AI.
Allt fler inser att superintelligens kan vara farligt. Nu behöver politiken gå in och ställa krav på säkerhet.
Vi ställer oss bakom kravet att superintelligens inte ska utvecklas förrän vetenskapen är tydlig om att det går att göra säkert!
Mer information: https://pauseai.se/
måndag 17 november 2025
AI:s black box-egenskap debatterad i Dagens Industri
-
Dagens AI-utveckling domineras av så kallad deep learning, där AI-systemens kärna utgörs av stora och komplexa neurala nätverk, där inte ens AI-utvecklarna själva begriper funktionen hos de mönster av neuronaktiveringar som får systemen att bete sig som de gör. Detta fenomen – att vi inte lyckats förstå vad som händer där inne – kallas för AI-systemens black box-egenskap, och behandlas av Emma Engström i DI den 29/10.
De försök som görs att öppna den svarta lådan är än så länge blott skrap på ytan där någon klar väg fram till mer genomgripande förståelse inte kan skönjas, vare sig i den tradition av mekanistisk interpreterbarhet som Engström pekar på, eller i tolkandet av det interna anteckningsblock som de ledande språkmodellerna från 2024 och framåt besitter. Situationen är problematisk, i synnerhet i fråga om tillämpningar där viktiga beslut överlåts till AI. Ändå är fenomenet på sätt och vis inte helt nytt, då vi till följd av den mänskliga hjärnans black box-egenskap står inför motsvarande problematik varje gång vi delegerar ett beslut till en människa.
Med stöd i ekonomihistoriska insikter om att ”förklarande kunskap [...] är avgörande för att främja vetenskapliga genombrott och innovationer på ett självförstärkande och ihållande sätt” framhåller Engström den svarta lådan som ett avgörande hinder för fortsatt AI-utveckling. Men denna utveckling avviker från traditionellt ingenjörsmässigt byggande och är mer att jämföra med odling och avel. Som motargument till Engströms utvecklingspessimism kan man därför peka på hur människan i årtusenden kunnat fortsätta avla fram hundar och andra husdjur utan att begripa (eller ens känna till existensen av) de DNA-sekvenser som bär på djurens genetiska material.
En viktig skillnad är dock...
1) Det första jag tänkte då jag såg rubriken var "Ojdå, har jag råkat skriva handbroms istället för nödbroms?", men en titt i brödtexten ger vid handen att att ordet jag använde i mitt artikelmanus var nödbroms och inget annat. Vad som fick redigeraren att istället välja handbroms i rubriken vet jag inte.
tisdag 11 november 2025
Crunch Time for Humanity: my new Substack
1) There is also an "About" page, which currently reads as follows:
-
I am a professor of mathematical statistics who decided mid-career that while proving obscure theorems in probability theory had been a fun and rewarding way to carve out a corner for myself in academia, it was no longer enough to motivate me. I wanted to do something with a more clearcut relevance to the real world. Audaciously, I aimed to maximize relevance by addressing the most crucial issues facing humanity. An early result of my attempts to figure out what these issues were is my 2016 book Here Be Dragons: Science, Technology and the Future of Humanity, covering a smorgasbord of technologies with the potential to radically transform society and our lives.
At that time, I was still agnostic as to which of these technologies would turn out most crucial, and the issue of transformative AI still seemed to me somewhat abstract, due to my belief that the great AI transition was most likely at least decades away. But I’ve changed my mind. From about 2019 onwards my AI timelines gradually shrank, and when I came in contact with Daniel Kokotajlo (who was then at OpenAI) in early 2023 I finally realized the need to take seriously timelines measured in years, not decades. Here at Crunch Time for Humanity, I write about what this means for the challenges we (as a species and a civilization) are facing, what is at stake, and how we might go about to make things go well.
I also blog about a broader range of issues (mostly in Swedish) at Häggström hävdar. For more about me, see my homepage at Chalmers University of Technology in Gothenburg, Sweden.
onsdag 15 oktober 2025
Om Alan Saids och Mattias Rosts maning till nivåhöjning i AI-debatten
-
I vårt inlägg "AI-debatten behöver vetenskaplig stringens – inte alarmism" påpekade vi behovet av att föra en nyanserad diskussion om AI, där argument vägs på vetenskaplig grund. Jonas von Essen svarade oss med att det vore "oseriöst och respektlöst" att ifrågasätta varningar från framstående AI-forskare som Geoffrey Hinton.
-
Både Said/Rost och Johansson et al. tar de existentiella riskerna på så litet allvar att de inte verkar känna något behov av att faktiskt argumentera vetenskapligt i sina debattartiklar, utan nöjer sig med att gång på gång antyda att min och Olles ståndpunkt kommer från "science fiction-författare och affärsintressen" och därför inte ens bör bemötas. Men det stämmer alltså inte. Tvärtom framför vi argument från några av de främsta forskarna i världen, varav flera har lagt grunden till det fält debattörerna själva arbetar inom (till exempel Geoffrey Hinton, Yoshua Bengio och Stuart Russell). Att förneka detta är oseriöst och respektlöst.
-
...publicerad i Science med många av världens främsta forskare från 20 olika universitet samt flera Nobel- och Turingpristagare som medförfattare.
-
...om man vill hänvisa till auktoriteter måste man alltså redovisa hela bilden: att det bland de mest meriterade forskarna finns skilda uppfattningar. Allt annat blir selektivt.
-
...gång på gång betonat att dagens AI-modeller saknar grundläggande egenskaper som förståelse, målorientering och långsiktig planering – och därmed inte kan utvecklas till de hotfulla superintelligenser som vissa varnar för.
-
A technology is not unsafe merely because of the possibility of doing it wrong. A technology is safe because of the possibility of doing it right. [...] I'm claiming that if there is a way to build and deploy a technology in a safe way, that's the way it will happen.
-
Än mer problematiskt blir det när vi ser hur forskarnas egna ståndpunkter förändras. Hinton själv har nyligen gått från att varna för att AI kan bli omöjligt att kontrollera – till att föreslå att vi i stället bör konstruera AI med "föräldrainstinkter" som gör att den vill ta hand om oss.
1) Här på min blogg föreligger inte någon sådan utrymmesbegränsning, och jag känner mig därför fri att lägga ut texten om den egentligen som mest sekundära eller tertiära frågan om Saids och Rosts avvikelser från förnuftig argumentation och god debattsed.
2) Det finns ett korn av sanning i det Said och Rost säger här, på så vis att AI-riskforskningen i högre grad än många andra forskningsområden bedrivs utanför akademin, på diverse kommersiella företag och icke-vinstdrivande organisationer, där publiceringstraditionen ser annorlunda ut än vid universiteten och inte i lika stor omfattning inbegriper akademisk peer review. Men om Said och Rost föreställer sig att de med några enkla penndrag om refereegranskningsförfarandets dygder tror att de kan vifta undan all sådan forskning så har de fatalt missuppfattat sina skyldigheter då de viftandes med sina docenttitlar tar på sig att undervisa allmänheten om hur det vetenskapliga evidensläget på ett område ser ut. För att göra det bör man kunna överblicka och ta ställning till alla relevanta delar av evidensläget oavsett om de är publicerade i en tradition man själv fått sin akademiska fostran i, och om Said och Rost inte tycker sig ha kompetens eller ork att gå bortom ytliga omdömen av typen "den här rapporten har inte genomgått akademisk peer review och kan därför bortses ifrån" så har de med sina Ny Teknik-publiceringar tagit sig vatten över huvudet och seglar under falsk flagg.
3) På sidan 183 i deras välresearchade If Anyone Builds It, Everyone Dies gör Eliezer Yudkowsky och Nate Soares samma observation och ger upp sökandet efter mer gedigen LeCun-argumentation i AI-riskfrågor.
fredag 10 oktober 2025
If Anyone Builds It, Everyone Dies: my review
Max Tegmark's praise for the book is more measured and restrained than mine.
-
Imagine [...] that biological life on Earth had been the result of a game between gods. That there was a tiger-god that had made tigers, and a redwood-god that had made redwood trees. Imagine that there were gods for kinds of fish and kinds of bacteria. Imagine these game-players competed to attain dominion for the family of species that they sponsored, as life-forms roamed the planet below.
Imagine that, some two million years before our present day, an obscure ape-god looked over their vast, planet-sized gameboard.
"It's going to take me a few more moves," said the hominid-god, "but I think I've got this game in the bag."
There was a confused silence, as many gods looked over the gameboard trying to see what they had missed. The scorpion-god said, “How? Your ‘hominid’ family has no armor, no claws, no poison.”
“Their brain,” said the hominid-god.
“I infect them and they die,” said the smallpox-god.
“For now,” said the hominid-god. “Your end will come quickly, Smallpox, once their brains learn how to fight you.”
“They don’t even have the largest brains around!” said the whale-god.
“It’s not all about size,” said the hominid-god. “The design of their brain has something to do with it too. Give it two million years and they will walk upon their planet’s moon.”
“I am really not seeing where the rocket fuel gets produced inside this creature’s metabolism,” said the redwood-god. “You can’t just think your way into orbit. At some point, your species needs to evolve metabolisms that purify rocket fuel—and also become quite large, ideally tall and narrow—with a hard outer shell, so it doesn’t puff up and die in the vacuum of space. No matter how hard your ape thinks, it will just be stuck on the ground, thinking very hard.”
“Some of us have been playing this game for billions of years,” a bacteria-god said with a sideways look at the hominid-god. “Brains have not been that much of an advantage up until now.”
“And yet,” said the hominid-god.
1) Indeed, there is still plently of such ignorance or even denialism around in the AI research community. As an illustrative example, Swedish readers may have look at the denialism pushed in public debate in August this year by a group of colleagues of mine at the Chalmers University of Technology.
2) Nick Bostrom's 2014 book can to no small extent be said to be conceived on top of Yudkowsky's shoulders.
3) Hostile critics sometimes counter this with the claim that Yudkowsky's highest academic merit is that of being a high-school dropout, which is formally true but conveys a lack of understanding of the importance of distinguishing between the social game of formal qualifications and the reality of actual competence.
onsdag 8 oktober 2025
LLM knowledge of social norms
-
To conclude, knowing when it’s appropriate to run or talk in public may not rank among the most urgent AI alignment issues—especially when compared to existential risks like losing control over powerful AI systems. Still, if Sam Altman’s timeline holds and AI-equipped robots arrive within the next two or three years, it’s reassuring to think they will show up with decent manners—at least by U.S. standards.
-
Possibly in six months or two years [...] people will be boasting about how their large language models are now apparently doing the right thing, when they are being observed, answering the right way on the ethics tests. And the thing to remember there is that for example in the Mandarin imperial examination system in ancient China, they would give people essay questions about Confucianism, and only promote people high in bureaucracy if they could write these convincing essays about ethics. What this tests for is people who can figure out what the examiners want to hear - it doesn't mean they actually obide by Confucian ethics. So possibly at some point in the future we may see a point where the AIs have become capable enough to understand what humans want to hear, what humans want to see. This will not be the same as those things being the AI's true motivations, for basically the same reason that the imperial China exam system did not reliably promote ethical good people to run their government.
1) Relatedly, in my 2021 paper AI, orthogonality and the Müller-Cannon instrumental vs general intelligence distinction, I elaborate at some length on the importance of distinguishing between an AI's ability to reflect on the possibility of changing its mind on what to value, and its propensity to actually change its mind; with sufficiently intelligent AGIs we should expect plenty of the former but very little of the latter.