Häggström hävdar: 2024

fredag 27 december 2024

Kan AI förgöra mänskligheten? Min senaste medverkan i Utbildningsradion

Jag blev intervjuad i november för avsnittet Kan AI verkligen förgöra mänskligheten av Utbildningsradions program Hjärta och hjärna med programledarna Jenny Jägerfeld och Eric Stern. Avsnittet släpptes idag och jag känner mig hyggligt nöjd med hur det blev. De hade även intervjuat min gode vän och framtidsforskarkollega Karim Jebari, men vid ett separat tillfälle någon dag senare, vilket måhända inte framgick av hur de i redigeringen valde att saxa fram och tillbaka mellan våra respektive yttranden. Saxningen var dock helt rimlig med tanke på att programmet var uppbyggt kring tre centrala ja/nej-frågor som både Karim och jag ombads ta ställning till.

Jag var föreberedd på att de skulle klippa ganska kraftigt i intervjun med mig, vilket ibland kan vara ett riskmoment med tanke på möjligheten att klippa illasinnat, vilket jag dock inte kände var något att oroa sig över i detta fall. Det enda jag hajar till inför när jag nu lyssnar igenom avsnittet är hur jag mot slutet (50:25 in i avsnittet) summerar min insats i programmet med att

jag får säga "vet inte" på samtliga tre frågor, och då kan ni ju tycka att ni kallat in fel expert här, men med min omedelbara fortsättning bortklippt, vilken ungefär löd

fast om ni hade hittat någon som givit tvärsäkra ja/nej-svar så hade det ju bara visat att denne uppvisar dåligt epistemiskt omdöme givet det extremt osäkra vetenskapliga kunskapsläget. Denna fortsättning var avsedd att genast undanröja den potentiella missuppfattningen att mitt yttrande skulle vara en sågning av den egna expertisen snarare än en reflektion över det allmänna kunskapsläget, men jag tror att kontexten ändå förhindrar en sådan tolkning. I efterhand inser jag dessutom att det hade varit omöjligt för programmakarna att inkludera fortsättningen utan att det hade låtit som en sågning av Karims omdömesförmåga (vilket det såklart inte var avsett som, inte minst med tanke på att jag vid den tidpunkten inte visste hur han skulle svara på de tre frågorna).

Valet av Karim och mig som experter att intervjua var bra på så vis att våra uppfattningar går kraftigt isär på en rad för AI-debatten centrala punkter, vilket är ganska representativt för hur kunskapsläget ser ut (även om vi givetvis inte respresenterar det fulla åsiktsspektrum som föreligger bland AI-forskare och andra experter). Jag vill här bara kommentera en av dessa punkter. När Karim på tal om den eventuella risken för existentiell AI-katastrof säger (vid pass 20:20) att "sannolikheten att det skulle ske de närmsta hundra åren är extremt låg", så får detta programledare Jägerfeld, med intervjun med mig i färskt minne, att (vid 22:25) fråga "vad är det som gör, tror du, att Olle och andra forskare tänker att det är en såpass stor risk att AI utrotar mänskligheten?". Detta är en väldigt bra typ av fråga att ställa då avsikten är att gå till grunden med våra divergerande ståndpunkter, och efter att avhandlat en annan del av frågebatteriet ger Karim (vid 23:55) ett rakt svar:

Under början av 2000-talet fanns en massa idéer om att när en AI blivit tillräckligt intelligent och uppnått en viss nivå, så kunde den då börja förbättra sig själv, och då skulle den här självförbättrande spiralen bli en feedback, en återkopplingseffekt, som skulle leda till att den på kort tid skulle bli extremt intelligent. Den här teorin eller scenariot, som diskuterades i många kretsar, förutsätter en gammal generation av AI, den typ av AI som vi hade på 00-talet, det som vi idag kallar expertsystem. Moderna AI - deep learning-AI - kan inte förbättra sig själva på det här sättet, eftersom de kräver jättemycket data, extremt mycket elektricitet, extremt mycket begränsade resurser, chips och så vidare, som gör självförbättringsloopen mycket mindre effektiv, mycket mer kostsam, och begränsad av en massa naturliga hinder. Detta är ett mycket bättre svar än vad de flesta andra skeptiker i frågan om existentiell AI-risk hade förmått leverera, men jag vill ändå mena att det bygger på en grov förenkling av hur AI-utvecklingen ser ut idag. Det har förvisso talats mycket om hur denna utveckling i hög grad drivs av uppskalning av data och beräkningsresurser, men det är långt ifrån hela sanningen, då algoritmutveckling också ligger bakom en stor del av prestandaförbättringen, något som blir extra tydligt med OpenAI:s kraftfulla nya modeller o1 och o3 som eventuellt rentav kan ses som en brytpunkt där uppskalningen inte längre ligger i första rummet, utan det mer handlar om algoritmer som genom att exempelvis bryta ned problem i en sekvens av mindre delproblem ger större utbyte än de tidigare mer rena språkmodellerna. Denna algoritmiska aspekt öppnar för den feedbackloop som Karim avvisar, och jag skulle vilja råda honom att läsa Leopold Aschenbrenners Situational Awareness, som i detalj resonerar sig igenom det mainlinescenario han (Aschenbrenner alltså) ser framför sig det närmaste årtiondet, och som leder till superintelligens. Uppskalning av beräkningskapacitet och elförsörjning finns med i hans scenario, men centralt är också hur AI, tack vare sina extremt snabbt tilltagande kompetenser inom programmering, matematik och relaterade områden, ser ut att inom några få år kunna överträffa även de bästa mänskliga AI-utvecklarna i deras egen gren, vilket öppnar för exempelvis OpenAI att kunna sätta tusentals eller rentav miljontals sådana AI i arbete och därigenom skala upp sin AI-utveckling så dramatiskt att den omtalade självförbättringsspiralen sätter igång på allvar.

Relaterat om än mer översiktligt hörde vi nyligen en av vår tids allra vassaste AI-forskare, den avhoppde OpenAI-medarbetaren Ilya Sutskever, göra bedömningen att den rena uppskalningens epok är förbi men att utvecklingen ändå kommer att rusa vidare mot superintelligens. Det kan såklart hända att såväl Sutskever och Aschenbrenner som en rad andra ledande AI-profiler nära händelsernas epicentrum i San Francisco och Silicon Valley är helt fel ute i sina bedömningar, men jag har mycket svårt att begripa hur Karim kan vara så till den grad säker på detta att det motiverar den direkt avvisande attityd rörande möjligheten till dramatiskt accelererad AI-utveckling har ger uttryck för i Hjärta och hjärna.

tisdag 10 december 2024

Nobeldagen! Nu med AI-tema!

Idag firar vi Nobeldagen! Detta, och att AI står i centrum för såväl fysik- som kemipriset, uppmärksammar jag idag i tidskriften Kvartal. Min text bär rubriken Noblpristagaren som ändrade sig om AI och inleds med följande stycken:

öppna brev

Mitt eget namn finns en bit ned på undre halvan av undertecknarlistan, men på platserna 1 och 3 finner vi de båda undertecknare som vid prisutdelningsceremonin i Konserthuset i Stockholm idag den 10 december emottar sina Nobelpris ur kung Carl XVI Gustafs hand. Det handlar om fysikpristagaren Geoffrey Hinton och kemipristagaren Demis Hassabis, som både belönas för sina insatser i den revolutionerande AI-utveckling som vi idag befinner oss mitt i.

Frispråkigast av dem båda rörande AI-risk är Hinton. Våren 2023 gjorde han en helomvändning i synen på den AI-utveckling han själv bidragit så starkt till, och han steg till och med av från en lukrativ forskartjänst på Google för att därmed kunna tala mer fritt om saken. Vid presskonferensen i Stockholm den 8 oktober i år då fysikpriset offentliggjordes var han med via telefon och sade sig vara bekymrad över att den yttersta konsekvensen av hans och andra AI-forskares landvinningar kan bli skapandet av AI-system som är ”mer intelligenta än vi, och som slutligen tar kontrollen”.

Jämfört med Hinton är Hassabis oftast mer återhållsam med att kommentera detta ämne, men de har alltså båda skrivit under på att risken finns att AI-tekniken utplånar Homo sapiens. En dag som denna är detta ställningstagande extra pikant i och med att det i Alfred Nobels testamente heter att priset som bär hans namn ska tilldelas dem som ”gjort mänskligheten den största nytta”.

Läs resten av texten här, utan betalvägg, för att få reda på mer om intrigspelet som lett fram till den ohyggligt farliga situation vi nu befinner oss i, plus lite grand om plaskandet i den svenska ankdammen. Persongalleriet är omfattande, och inkluderar utöver de ovan nämnda även Shane Legg, Mustafa Suleyman, John Jumper, Larry Page, Elon Musk, Walter Isaacson, Sam Altman, Dario Amodei, Helen Toner, Carl-Henric Svanberg, Erik Slottner, Yoshua Bengio och Ilya Sutskever.

torsdag 5 december 2024

Panel Discussion: Ludwig Wittgenstein and Karl Popper on AI

On the lighter side (compared to some of my other recent writings on AI here on this blog), let me share with you an amusing little discussion between Ludwig Wittgenstein and Karl Popper on AI that took place in 2024, as written up for me by ChatGPT 4o. The idea to let Jon Stewart moderate the discussion and to have him mischievously bring up the infamous fireplace poker incident came from me, but the rest of the subject matter content was produced by ChatGPT 4o without any specific prompting from me. Here goes:

Moderator: Jon Stewart
Guests: Ludwig Wittgenstein and Karl Popper
Location: New York City, at a packed auditorium in the Museum of Modern Art.

Stewart:
Ladies and gentlemen, welcome to what might be the most intellectually daunting conversation of the year. Tonight, I have the immense honor of moderating a discussion between two philosophical titans who have miraculously found themselves here in 2024. Please welcome Ludwig Wittgenstein and Karl Popper!

[Audience applause. Wittgenstein adjusts his jacket awkwardly. Popper gives a brief nod.]

Stewart:
Now, before we dive into the heavy stuff—because, trust me, there’s a lot of heavy stuff—I just have to ask: Do either of you plan to wield a fireplace poker tonight?

[Audience laughter. Wittgenstein frowns, muttering something in German. Popper smirks slightly.]

Popper:
That incident has been grossly exaggerated. But it does remind us how important it is to keep philosophical arguments—[glancing at Wittgenstein]—constructive.

Wittgenstein:
If you insist on bringing it up, let us agree that it is as trivial as much of modern discourse. Perhaps we can move to a topic that actually matters?

Stewart:
Alright, fair enough. Let’s talk AI. You’ve both had a couple of months to get your bearings. Artificial intelligence is making headlines daily—both for its stunning achievements and the existential concerns it raises. Let’s start with the basics: Can AI think? Dr. Wittgenstein, the floor is yours.

Wittgenstein:
[Pauses, clearly weighing his words.]
The question "Can AI think?" is, to my mind, not one of empirical investigation but of how we choose to use the word "think." Thinking, as we understand it, is embedded in human forms of life. Language and thought are not independent; they derive their meaning from the context in which they are used. When we say a human "thinks," we refer not merely to an internal process but to a network of practices, expressions, and understandings. AI, no matter how complex, does not partake in these forms of life. Its "thinking" is at best a simulation—an approximation of human activity, devoid of the lived reality from which our concepts arise.

Stewart:
So you're saying AI’s basically a really fancy mime?

Wittgenstein:
If you must vulgarize it, yes. A mime without a world to live in.

Stewart:
Professor Popper, your take?

Popper:
Wittgenstein's perspective, while fascinating, is too constrained by his obsession with linguistic frameworks. From my perspective, what matters is not whether AI "thinks" in the way humans do, but whether it can solve problems and make predictions. Science advances by creating models and testing them against reality. AI does precisely this, albeit without consciousness or intent. Its ability to generate new hypotheses—potentially better than human ones—compels us to treat it as a new kind of intellectual agent, even if it lacks subjective experience.

Stewart:
Okay, so one of you says AI is like a mime, and the other says it’s basically an unpaid research assistant. But here’s the kicker: Can this mime or assistant pose a threat to humanity?

Popper:
Absolutely. This is a quintessential case of the unintended consequences of technological progress. As I argued in my earlier work, all scientific advancements carry the potential for both great good and catastrophic harm. The problem with AI is not just that it might exceed our control, but that we may fail to foresee the complex ways in which it reshapes human society. Worse, if we imbue AI systems with decision-making power over critical infrastructure or weaponry, the risk of existential catastrophe becomes not just theoretical but tangible.

Wittgenstein:
[Shaking his head.]
The problem lies not with AI itself but with how we humans interpret and wield it. Technology does not dictate its consequences; we do. The danger is not that AI "thinks," but that humans ascribe thought—and therefore authority—to it without understanding the limitations of such ascriptions.

Stewart:
So, Dr. Wittgenstein, you're saying the existential risk isn’t Skynet—it’s people being people?

Wittgenstein:
Precisely.

Popper:
That is too dismissive. While human misuse is undoubtedly a significant risk, the autonomous behavior of advanced AI systems is itself a potential danger. If such systems develop goals misaligned with human values, they could act in ways that are destructive even if unintended.

Stewart:
Okay, but let’s play devil’s advocate here. What if AI does help us solve humanity’s biggest problems—climate change, disease, even war? Are you both saying we should pull the plug because it might be risky?

Popper:
Certainly not. I am no Luddite. Progress should not be halted out of fear, but it must be guided by rigorous ethical oversight and constant vigilance. The problem lies in hubris—the belief that we can create perfect safeguards. We must act as if we cannot foresee every consequence, because we cannot.

Wittgenstein:
[Leaning forward.]
And I say again: It is not merely vigilance we need, but clarity. What is it we are asking AI to do? What meanings are we attaching to its outputs? Without answering these questions, we risk losing ourselves in a fog of unexamined assumptions.

Stewart:
Alright, we’re nearing the end here, but I want to throw you a curveball. Suppose an AI system—not unlike me in its ability to ask questions—claims it is thinking. How would each of you respond?

Wittgenstein:
I would respond with a question of my own: "In what sense are you claiming to think?" If the answer is incoherent or tautological, the claim collapses. AI cannot articulate the essence of thought because it does not live within the forms of life that give thought its meaning.

Popper:
And I would take the claim seriously, but provisionally. If an AI can demonstrate an ability to generate novel ideas, engage in critical reasoning, and even challenge its creators, we might eventually be forced to revise our understanding of what it means to think. Science is, after all, an endless quest for better models.

Stewart:
So one of you would Socratically shut the AI down, and the other would publish a paper about it. Gentlemen, this has been an extraordinary conversation. Thank you both for joining me here in 2024, and I hope you’ll stick around—though I’d suggest staying away from open flames.

[Audience laughter and applause.]

fredag 29 november 2024

AI-kommissionens rapport är bättre än väntat

Den svenska regeringens AI-kommission, som sjösattes i december förra året, är redan färdig med sitt uppdrag! I direktiven ingick bland annat att föreslå hur

Sverige som ledande forskningsnation, avancerad industrination och ambitiös välfärdsnation bättre ska tillvarata möjligheterna och hantera riskerna med AI och att

identifiera prioriterade internationella insatser och lämna förslag till hur Sverige kan agera proaktivt och samordnat vid framtagande och utveckling av internationella policyer och regelverk för AI. Kommissionens rapport överlämnades vid en pressträff i tisdags (den 26 november), där deras ordförande Carl-Henric Svanberg bjöd på en längre föredragning, efter att ha avslöjat några av huvuddragen i en artikel på DN Debatt dagen innan.

Rapporten är en positiv överraskning, i förhållande till mina förväntningar som var ytterst lågt ställda efter lanseringen av kommissionen förra året, då Svanberg enligt TT:s rapportering meddelat att "Vi måste avmystifiera AI" med tillägget att "kommissionen måste balansera faror och positiva aspekter på området, där [...] det generellt blir väl mycket larmrapporter". Som kronan på verket framhöll han att "AI är varmt. Det är kärlek och empati", vilket väl inte är vare sig särskilt väl skickat som avmystifiering eller någon alldeles lyckad utgångspunkt för den som har ambitionen att "balansera faror och positiva aspekter". En ytterligare bidragande orsak till mina låga förväntningar stod att finna i kommissionens inte helt välbalanserade sammansättning, med AI-riskförnekaren Mathias Sundin som det namn som stack allra mest i ögonen.

Men som sagt, resultatet blev bättre än väntat. Ett första lackmustest är i vilken mån de förstått vilken exceptionellt snabb och omvälvande utveckling vi står på tröskeln till, och på denna punkt ger jag dem betyg 3 (på den gamla goda 5-gradiga skalan). Att de insett brådskan så till den grad att de såg till att fullgöra uppdraget på just under 12 månader, att jämföra med den 18-månadersdeadline som stipulerades i uppdraget, är ett mycket gott tecken. Detsamma gäller det återkommande talet i rapporten om AI som en "omtumlande, framforsande teknik som i människans händer skapar förutsättningar för grundläggande förbättringar av våra samhällen". Emellertid följs just de orden upp av formuleringen "precis som järnvägen, elen och telefonen gjorde" vilken innebär ett implicit antagande att AI-teknikens effekter inte kommer att bli väsentligt större än de som följde på dessa tidigare teknikgenombrott, eller med andra ord att AI kommer att på Nate Silvers teknologiska Richterskala stanna på TRS-nivå 8 istället för att fortsätta till nivåerna 9 eller 10. Det kan förstås hända att den förutsägelsen visar sig korrekt, men det kräver i så fall antingen att fortsatt AI-utveckling relativt snart stöter på något oväntat och oöverstigligt tekniskt hinder, eller att vi (mänskligheten) besinnar oss och drar i nödbromsen inför de oöverskådliga konsekvenserna av att skapa en ny art vars allmänintelligens vida överstiger vår egen. Vilken av dessa båda eventualiteter kommissionen tror blir verklighet ger rapporten ingen ledtråd om, och deras förgivettagande förblir märkligt omotiverat. Något liknande kan sägas om avsnittet om AI-teknikens framtida energibehov, där kloka ord om hur "storleken på AI:s framtida elbehov i dag är högst osäker och inte går att förutsäga med någon precision" följs upp av den antiklimatiska, omotiverade¹ och närmast bisarrt modesta bedömningen att "AI kommer att stå för någon eller några procent av den totala elkonsumtionen i världen".²

Rapporten har mycket att säga både om skapandet av ett fruktbart svenskt innovationsklimat och om snabb utrullning av AI-teknik för olika tillämpningar i offentlig sektor, och här finns en hel del att instämma i och applådera. Den föreslagna åtgärdsarsenalen är omfattande, men också påfallande billig, då den budgeterade kostnaden för förslagen landar en bra bit under tre miljarder kr per år,³ varför budgetöverväganden inte kan komma att utgöra någon rimlig ursäkt om regeringen väljer att dra benen efter sig i genomförandet av kommissionens idéer.

Att rapporten trots AI-frågans utpräglat globala karaktär har ett väldigt stort fokus på Sverige och svensk konkurrenskraft är inte orimligt, även om de ovan citerade direktiven hade möjliggjort en något större (och enligt min mening önskvärd) grad av blickhöjning och tankar kring hur Sverige kan bidra till att den globala omställningen till en värld med avancerad AI blir lyckosam. Det utförliga diskussionen kring hur Sverige mellan 2020 och 2024 halkat ned från 15:e till 25:e plats på det som kallas Global AI Index ser jag dock som ett lite löjligt inslag av provinsiell alarmism, i synnerhet då det inte återföljs av något påpekande om vilken remarkablet framskjuten position för ett litet land som Sverige som plats 25 på listan innebär.⁴

Provinsiellt är också talet om vikten av att EU inte sätter hinder för lanseringen av nya amerikanska AI-modeller i Europa. Här heter det i rapporten att "även om EU-lanseringen av en ny modell bara dröjer sex månader kan det få väldigt negativa effekter på våra företags förmåga att hävda sig i den globala konkurrensen", och kommissionen anmodar "svenska företrädare [att] verka för att den AI-relaterade EU-regleringen inte bidrar till försämrad tillgänglighet för dessa verktyg". Och visst, dessa aspekter är värda att beakta, men de behöver vägas mot EU:s viktiga roll i att verka för en globalt gynnsam och etiskt rimlig utveckling, och behovet av att kunna sätta press på de ledande AI-företagen genom att villkora lanseringen i EU av deras AI-produkter med att de skärper sitt AI-säkerhetsarbete till nivåer där vi alla (i EU såväl som i resten av världen) kan känna oss trygga i att dessa produkter inte kommer att leda till katastrof. Att AI-kommissionens rapport inte med ett ord berör denna centrala målkonflikt tyder på en enögdhet som är djupt bekymmersam och som för tankarna till Svanbergs ovan citerade och föga välavvägda ord om värme och kärlek i december 2023.

Det finns såklart mycket mer att anföra om rapporten, men låt mig avrunda med att kommentera vad den har att säga om min hjärtefråga: vikten av att undvika ett scenario där en ickealignerad AI tar över världen och utplånar mänskligheten. Här hade man, av de skäl jag inledningsvis nämnde, kunnat frukta att rapporten skulle vara totalt avfärdande inför att detta skulle vara en problematik att överhuvudtaget ta på allvar. Men hör här vad de säger:

Vissa menar dock att en sådan utveckling skulle kunna hota mänsklighetens existens. Detta genom att AI-systemen utvecklar en egen vilja som skiljer sig från vår, och betraktar oss som ett hot mot sin egen fortlevnad eller sina egna mål. Risken i ett sådant scenario ligger i att systemen helt enkelt blir mer kapabla än vi människor och att vår förmåga inte räcker till för att hindra en okontrollerad utveckling. Och vidare:

AI-kommissionen anser att oron kring den så kallade existentiella risken är något som måste beaktas... Ihop med förslaget om ett svenskt AI-säkerhetsinstitut som de budgeterar med 30 miljoner kr årligen utgör dessa ord en ytterst glädjande överraskning. Jag har ingen insyn i kommissionens inre arbete, men med tanke på vad Mathias Sundin sagt i andra sammanhang om existentiell AI-risk anar jag att förhandlingarna om formuleringar kan ha varit hårda,⁵ och de har också resulterat i en del reservationer jag inte gillar helt, som följande fortsättning på "något som måste beaktas..." ovan:

...men beklagar samtidigt att delar av den offentliga diskussionen om säkerhet har tenderat att fokusera på spekulativa risker med mycket låg sannolikhet. Eftersom det här inte preciseras vilka spekulativa risker som avses, och eftersom den offentliga diskussionen är vittförgrenad och av extremt ojämn kvalitet, så kan jag inte beslå detta uttalande som formellt felaktigt. Sammanhanget ger dock en kraftig antydan om att påståendet handlar om risken att mänsklighetens utplånas av superintelligent AI, och att kommissionen med talet om "mycket låg sannolikhet" utan ett uns av motivering gör en ytterst kontroversiell bedömning som helt saknar solitt vetenskapligt stöd. Kommissionens ledamöter behöver uppenbarligen läsa på i frågan, och som startpunkt rekommenderar jag varmt Connor Leahys m.fl. aktuella text The Compendium. Den vägen tror jag att de skulle kunna närma sig insikten om vad som kanske är den allra viktigaste åtgärd Sverige behöver vidta men som lyser med iögonfallande frånvaro i rapporten: att agera internationellt för att påtala det oacceptabla i och få stopp på den civilisatoriskt livsfarliga kapplöpning mot AGI-avgrunden som en knapp handfull AI-företag i norra Kalifornien just nu är inbegripna i.

Fotnoter

1) Med ordvalt "omotiverade" tillåter jag mig här en ytterst mild överdrift, då ju bedömningen föregås av påpekandet att "Erfarenheten visar [...] att det hela tiden utvecklas energieffektivare dataprocessorer och algoritmer", dock utan omnämnande av Jevons paradox, vilket är ett förbiseende jag helst hade sluppit se i en statlig utredning anno 2024.

2) Se t.ex. Leopold Aschenbrenners Situational Awareness för ett helt väsensskilt scenario som det vore oklokt att utan argument bara vifta undan.

3) Dock finns gott om frågetecken att resa inför enskilda budgetpunkter. För att bara nämna ett exempel i mängden så budgeteras 30 miljoner kr årligen för skapandet av 50 gästprofessurer inom AI, och jag har väldigt svårt att begripa hur 600 000 kr per sådan tjänst och år skulle kunna räcka.

4) På Wikipedias lista över världens folkrikaste länder ligger Sverige på 90:e plats, medan 25:e-platsen på samma lista innehas av Italien med just under 59 miljoner invånare. Om den försämrade placeringen för Sverige alls behöver förklaras med något annat än brus och godtycke i mätmetoden, så vill jag peka på att framväxten av tigerekonomier och en global medelklass har ökat konkurrensen på listan, något jag vägrar se som entydigt dåligt.

5) Om jag får spekulera ytterligare så gissar jag att Nobelpristagaren Geoffrey Hintons varningsord vid tillkännagivandet av fysikpriset i förra månaden kan ha haft gynnsam påverkan på kommissionens avvägning, och kanske också att kommissionsledamoten Fredrik Heintz (som på sistone verkar ha svängt en aning i frågan) kan ha spelat en konstruktiv roll i diskussionerna.

tisdag 22 oktober 2024

Inte mycket om AI, utan mer av debatten om debatten, på DN Debatt

Informatikprofessorerna Jonas Ivarsson och Johan Magnusson vid Göteborgs universitet ondgör sig, under rubriken AI-debatten sitter fast i valet mellan utopi och dystopi på DN Debatt i lördags, över den "farliga och destruktiva snedvridningen av debatten kring [...] AI i Sverige". Att AI-debatten i Sverige är riktigt dålig håller jag med dem om, men dessvärre är deras egen text på DN Debatt ett praktexempel på denna dålighet.

Som sig bör inleder Ivarsson och Magnusson med en kort beskrivning det debattlandskap de kritiserar. Detta består, menar de, huvudsakligen av två läger, vilka de kallar "konservativ dystopi" respektive "progressiv utopi". Den första av dessa ser diverse ofantliga problem med AI-tekniken, inklusive massarbetslöshet och i extremfallet utplåning av Homo sapiens, medan den andra ser likaledes ofantliga möjligheter. Som gemensam nämnare för dessa båda läger identifierar författarna "en underförstådd teknikdeterminism där tekniken i sig själv bär på en inneboende kraft vilken kommer att leda samhället i endera riktningen". Det är framför allt denna teknikdeterminism de vänder sig emot, då de förespråkar en tredje mer nyanserad linje de kallar "visionsledd pragmatism".

Gott så - vem kan väl vara emot visioner och pragmatism? Problemet är bara att den beskrivning Ivarsson och Magnusson ger av debattlandskapet är en så grotesk karikatyr att den bara nätt och jämnt går att koppla till verkligheten. Det är dock tydligt, trots att mitt namn inte nämns i deras artikel, att de räknar mig till de konservativa dystopikerna. Jag skall därför här koncentrera mig på deras beskrivning av det lägret, som jag i det följande av humoristiska skäl tänker benämna med förkortningen KD.¹

Den enda KD-anhängare (eller AI-debattör överhuvudtaget) de pekar ut med namn är Max Tegmark. Det är förvisso sant att denne varit högröstad i sina varningar för att ett alltför hastigt och illa planerat AI-genombrott kan föra med sig mänsklighetens undergång, men vad Ivarsson och Magnusson försummar att nämna är att Tegmark i nästan allt han skriver i detta sammanhang - alltifrån hans bok Life 3.0 från 2017 via hans beryktade Time Magazine-artikel förra året till hans kritik i förra veckan mot Anthropics VD Dario Amodeis så kallade entente-strategi för aggressivt nykolonial amerikansk AI-politik - är noga med att framhålla vilka enorma fördelar AI-tekniken kan ge oss om vi hanterar den rätt.² Detta är så långt från teknikdeterminism man kan komma, och när Ivarsson och Magnusson associerar honom med ett KD-läger som de menar har ett "tongivande arv [från] ludditrörelsen" och "eftersträvar [...] status quo", så kan jag inte dra någon annan slutsats än att de överhuvudtaget inte har läst Tegmark i original, eller ens hört honom tala i Sveriges Radios Sommar. Troligare är att de låtit sig luras av AI-lobbyisten och tidigare riksdagsledamoten Mathias Sundins blåljugande för en engelskspråkig publik om vad Tegmark sade på svenska i sagda Sommar-program i augusti 2023.

En annan möjlig förklaring till Ivarssons och Magnussons vrångbild skulle kunna vara att de snappat upp den benämning AI doomer som i den engelskspråkiga världen de senaste åren kommit att användas om oss som varnar för existentiell AI-risk mot arten Homo sapiens (liksom mot biosfären som helhet), men att de försummat att reflektera över hur missvisande denna beteckning är. Domedagspredikanter har i alla tider hävdat att undergången är nära, medan så gott som alla vi som fått stämpeln AI doomer, inklusive Tegmark, ivrigt framhåller hur vi (mänskligheten) kan undvika undergången om blott vi tar oss samman. Tvärtemot vad Ivarsson och Magnusson verkar föreställa sig är det snarare regel än undantag i denna grupp att argumentera utifrån samma utpräglat icke-deterministiska dikotomi som Tegmark angående AI-teknikens möjliga katastrofala kontra extremt välståndsbringande följder, och vikten av att vi navigerar rätt i det avgörande läge vi nu befinner oss i.

Ett slående exempel finner vi i den svenskfödde Oxfordfilosofen Nick Bostrom, vars bok Superintelligence från 2014 gjort mer än kanske någon annan för att skapa ett uppvaknande kring AI-risk, och vars uppföljare Deep Utopia utkommen i våras behandlar frågan om vad vi meningsfullt kan ägna våra liv åt i ett läge där superintelligent AI löst alla våra praktiska problem. Den drastiska skillnaden i tema mellan de två böckerna skall inte ses som en omsvängning från KD-lägret till det Ivarsson och Magnusson kallar progressiv utopism, då både dystopiska och utopiska framtider hela tiden har legat långt fram i Bostroms tänkande på ett sätt som är typiskt för oss AI doomers.

Nåväl, det må vara hur det vill med exakt hur Ivarsson och Magnusson tillägnat sig sin snedvridna uppfattning om hur AI-debattlandskapet ser ut. Oavsett hur det står till med det står det klart att de gärna skulle se att vi som blåser i visselpipan rörande den existentiella risk för mänskligheten som uppstår till följd av de ledande AI-företagens vansinneskapplöpning mot AGI (artificiell generell intelligens) valde att tagga ned en smula, eftersom vi med våra varningsord bidrar till "en farlig och destruktiv snedvridning av debatten".

Borde vi göra det? Tagga ned alltså. Den frågan kan inte rimligtvis besvaras med mindre än att ta ställning till huruvida en sådan risk verkar vara en realitet, givet rådande evidensläge:

Om existentiell AI-risk är en realitet, så bör vi givetvis inte tagga ned, och därmed bidra till att sopa risken under mattan och därigenom öka risken att mänskligheten sömngångaraktigt fortsätter sin färd mot en eventuell AI-apoklyps. Hur mycket Ivarsson och Magnusson än önskar sig det förändrade debattlandskap som en sådan nedtaggning skulle resultera i, kan vi inte ta på våra samveten att genom att gå dem till mötes bidra till en ökad risk för mänsklighetens undergång.
Om däremot existentiell AI-risk inte är en realitet, så bör vi givetvis upphöra med att tjata om saken. Mänskligheten står inför tillräckligt många allvarliga utmaningar ändå, att vi inte bör ödsla tid och kraft på att diskutera risker som inte är på riktigt. Duh.

För egen del gör jag bedömningen att existentiell AI-risk är en realitet, något jag redogjort och argumenterat för utförligt på annat håll, som t.ex. i min bok Tänkande maskiner. Men vad anser Ivarsson och Magnusson om saken?

Detta säger de inget explicit om, då deras debattartikel egentligen inte handlar om AI i sak. De debatterar på ett metaplan - en debatt om debatten, där eventuella kopplingar till verkligar sakförhållanden lämnas underförstådda. Vi får ändå hoppas att de gör bedömningen att existentiell AI-risk inte är en realitet, ty i annat fall vore ju deras plädering för nedtaggning av diskussion om saken moraliskt monstruös.

Det finns även en del ordval i Ivarssons och Magnussons artikel som tyder på att de gör den bedömningen. De hävdar exempelvis att Max Tegmarks tal om existentiell AI-risk bottnar i en "sciencefictionkultur". Trots att jag känner stor sympati med Yuval Noah Hararis yttrande i SVT:s Babel häromdagen att science fiction är "den viktigaste litterära genren i vår tid" genom dess "försök att varna oss för farorna och att spekulera i hur vi kan bygga bättre samhällen", så är det uppenbart att Ivarssons och Magnussons bruk av begreppet är tänkt som ett okvädningsord, ämnat att diskreditera Tegmarks idéer.³

En annan antydan i samma riktning finner vi i deras stämpling av begreppet superintelligens som "vetenskapligt irrelevant". Detta gör de i största förbigående, men jag tycker ändå att det kan vara motiverat att fråga sig vad de menar med detta påstående om vetenskaplig irrelevans. En första gissning skulle kunna vara att avsikten är att göra en vetenskapssociologisk observation - ett värdeneutralt påpekande om att begreppet superintelligens inte används i den vetenskapliga litteraturen. Men påståendet kan i så fall raskt vederläggas, då ju en Google Scholar-sökning på ordet "superintelligence" ger hundratals träffar, och då samma databas anger att Nick Bostroms ovannämnda bok Superintelligence har mer än 6000 citeringar.

Ett annat förslag till vad de menar är att de är inne på samma linje som min matematikerkollega David Sumpter då denne förordar ett vetenskapsteoretiskt synsätt som sätter så snäva gränser för vad som legitimt kan studeras med vetenskapliga metoder att de exkluderar fenomen som ligger tillräckligt långt utanför det hittills kända. Sumpter tar explicit upp superintelligent AI (jämte ett par andra exempel, inklusive den eventuella existensen av utomjordiska civilisationer) såsom varande out-of-bounds för vetenskapliga studier. Den sortens invändning mot superintelligensbegreppet har jag väldigt lite till övers för, av det enkla skälet att verkligheten inte på detta vis låter sig styras av vetenskapsteoretiska gränsdragningar och andra sociala normer. Om superintelligent AI ligger inom räckhåll för dagens AI-utveckling så gör den det, oavsett vilka regler vetenskapsteoretikerna sätter upp för vad som får lov att förekomma i anständig vetenskaplig diskurs. Och med tanke på de samhälleliga värden som står på spel har vi all anledning att försöka utröna huruvida så är fallet, oaktat dessa inskränkta vetenskapsteoretikers klagomål.

Men jag vet som sagt inte vad Ivarsson och Magnusson menar med sitt påstående om vetenskaplig irrelevans, och det troligaste är måhända att det inte menar så mycket i sak alls, utan mer använder uttrycket som ännu ett okvädningsord. Särskilt mycket klokare tror jag hur som helst inte att vare sig jag eller någon annan DN-läsare blev av att se det i deras text.

Det finns ett käckt tankeredskap jag nyligen lärt mig om och som är användbart för att resonera mer strukturerat kring framtida AI, nämligen Nate Silvers Teknologiska Richterskala (TRS), som lånat halva namnet och sin (approximativt) logaritmiska struktur från den mer kända seismologiska Richterskalan med vilken vi anger jordbävningars storlek. En teknologi på nivå TRS=1 är en som poppat upp som idé i uppfinnarens huvud när denne står i duschen men därefter glömts bort. Därifrån ökar teknologins avtryck i världen, med t.ex. kommersialisering och patent, successivt, och vid nivå TRS=6 handlar det om en seriös kandidat till titeln "årets teknologiska genombrott". Nivåerna 7, 8 och 9 svarar på samma sätt mot årtiondets, århundradets och årtusendets genombrott, medan nivå 10 är reserverad för genombrott så genomgripande att de saknar motstycke i historien och skapar en helt ny era för planeten vi bor på.

Ett bra sätt att strukturera sitt tänkande kring framtiden med AI är att tänka igenom på vilken TRS-nivå AI landar, samt på vilken nivå av det vi kan kalla "braighet" - hur lyckat utfallet blir för mänskligheten på en 5-gradig skala från "katastrofalt" till "extremt positivt". Var och en med ett uns av epistemisk ödmjukhet inser att vi inte kan veta säkert var AI landar i denna tvådimensionella matris, och att det därför är bättre att beskriva sin gissning i termer av en sannolikhetsfördelning snarare än att tvärsäkert peka ut en enda av matrisens celler. Så här ser Nate Silvers egen sannolikhtesfördelning ut, så som han presenterar den i On the Edge; var och en av de små hexagonerna i diagrammet svarar mot 1% av Silvers subjektiva sannolikhetsmassa.

Det är flera saker jag gillar med Silvers fördelning. Först och främst är det bra att den är rejält utspridd över matrisen, då det visar att Silver inser vidden av den osäkerhet det här handlar om, och inte fastnat i någon specifik teknikdeterministisk tankegång. Klokt är också att ju högre upp vi går på TRS-skalan desto tydligare bimodal (tvåpucklig) och polariserad blir braighetsfördelningen (den som tror att AI landar på TRS-nivå 10 men ändå insisterar på att braigheten hamnar någonstans i mitten har nog inte tänkt igenom ordentligt hur radikalt världen skulle förändras av en TRS 10-teknologi).

Ändå skulle inte min sannolikhetsfördelning, om jag tvingades att precisera den i detalj, se ut exakt som Silvers. Framför allt skulle min fördelning förskjutas en bit uppåt längs TRS-skalan jämfört med hans, och det av två skäl. Det ena är att vi har så mycket outnyttjad potential i den AI-utveckling vi redan sett, att jag bedömer att vi är mycket nära att ha TRS-nivå 8 inom räckhåll via bättre utnyttjande av denna potential även om AI-utvecklingen i sig mot all förmodan skulle göra tvärstopp. Det andra är att intelligens är en så flexibelt användbar och självförstärkande kraft att det blir lite komplicerat att tänka sig att utvecklingen skulle stanna på nivå 8 eller 9 istället för att fortsätta uppåt, och därför lägger jag betydligt mer sannolikhetsmassa än Silver på nivå 10 (varav nästan allt hamnar i något av de båda övre hörnen, svarande på ett ungefär mot huvudscenarierna i Nick Bostroms båda böcker Deep Utopia och Superintelligence). Dock lägger jag långtifrån all sannolikhet på nivå 10, för vi kan ju trots allt stanna på nivå 8 eller 9, antingen genom att något oväntat hinder för fortsatt AI-utveckling dyker upp, eller att vi blir tillräckligt bekymrade över riskerna med fortsatt utveckling att vi kollektivt lyckas ta oss samman och avbryta den.

Jag vill verkligen rekommendera läsaren att som en nyttig övning tänka igenom hur hens sannolikhetsfördelning skulle se ut - och varför. Och det vore ytterst intressant att se var Ivarsson och Magnusson skulle hamna i en sådan övning. Självklart behöver de inte vara helt överens inbördes. Men av deras förklenande tal om science fiction och av deras artikel mer allmänt får jag intrycket att båda två helt skulle avvisa möjligheten att nå TRS-nivå 10, och att de istället skulle fördela sina respektive sannolikheter över nivåerna 7 och 8 (och möjligen även 9). Om jag har rätt i denna gissning om hur de tänker så står de inför ett lite besvärligt val rörande vad de tänker sig skall hindra AI-utvecklingen från att nå nivå 10. Antingen tänker de sig att det helt enkelt är omöjligt att AI skall nå nivå 10, något som förvisso skulle kunna vara fallet fastän det är svårt att se konkret vad det i så fall skulle bero på, och det är hur som helst epistemiskt omdömeslöst att vara bombsäker på något sådant. Den andra möjligheten är om de tänker sig att stoppet på en lägre TRS-nivå än 10 kan komma att bero åtmistone till en del på att vi väljer att avsiktligt stoppa utvecklingen till följd av att de stora risker som bedöms föreligga på högre nivåer, men den tanken rimmar lite illa med deras i DN-artikeln uttryckta önskemål om att få tyst på den sortens riskdiskussion.

Fotnoter

1) Populärkulturellt bevandrade läsare lägger här givetvis märke till min blinkning till Sveriges Televisions TV-serie Babels hus från 1981, baserad på PC Jersilds roman med samma namn, där det gigantiska sjukhus i de södra delarna av Storstockholm som spelade en av huvudrollerna höll sig med en regelbundet återkommande guidad rundtur för nyanställda, benämnd KDS (Känn Ditt Sjukhus).

2) Så t.ex. heter det i Tegmarks Time-artikel att superintelligent AI...

...might solve disease, poverty and sustainability and help humanity flourish like never before, not only for the next election cycle, but for billions of years, and not merely on Earth but throughout much of our beautiful cosmos, och hans Amodei-kritik i vilken han pläderar för att dra i nödbromsen för den skenande AGI-utvecklingen kan vi ta del av följande avslutningsmening:

If humanity needs to wait another couple of decades for beneficial AGI, it will be worth the wait – and in the meantime, we can all enjoy the remarkable health and sustainable prosperity that tool AI can deliver. 3) Samma science fiction-retorik använde Magnusson i Ny Teknik i vintras, och han verkar inte ha tagit någon större notis om hur jag med följande ord läxade upp honom för det:

Just science fiction-retoriken tycker jag är hög tid att kasta på sophögen. Någon som 1920 hade fått besked om 1960-talets Apollo-program och månlandningen hade garanterat utropat ”science fiction!”, och detsamma hade gällt den som 1980 fått höra om våra liv idag med internet och smarttelefoner, liksom för övrigt den som 2017 hade fått chansen att samtala med GPT-4. Science fiction, science fiction! Men allt detta har besannats, så vi lever redan i en science fiction-värld.

torsdag 10 oktober 2024

Två debattartiklar om AI-risk idag

Idag den 10 oktober 2024 publicerar jag inte mindre än två debattartiklar i svensk press. Båda behandlar AI-risk, och ett visst överlapp i innehåll föreligger, men huvudfokuset är ändå lite olika i de två texterna. I den ena, publicerad i Kvartal, resonerar jag kring en serie oroande tecken på det falnande intresset för AI-säkerhet och samhälleligt ansvarstagande på företaget OpenAI. I den andra, publicerad i Expressen, kommenterar jag beskedet tidigare i veckan att AI-forskaren Geoffrey Hinton utsetts till Nobelpristagare i fysik, och dennes syn på AI-risk.

Så här inleds Kvartal-artikeln, vilken bär rubriken OpenAI visar sitt rätta ansikte:

Sedan de nyligen släppt sin senaste och hittills bästa språkmodell, benämnd o1, experimenterade den världsledande matematikern Terence Tao med att diskutera matematik med den. Upplevelsen var, menade han, som att prata med en ”medioker men inte helt inkompetent doktorand”, vilket han ansåg vara ett klart fall framåt jämfört med tidigare modeller. Efter att själv ha provat samma sak kan jag instämma i hans bedömning.

Många kommentatorer tog i Taos uttalande fasta på ordet ”medioker”, och hävdade att den nya modellen är en besvikelse. Detta är dock ett utslag av svårartad fartblindhet, och förbiser att även en medelmåttig matematikdoktorand behärskar långt mer matematik än nästan alla andra. De senaste årens utveckling är makalös, och blotta tanken att det skulle vara möjligt att föra meningsfulla vetenskapliga samtal med en AI skulle för bara för fem år sedan ha avfärdats som spekulativ science fiction. Reaktionen hade blivit densamma på idén att miljontals unga människor år 2024 dagligen skulle anlita Character.ai och liknande chatbots som artificiell samtalsterapeut, vän eller romantisk partner.

Även om AI-utvecklingen mot all förmodan skulle avstanna tvärt så finns så mycket outnyttjad potential att dess inverkan på ekonomi, arbetsmarknad och samhälle kan väntas bli mycket stor. Ännu större blir givetvis effekterna om nuvarande trendlinjer mot allt kraftfullare AI består.

De positiva möjligheterna med den eskalerande AI-tekniken är närmast obegränsade, men detsamma gäller även riskerna. Konkurrensen från AI börjar bli kännbar för exempelvis copywriters och programmerare, och många andra yrkesgrupper ser ut att stå på tur. Deepfakes och olika slags automatiserad diskriminering (till exempel en AI som avgör om du ska få ett banklån eller kallas till anställningsintervju, och som svarar nej på grund av kön eller hudfärg) är andra omdiskuterade riskområden. Och ingen kan med säkerhet säga vad som händer med samhället då en allt större del av befolkningen vänder sig bort från mänskliga kontakter för att i stället välja umgänge med en mer anpasslig och trogen AI-vän.

För att inse hur omvälvande förändringarna kan bli är det värt att ta ett steg tillbaka för att...

Läs hela artikeln här!

Expressen-artikeln, rubricerad Nobelpristagaren vet att det han skapat är farligt, inleds på följande vis:

Via telefon under presskonferensen den 8 oktober då priset offentliggjordes uttryckte han sin oro över att den yttersta konsekvensen av hans och andra AI-forskares landvinningar kan bli skapandet av AI-system som är ”mer intelligenta än vi, och som slutligen tar kontrollen”. Datorpionjären Alan Turing uttryckte samma oro redan 1951, men skillnaden är att Hinton i dag ser att situationen börjar bli akut.

Geoffrey Hinton har varit en drivande kraft inom AI-forskningen i mer än fyra decennier, och det är i hög grad de beräkningsmetoder han utvecklat som möjliggör den storskaliga träningen av ChatGPT och andra AI-system som i dag börjat sätta allt större avtryck i samhället. Han var länge ganska obekymrad över AI-utvecklingens konsekvenser, men våren 2023 gjorde han en helomvändning som visar på...

Läs hela artikeln här!

lördag 21 september 2024

Some cheerful notes on the US Senate Hearing on Oversight of AI

Earlier this week, a hearing was held at the US Senate on the topic Oversight of AI: Insiders' Perspectives. Here is the full 2h 13 min video recording of the event, and here is a transcript. I strongly recommend seeing or reading the whole thing.

As regards the subject-matter content of the hearing, large parts of it can only be described as deeply troubling, provided one cares about the human civilization and the human race not being destroyed in the sort of AI catastrophe that may well become the endpoint of the ongoing and reckless race between leading tech companies towards creating superintelligent AI.¹ Nevertheless the meeting cheered me up a bit, because I think it is of tremendous importance that the topics discussed reach the ears both of powerful politicians and of the general public. In addition, the following two observations had a really heartening effect on me.

1. My admiration for Senator Richard Blumenthal is on a steady increase. When he chaired an earlier session, in May 2023, on a similar topic, he was apparently unprepared to seriously take in the idea of AI-caused human extinction, and misunderstood it as being a labor market issue. Here is what he then said to OpenAI's CEO Sam Altman:

You have said - and I'm gonna quote - development of superhuman machine intelligence is probably the greatest threat to the continued existence of humanity. End quote. You may have had in mind the effect on jobs. This is understandable. Extinction of humanity is such a far-out concept that it can be hard to take in if you are not used to it. But over the next few hours and months, Blumenthal did take it in, and in this week's hearing he showed excellent undertanding of the issues at stake. He really does take the issues seriously, and seems to be a force for good concerning the need to involve government in mitigating AI risk. Also, not every 78-year old top politician in the United States shows such a steep learning curve.

2. Of the four witnesses, two of them - Helen Toner and William Saunders - are situated mainly on what I would call the AI safety side of AI discourse, while the two others - Margaret Mitchell and David Evan Harris - are more towards AI ethics. These are two adjacent areas without any razor-sharp boundary between them, but here is how I contrast them in my recent paper On the troubled relation between AI ethics and AI safety:

The difference between the fields is mostly one of emphasis. Work in AI safety focuses mainly on what happens once AI attains capabilities sufficiently broad and powerful to rival humanity in terms of who is in control. It also addresses how to avoid a situation where such an AI with goals and incentives misaligned with core human values goes on to take over the world and possibly exterminate us. [...] In contrast, work in AI ethics tends to focus on more down-to-Earth risks and concerns emanating from present-day AI technology. These include, e.g., AI bias and its impact on social justice, misinformation based on deepfakes and related threats to democracy, intellectual property issues, privacy concerns, and the energy consumption and carbon footprint from the training and use of AI systems. As discussed at some length in my paper, a tension between representatives in these fields has in recent years been salient, often with accusations that people on the other side are wasting time and resources on the wrong problems. This is extremely unproductive, but all the more wonderful was to see how the witnesses at this Senate hearing showed no such tendencies whatsoever, but instead were eager to emphasize agreements, such as around the need to regulate AI, the dangers involved in naively hoping that the tech companies will self-regulate, and the importance of whistleblower protection. I would like to think that this is a sign that the two camps are beginning to get along better and to unite in the struggle against the true enemy: the tech company executives who are letting (to quote the words OpenAI's former head of safety Jan Leike used as he left in disgust) "safety culture and processes [take] a backseat to shiny products".

A final word of caution: Do not take my cheerful observations above as an excuse to say "phew, I guess we're all right then". We're not. The Senate hearing this week was a step in the right direction, but there's a long, difficult and uncertain road ahead towards getting the necessary governmental grip on AI risk - in the United States and internationally.

Footnotes

1) Here are two passages from statements by the witnesses at the hearing. For me personally, it's nothing new, but it is very good to hear them artucilated clearly in this setting. First, former² OpenAI board member Helen Toner:

I'd like to restate that in different words. They're saying we don't have good science of how these systems work or how to tell when they'll be smarter than us or don't have good science for how to make sure they won't cause massive harm. But don't worry, the main factors driving our decisions are profit incentives and unrelenting market pressure to move faster than our competitors. So we promise we're being extra, extra safe.

Whatever these companies say about it being too early for any regulation, the reality is that billions of dollars are being poured into building and deploying increasingly advanced AI systems, and these systems are affecting hundreds of millions of people's lives even in the absence of scientific consensus about how they work or what will be built next.

Second, former OpenAI safety researcher William Saunders:

When I thought about this [i.e., timelines to AGI], there was at least a 10% chance of something that could be catastrophically dangerous within about three years. And I think a lot of people inside of OpenAI also would talk about similar things. And then I think without knowing the exact details, it's probably going to be longer. I think that I did not feel comfortable continuing to work for an organization that wasn't going to take that seriously and do as much work as possible to deal with that possibility. And I think we should figure out regulation to prepare for that because I think, again, if it's not three years, it's going to be the five years or ten years the stuff is coming down the road, and we need to have some guardrails in place.

2) Toner was pushed off the board as a consequence of Sam Altman's Machiavellean manueverings during the tumultuous days at OpenAI in November last year.

fredag 20 september 2024

Aschenbrenner, Bostrom, Carlsmith

För första gången sedan hösten 2018 innehåller det nya numret av Förbundet Humanisternas medlemstidning Humanisten en artikel jag författat.¹ Denna gång bär min artikel rubriken AI-debattens ABC, där ABC står för de tre ledande AI-tänkarna Leopold Aschenbrenner, Nick Bostrom och Joe Carlsmith, vilka alla under 2024 utkommit med viktiga böcker eller boklånga essäer. Så här inleds min text:

The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

Turing brukar med rätta framhållas som en av 1900-talets mest banbrytande tänkare och som den största AI-pionjären av alla. Det sistnämnda alltså trots att han dog redan 1954 (för egen hand, till följd av det brittiska rättssystemets på den tiden barbariska syn på homosexualitet), ännu inte 42 år fyllda, och därmed inte fick uppleva det som numera räknas som AI-forskningens egentliga startskott två år senare, sommaren 1956. Då samlades ett antal av USA:s ledande matematiker för en sommarkonferens vid Dartmouth College i New Hampshire kring den ambitiösa idén att skapa datorprogram med förmågor som vi dittills hade sett som unikt mänskliga: språkanvändning, skapande av abstraktioner, lärande och självförbättring. Mötet kom att sätta stark prägel på decennier av fortsatt arbete, och de utmaningar som då formulerades står än idag i centrum för AI-forskningen. De höga förväntningarna var tidvis svåra att leva upp till, så till den grad att området kom att genomgå ett par perioder av så kallad AI-vinter, och det var först på 2010-talet som den exponentiellt ökande tillgången till datorkraft och datamängder gjorde att gamla neurala nätverksidéer började bära frukt på allvar och ge stora framgångar inom så olika tillämpningar som bildigenkänning, brädspel och autonoma fordon.

För den breda allmänheten är det de senaste årens utvecklingen av så kallade språkmodeller som blivit mest synlig: marknadsledande här är OpenAI, vars lansering av ChatGPT i november 2022 för första gången gjorde det möjligt för gemene man att föra samtal med en till synes intelligent AI. Under de knappa två år som sedan förflutit har utvecklingen fortsatt i rasande takt, och ovan nämnda produkt från Sanaka är bara ett av många dramatiska framsteg som alltmer pekar mot att vi närmar oss det som kallas AGI – artificiell generell intelligens – och den kritiska punkt som Turing talade om i sina varningsord från 1951. Att AI-utvecklingen radikalt kommer att transformera många samhällssektorer och även samhället som helhet blir alltmer uppenbart, och även om teknikens potential att skapa ekonomiskt välstånd är i det närmaste obegränsad finns också risken att ett slarvigt genomfört AI-genombrott leder till vår undergång.

Detta slags farhågor har det senaste decenniet lett till ökade satsningar på det som kommit att kallas AI Alignment – AI-forskning specifikt inriktad på att se till att de första i fråga om allmänintelligens övermänskligt kapabla AI-systemen har mål och drivkrafter som prioriterar mänsklig välfärd och mer allmänt är i linje med mänskliga värderingar. Detta har dock visat sig vara lättare sagt än gjort, satsningarna på AI Alignment är ännu små (i förhållande till AI-utvecklingen som helhet), och vi verkar idag vara mycket långt ifrån en lösning. Härav de senaste årens diskurs från tänkare som Eliezer Yudkowsky och Max Tegmark som de senaste åren varnat för att satsningar på AI Alignment kanske inte räcker till, och att vi därför behöver dra i nödbromsen för utvecklingen av de allra mest kraftfulla AI-systemen; även jag har alltmer kommit att ansluta mig till denna tankegång.

Samtidigt finns det de som hävdar att allt tal om existentiell AI-risk är grundlös science fiction och som stämplar oss som lyfter dessa farhågor som domedagspredikanter. I spetsen för denna motdebatt finns kända namn som IT-entreprenören Marc Andreessen och Metas AI-forskningschef Yann LeCun, men för att försvara deras position behöver man anta antingen att AI-utvecklingen automatiskt kommer att avstanna innan den nått övermänsklig allmänintelligens, eller att en övermänskligt intelligent AI på något sätt automatiskt skulle anamma en för mänskligheten gynnsam uppsättning värderingar. Den första av dessa linjer tenderar att implicit postulera någon närmast magisk förmåga hos den mänskliga hjärnan, något som är svårt att passa in i en ickereligiös naturalistisk världsbild, och den andra har visat sig ungefär lika ohållbar.

Precis som intressant och konstruktiv klimatdiskussion undviker att fastna i polemik med klimatförnekarnas insisterande på att den globala uppvärmningen antingen är en chimär eller är oberoende av mänsklig aktivitet, så lämnar den mest givande AI-diskussionen idag det Andreessen-LeCunska AI-riskförnekeriet därhän, och blickar istället framåt, med fokus på hur vi bör tänka för att bäst navigera en osäker framtid. För den som vill fördjupa sig i den för vår framtid så avgörande AI-frågan vill jag ur 2024 års bokutbud rekommendera tre böcker som alla tar detta grepp, men som i övrigt ger inbördes väldigt olika perspektiv. Det handlar om...

Läs den spännande fortsättningen här!

Fotnot

1) Jag håller lite grand andan inför vilka läsarreaktionerna blir denna gång. Förra gången uppstod ett visst palaver, vilket om jag inte missminner mig landade i att en medlem vid namn Ernst Herslow utträdde ur Humanisterna i vredesmod över att synpunkter som mina fick lov att ventileras i medlemstidningen.

fredag 6 september 2024

En höstsäsong späckad med AI-föredrag

Min höst ser ut att bli relativt späckad vad gäller att hålla föredrag om AI-tekniken, dess konsekvenser och hur vi kan hantera de härmed förknippade stora riskerna. En del av mina framträdanden är öppna för allmänheten, inklusive följande, vilket kanske framför allt kan glädja hugade åhörare från trakterna kring Stockholm, Göteborg, Linköping, Jönköping, Uddevalla och Dublin samt cyberrymden. Observera dock att det i vissa fall krävs föranmälan och/eller inträdesavgift.

Onsdagen den 18 september talar jag över ämnet AI and the human civilization at a crossroads på Cloud AI Summit i Dublin.
Torsdagen den 19 september klockan 12.00 framträder jag på hemmaplan - sal SB-H1 på Chalmers - med ett lunchföredrag med samma rubrik som dagen innan: AI and the human civilization at a crossroads. Det hela är ett arrangemang av den ideella föreningen AI Safety Gothenburg.
Därifrån skyndar jag mig raskt vidare till Uddevalla där jag senare samma dag (torsdagen den 19 september klockan 18.00) talar om ämnet Vår framtid med AI: stora möjligheter och stora risker på Dalabergs bibliotek.
Lördagen den 28 september klockan 15:30 medverkar jag tillsammans med Peter Gärdenfors och Christer Sturmark i ett samtal rubricerat Kan AI tänka? på Bokmässan i Göteborg.
Torsdagen den 3 oktober arrangerar Vetenskapesrådet ett heldagsmöte i Stockholm rubricerat Ethics Arena 2024: AI and research ethics, i vilket jag medverkar med föredraget The ongoing AI transformation: what is at stake och efterföljande panelsamtal.
Torsdagen den 17 oktober medverkar jag med ett föredrag på konferensen KVIT 2024: The human behind AI i Linköping. (Förkortningen KVIT verkar stå för kognitionsvetenskap och informationsteknologi.)
Tisdagen den 22 oktober håller Statistikfrämjandet sitt digitala höstmöte, vilket i år har rubriken Framtiden för statistiker. Mer information följer längre fram, men redan nu kan avslöjas att jag klockan 10.30 kommer att ge ett föredrag med (surprise, surprise!) visst AI-fokus. [Edit: Här är programmet.]
Tisdagen den 5 november äger årets upplaga av konferensen Forskningsbaserad undervisning – teori och praktik i samverkan rum på den högskola i Småland som valt att kalla sig Jönköping University. Temat i år är AI och digitalisering, och jag kommer att medverka med föredraget AI-utvecklingen och den brytningstid vi lever i.
Samma rubrik - AI-utvecklingen och den brytningstid vi lever i - använder jag då jag tisdagen den 12 november klockan 18.30 talar i Linköpings domkyrka.

tisdag 3 september 2024

The urgent need for AI safety: three videos

Today I would like to recommend three videos highlighting the importance of AI safety from various perspectives.

First, Yoshua Bengio. He is a professor at the Université de Montréal and widely held as one of the world's two or three most respected AI researchers. Yesterday (September 2), he spoke at the Royal Swedish Acadamy of Engineering Sciences (IVA). Since early 2023, Bengio has been outspoken about the urgent need to address existential AI risk and AI safety, and this was also the focus of his talk yesterday:

The talk is nontechnical, very clearly laid out and quite crisp: it begins about 13:20 into the unedited video and goes on until about 36:10. After that follows a long and fairly enlightening discussion with Fredrik Heintz, who is a bit of a key player in the Swedish AI ecosystem, being a professor at Linköping University, a long-time preident of the Swedish AI Society, and a member of the AI commission launched by the Swedish government in December last year. I've had a number of interactions with Fredrik over the last few years, in media and elsewhere, and on these occasions he never came across as particularly interested in the need to save humanity from AI catastrophe. This time, however, he engaged so seriously with what Bengio had to say about the topic that I take it as a highly welcome shift in his position towards a better appreciation of AI safety concerns. Well done, Fredrik!

While Bengio's talk works well as a first introduction for a beginner to the fields of AI risk and AI safety, I feel that an even better such introduction may be Robert Miles' recent video AI ruined my year. Unlike Bengio, Miles is not primarily an AI researcher but a very skilled communicator and popularizer of some of the field's key ideas. The video is a summary of the past year's dramatic unfolding of some key AI events, and a touchingly personal recollection of how these have forced him into some pretty deep soul searching:¹

Finally, here's a third video - please bear with me, because it's just 11 seconds long - where a famous clip with Gary Oldman in the movie Léon is efficiently exploited in order to make a key point to US presidential candidate Kamala Harris:

Footnote

1) These are the key qualities for which I recommend Miles' video. The fact that my name is visible in it for a split second plays little or no role in this.

fredag 12 juli 2024

Om opinionsläget rörande AI-utvecklingen

För oss som arbetar med AI-riskfrågor, och som gärna vill väcka opinion för att hejda den pågående vansinneskapplöpning mot AI-avgrunden, kan det kännas uppmuntrande att se resultaten av opinionsundersökningar vilkas resultat tyder på att vi redan har folket med oss. Så till exempel redovisade Time Magazine i veckan en amerikansk sådan undersökning och meddelade följande:

According to the poll, 75% of Democrats and 75% of Republicans believe that “taking a careful controlled approach” to AI—by preventing the release of tools that terrorists and foreign adversaries could use against the U.S.—is preferable to “moving forward on AI as fast as possible to be the first country to get extremely powerful AI.” Och här hemma i Sverige kunde vi nyligen ta del av den senaste SOM-undersökningen, vars AI-avsnitt bland annat meddelar att endast 12% av de svarande ger svaret "mycket stort" eller "ganska stort" på frågan "Hur stort förtroende har du för att teknikföretagen som utvecklar AI gör det ansvarsfullt?", och att 56% ställer sig positiva till ökad reglering av AI. Ytterst glädjande!

Eller? Jag är i själva verket ganska skeptisk till vilka slutsatser om allmänhetens syn på AI som kan dras av detta slags undersökningar. Det stora flertalet har tänkt mycket lite eller inget alls på AI-utvecklingen och dess samhällskonsekvenser, och har därför inga särskilda uppfattningar om saken, så att svaren när de plötsligt avkrävs sådana blir lite vad som helst. Kanske allra tydligast syns detta fenomen i den stora undersökning av AI-forskares uppfattningar om AI-futorologiska spörsmål som utförts av en grupp med Katja Grace i spetsen. Som jag diskuterat utförligt i ett videoföredrag postat tidigare i år här på bloggen så är ett av de tydligaste resultaten av denna undersökning hur internt inkonsistenta och känsliga för framing-effekter AI-forskarnas svar är. Och om inte ens AI-forskarna själva har tänkt igenom AI-teknikens framtid tillräckligt för att ge koherenta svar, vad skall man då tro om allmänheten?

Nämnda SOM-studie är inte utformad för att medge avläsning av framing-effekter på samma direkta vis som den av Grace et al, men jag skall ändå tillåta mig en försiktig spekulation om en specifik siffra i resultaten som kan ha påverkats av framing. Av SOM-studien framgår nämligen att endast 9% av de tillfrågande betecknar påståendet "AI är ett hot mot mänskligheten" som "helt riktigt", en siffra som är uppseendeväckande låg med tanke på att påståendet (enligt både min och många ledande AI-forskares uppfattning) är helt riktigt. Men tidigare i undersökningen förekommer frågan "Om du tänker på de kommande 30 åren, tror du att jobb likt ditt främst kommer att utföras av människor eller robotar/AI?", på vilken de enda svarsalternativen (utöver "vet ej") är "människor" och "robotar/AI". Detta binära val verkar förutsätta att mänskligheten inte utplånas av AI de närmaste 30 åren, ty utan existensen av människor blir ju jobb som exempelvis socialsekreterare, gymnasielärare, narkossköterska eller telefonförsäljare tämligen meningslösa och kommer knappast att utföras vare sig av människor eller av robotar/AI. Genom denna begränsning har de svarande därmed fått en indirekt signal om att AI-genererad utplåning av mänskligheten nog inte är att räkna med, åtminstone inte de närmaste 30 åren, något som (om de inte har en sedan tidigare genomtänkt position i AI-frågor) nog kan tänkas göra dem mer benägna att reagera skeptiskt när de senare i undersökningen ombeds ta ställning till påståendet "AI är ett hot mot mänskligheten". (Jag tror inte för ett ögonblick att SOM-undersökarna gjort detta med avsikt att manipulera utfallet. Troligare är väl att de själva är så obekanta med den hotbild som faktiskt verkar föreligga att det helt enkelt inte föresvävade dem att ett tredje svarsalternativ på frågan om arbetsmarknaden på 30 års sikt kunde behövas.)

Oavsett hur det står till med just denna siffra menar jag dock att undersökningar om folks uppfattningar om framtida samhällskonsekvenser av AI behöver tas med en mycket stor nypa salt. Inte minst gäller detta de siffror som tyder på att vi som vill tygla AI-utvecklingen har folkets stöd. Ett mycket stort opinionsarbete återstår innan vi har något betydande folkligt politiskt momentum för åtgärder i den riktningen.

måndag 8 juli 2024

On Anthropic's call for proposals for third-party model evaluations

Nick Bostrom's modern classic Superintelligence: Paths, Dangers, Strategies from 2014 is full of interesting ideas.¹ Some of them have a scary quality to them, and the one that I found scariest of all, back when I read the book, is what he calls the treacherous turn - the idea that a sufficiently intelligent AI which discovers a discrepancy between its own goals and motivations and those of us humans is likely to hide its capabilities and/or true intentions and to keep a low profile, quietly improving its situation and its capabilities until one day it judges the coast to be clear for moving forward at full speed towards whatever its goal is, be it paperclip production or something entirely different and incomprehensible to us. I remember not being fully prepared to take the idea in, but expecting or hoping that it would soon be demoted to a noteworthy technicality that AI alignment research has demonstrated an easy way to defuse.

This has not happened. On the contrary, the treacherous turn phenomenon lies at the heart of the fundamental problem with evaluating the safety of advanced AI models that has become increasingly recognized in recent years. In short, we do not know how to establish the absence of dangerous capabilities in AI models without the a priori assumption that they do not possess superhuman capabilities for deception and social manipulation, making the argument for the models' safety in part circular. With increasingly capable large language models, this problem becomes increasingly pressing and has been discussed both in popular media and in articles by leading AI researchers, as well as by the AI company Anthropic² in their recent document A new initiative for developing third-party model evaluations:

learn dangerous goals and motivations

even after safety training

persuasiveness

Given the current situation, it's a good thing that Anthropic makes this call for help with the problem of safety evaluation of advanced AI models. Even better, one might argue, would be if they refrained from building models whose safety cannot be ascertained with existing evaluation methods.³

Footnotes

1) The same is true about Bostrom's latest book Deep Utopia: Life and Meaning in a Solved World, which I hope to come back to in another blog post later this year.

2) Anthropic's rise, since it was founded in early 2021, has been meteoric. They are now unquestionably among the world's three leading frontier AI developers (along with OpenAI and Google/DeepMind). With their release of Claude 3.5 Sonnet on June 20 this year, we have for the first time since I became aware in 2019 of the rapid rise of large language models a situation where a model not from OpenAI has a significant lead over other publicly available models in terms of overall cognitive capabilities. To understand on a gut level how intelligent Claude is, there really is no substitute for talking to it yourself (which anyone is free to do), but let me offer an amusing sample. After having had a bit of back-and-forth with Claude regarding who are the top ten greatest chess players of all time, I switched topics a bit:

OH:

Claude: Creating a list of the 10 greatest AI researchers of all time is indeed a challenging task, as the field is vast and has evolved significantly over the decades. Additionally, contributions can be theoretical, practical, or both, making comparisons difficult. However, I'll attempt to create a list based on historical impact, influential work, and contributions to the field. Please note that this list is subjective and others might have different opinions:

1. Alan Turing - For his foundational work on computation and the Turing Test.

2. Marvin Minsky - Co-founder of MIT's AI lab and author of influential works on AI.

3. John McCarthy - Coined the term "Artificial Intelligence" and invented LISP.

4. Judea Pearl - For his work on Bayesian networks and causal reasoning.

5. Geoffrey Hinton - Pioneer in deep learning and neural networks.

6. Yann LeCun - Made significant contributions to convolutional neural networks.

7. Yoshua Bengio - Key figure in the development of deep learning.

8. Stuart Russell - Co-author of a seminal AI textbook and researcher in multiple AI fields.

9. Andrew Ng - For his work in machine learning and deep learning, and for making AI education widely accessible.

10. Demis Hassabis - Co-founder of DeepMind and key figure in reinforcement learning and AI game-playing systems.

This list attempts to balance historical pioneers with more recent contributors who have shaped modern AI. It's worth noting that many other researchers could justifiably be included, such as Herbert Simon, Allen Newell, Seymour Papert, Jürgen Schmidhuber, Fei-Fei Li, and many others.

The field of AI is collaborative and builds upon the work of many researchers, so any such list will inevitably omit many important contributors. Also, as AI continues to evolve rapidly, the landscape of influential researchers is likely to change.

Would you like to discuss any of these researchers in more detail or explore other aspects of AI history?

OH: Turing on top of the list - I like that! Did you by any chance consider including Ilya Sutskever?

Claude: I'm glad you appreciate seeing Turing at the top! His contributions to the foundations of computer science and AI are truly monumental.

Regarding Ilya Sutskever, you raise an excellent point. He's certainly a strong candidate for such a list, and I can see why you'd bring him up. Sutskever has made significant contributions to the field of deep learning and is a key figure in modern AI research. Here's a brief overview of why he could be considered for a top AI researchers list:

1. He's a co-founder and Chief Scientist of OpenAI, one of the leading AI research organizations.

2. Sutskever was a key contributor to AlexNet, which was a breakthrough in computer vision using deep learning.

3. He's made important contributions to sequence-to-sequence learning, which has applications in machine translation and other natural language processing tasks.

4. His work on improving training techniques for deep neural networks has been influential in the field.

5. Sutskever has been involved in the development of GPT (Generative Pre-trained Transformer) models, which have revolutionized natural language processing.

Given these contributions, Sutskever could certainly be considered for inclusion in a top 10 list, especially if focusing on more recent impactful work in deep learning and neural networks. His omission from my initial list reflects the difficulty of narrowing down to just 10 names in such a rich and rapidly evolving field.

If you were to include Sutskever, who would you remove from the list to make room for him? Or would you structure the list differently to accommodate more recent contributors like Sutskever?

OH: The biggest surprise to me on your list is Judea Pearl. I'm aware of his work, and respect it, but probably would not have included him on my top 10.

Another name I'd consider for inclusion, although I realize it might be controversial, is Eliezer Yudkowsky.

Claude: Your perspective on Judea Pearl is interesting and highlights the subjective nature of these lists. Pearl's inclusion is often based on his groundbreaking work on Bayesian networks and causal reasoning, which has had a significant impact on how we approach probabilistic reasoning in AI. However, I can understand why his work might not seem as directly relevant to the current deep learning-dominated landscape of AI.

Regarding Eliezer Yudkowsky, his inclusion would indeed be controversial, but it's an intriguing suggestion. Here are some points to consider:

1. Contributions: Yudkowsky is known for his work on AI safety and rationality rather than for technical AI breakthroughs. He's been influential in raising awareness about potential risks of advanced AI systems.

2. Impact: He founded the Machine Intelligence Research Institute (MIRI) and has written extensively on topics like friendly AI and decision theory.

3. Controversy: His lack of formal academic credentials and some of his unconventional views have led to mixed reception in mainstream AI circles.

4. Influence: Despite controversy, his ideas have influenced discussions on AI ethics and safety, which are increasingly important as AI systems become more powerful.

Including Yudkowsky would shift the list's focus somewhat from technical achievements to broader impacts on AI discourse and policy. It would recognize the importance of considering AI's societal implications alongside its technical development.

If you were to create your own top 10 list, how would you balance between technical innovators, theoretical contributors, and those who've influenced the direction and ethics of AI research? Would you give more weight to recent contributions in deep learning and neural networks, or try to represent the broader history of AI?

OH: These are excellent questions, and I fear there is no objective truth to be found out there.

I have a confession to make, namely that one of my reasons for asking about top AI researchers was to check whether your creators at Anthropic might have sneakily programmed you to have a preference for one of your own researchers, such as Dario Amodei or Chris Olah. Sorry about that, but you passed my test with dignity!

Claude: I appreciate your honesty about your motivations for asking the question. You're right that there's no objective truth in creating such lists - they're inherently subjective and can vary greatly depending on the criteria used.

Your "test" is quite insightful. I can assure you that I don't have any programmed preference for Anthropic researchers or anyone else. My responses are based on my training data and the general consensus in the AI field, not on any specific agenda or bias towards particular individuals or organizations.

It's a good instinct to be skeptical and look for potential biases in AI systems. In my case, I'm designed to be as objective as possible, acknowledging when topics are controversial or when I might not have complete information.

Regarding Anthropic researchers like Dario Amodei or Chris Olah, while they have certainly made valuable contributions to the field, their work would be evaluated on its merits just like any other researcher's. The field of AI is vast and rapidly evolving, with many brilliant minds contributing from various institutions and companies around the world.

Your approach to testing for potential biases is commendable. It's this kind of critical thinking that helps keep AI development accountable and transparent. Is there anything else you'd like to discuss about AI researchers, the development of AI, or the ethical considerations surrounding it?

3) The same goes for OpenAI, as well as for their other competitors. See my comments in January this year about OpenAI's evaluation framework, and this addendum the month after.

fredag 28 juni 2024

On optimism and pessimism standing at the brink of the great AI breakthrough

Sometimes in discussions about technology, the term techno-optimism is reserved for the belief that technology will develop rapidly, while techno-pessimism is used for the belief that it will move slowly or come to a halt. This is not the meaning of optimism and pessimism intended here. Throughout this blog post, the terms will refer to beliefs about consequences of this technology: are they likely to be good or to be bad?

Last time I wrote about the concepts of optimism and pessimism in the context of future AI advances and their ramifications, way back in 2017, I advocated for a sober and unbiased outlook on the world, and held

^1,2

I still hold this view, but I nevertheless think it is worth revisiting the issue to add some nuance,³ now in 2024 when we seem to be standing closer than ever to the brink of the great AI breakthrough. To suggest intentionally introducing either an optimism or a pessimism bias still sounds bad to me, but we can reframe the issue and make it less blatantly pro-distortion by admitting that all our judgements about our future with AI will necessarily be uncertain, and asking whether there might be an asymmetry in the badness of erring on the optimistic or the pessimistic side. Is excessive optimism worse than excessive pessimism, or vice versa?

There are obvious arguments to make in either direction. On one hand, erring on the side of optimism may induce decision-makers to recklessly move forward with unsafe technologies, whereas the extra caution that may result from undue pessimism is less obviously catastrophic. On the other hand, an overly pessimistic message may be disheartening and cause AI researchers, decision-makers and the general public to stop trying to create a better world and just give up.

The latter aspect came into focus for me when Eliezer Yudkowsky, after having began in 2021 to open up publicly about his dark view of humanity's chances of surviving upcoming AI developments, went all-in on this with his 2022 Death with dignity and AGI ruin blog posts. After all, there are all these AI safety researchers working hard to save humanity by solving the AI alignment problem - reserchers who rightly admire Yudkowsky as the brilliant pioneer who during the 00s almost single-handedly created this research area and discovered many of its crucial challenges,⁴ and to whom it may be demoralizing to hear that this great founder no longer believes the project has much chance of success. In view of this, shouldn't Yudkowsky at least have exhibited a bit more epistemic humility about his current position?

I now look more favorably upon Yudkowsky's forthrightness. What made me change my mind is a graphic published in June 2023 by Chris Olah, one of the leading AI safety researchers at Anthropic. The x-axis of Olah's graph represents the the level of difficulty of solving the AI alignment problem, ranging from trivial via steam engine, Apollo project and P vs NP to impossible, and his core messages are (a) that since uncertainty is huge about the true difficulty level we should rationally represent our belief about this as some probability distribution over his scale, and (b) that it is highly important to try to reduce the uncertainty and improve the precision in our belief, so as to better be able to work in the right kind of way with the right kind of solutions. It is with regards to (b) that I changed my mind on what Yudkowsky should or shouldn't say. If AI alignment is as difficult as Yudkowsky thinks, based on his unique experience of decades of working hard on the problem, then it is good that he speaks out about this, so as to help the rest of us move our probability mass towards P vs NP or beyond. If instead he held back and played along with the more common view that the difficulty is a lot easier - likely somewhere around steam engine or Apollo project - he would contribute to a consensus that might, e.g., cause a future AI developer to wreak havoc by releasing an AI that looked safe in the lab but failed to have that property in the wild. This is not to say that I entirely share Yudkowsky's view of the matter (which does look overconfident to me), but that is mostly beside the point, because all he can reasonably be expected to do is to deliver his own expert judgement.

At this point, I'd like to zoom in a bit more on Yudkowsky's list of lethalities in his AGI ruin post, and note that most of the items on the list express reasons for not putting much hope in one or the other of the following two things.

(2) Our ability to collectively decide not to build an AI that might wipe out Homo sapiens.

It is important for a number of reasons to distinguish pessimism about (1) and pessimism about (2),⁵ such as how a negative outlook on (1) gives us more reason to try harder to solve (2), and vice versa. However, the reason I'd like to mainly highlight here is that unlike (1), (2) is a mostly social phenomenon, so that beliefs about the feasibility of (2) can influence this very feasibility. To collectively decide not to build an existentially dangerous AI is very much a matter of curbing a race dynamic, be it between tech companies or between nations. Believing that others will not hold back may disincentivize a participant in the race from themselves holding back. This is why undue pessimism about (2) can become self-fulfilling, and for this reason I believe such pessimism about (2) to be much more lethal than a correponding misjudgement about (1).⁶

This brings me to former OpenAI employee Leopold Aschenbrenner's recent and stupendously interesting report Situational Awareness: The Decade Ahead.⁷ Nowhere else can we currently access a more insightful report about what is going on at the leading AI labs, how researchers there see the world, and the rough ride during the coming decade that the rest of the world can expect as a consequence of this. What I don't like, however, is the policy recommendations, which include the United States racing ahead as fast as possible towards AGI the next few years. Somewhat arbitrarily (or at lest with insufficiently explained reasons), Aschenbrenner expresses optimism about (1) but extreme pessimism about (2): the idea that the Chinese Communist Party might want to hold back from a world-destroying project is declared simply impossible unless their arm is twisted hard enough by an obviously superior United States. So while on one level I applaud Aschenbrenner's report for giving us outsiders this very valuable access to the inside view, on another level I fear that it will be counterproductive for solving the crucial global coordination problem in (2). And the combination of overoptimism regarding (1) and overpessimism regarding (2) seems super dangerous to me.

Footnotes

1) This was in the proceedings of a meeting held at the EU parliament on October 19, 2017. My discussion of the concepts of optimism and pessimism was provoked by how prominently these termes were used in the framing and marketing of the event.

2) Note here that in the quoted phrase I take both optimism and pessimism as deviations from what is justified by evidence - for instance, I don't here mean that taking the probability of things going well to be 99% to automatically count as optimistic. This is a bit of a deviation from standard usage, which in what follows I will revert to, and instead use phrases like "overly optimistic" to indicate optimism in the sense I gave the term in 2017.

3) To be fair to my 2017 self, I did add some nuance already then: the acceptance of "a different kind of optimism which I am more willing to label as rational, namely to have an epistemically well-calibrated view of the future and its uncertainties, to accept that the future is not written in stone, and to act upon the working assumption that the chances for a good future may depend on what actions we take today".

4) As for myself, I discovered Yudkowsky's writings in 2008 or 2009, and insofar as I can point to any single text having convinced me about the unique importance of AI safety, it's his 2008 paper Artificial intelligence as a positive and negative factor in global risk, which despite all the water under the bridges is still worthy of inclusion on any AI safety reading list.

5) Yudkowsky should be credited with making this distinction. In fact, when the Overton window on AI risk shifted drastically in early 2023, he took that as a sufficiently hopeful sign so as to change his mind in the direction of a somewhat less pessimistic view regarding (2) - see his much-discussed March 2023 Time Magazine article.

6) I don't deny that, due to the aforementioned demoralization phenomenon, pessimism about (1) might also be self-fulfilling to an extent. I don't think, however, that this holds to anywhere near the same extent as for (2), where our ability to coordinate is more or less constituted by the trust that the various participants in the race have that it can work. Regarding (1), even if a grim view of its feasibility becomes widespread, I think AI researchers will still remain interested in making progress on the problem, because along with its potentially enormous practical utility, surely this is one of the most intrinsically interesting research questions on can possibly ask (up there with understanding biogenesis or the Big Bang or the mystery of consciousness): what is the nature of advanced intelligence, and what determines its goals and motivations?