Visar inlägg med etikett Leopold Aschenbrenner. Visa alla inlägg
Visar inlägg med etikett Leopold Aschenbrenner. Visa alla inlägg

lördag 5 april 2025

Recommending the AI 2027 report by Kokotajlo and collaborators

Most people, including many AI experts, struggle to grasp (if they're even aware of it) the increasingly dominant view emerging in the epicenter of AI development in San Francisco and Silicon Valley: that extreme developments (on a scale surpassing even the Industrial Revolution) may well occur within the present decade. It is therefore entirely reasonable that there's growing demand for concrete scenarios describing what might happen. For almost exactly ten months, from early June 2024 onward, my go-to reference for such scenarios was Leopold Aschenbrenner’s Situational Awareness.

As of today, however, I recommend instead the brand-new AI 2027, by Daniel Kokotajlo, Scott Alexander, Thomas Larsen, Eli Lifland and Romeo Dean. The report is an ambitious, detailed, remarkably competent and highly readable account of where things may be headed over the next few years. I commend the authors for putting in the considerable amount of work needed to produce the report, and I share their hope that the report will stimulate others in the AI sphere to react to it, for instance by challenging the various assumptions underlying the suggested scenario, or by proposing alternative scenarios.

Anyone with an interest in societal issues and a desire to ground their discussions in a realistic situational assessment is warmly encouraged to read it. In addition to the report itself, there is a highly informative three-hour podcast episode where Dwarkesh Patel interviews the first two authors, plus a short blog post by Scott Alexander introducing the project.

[Edit, April 9: Here are Scott Alexander's personal takeways from the project. Here and here are two relevant blog posts by Zwi Mowshowitz: the first is a detailed reading of the aforementioned podcast discussion, and the second is his summary of various people's initial reactions to the report, on Twitter and elsewhere. All of this is well worth reading, and I am certain a lot more will follow.]

måndag 6 januari 2025

I find Sam Altman's latest words on AI timelines alarming

Estimating timelines until AI development hits the regime where the feedback loop of recursive self-improvement kicks in, leading towards the predictably transformative1 and extremely dangerous intelligence explosion or Singularity, and superintelligence, is inherently very difficult. But we should not make the mistake of inferring from this lack of predictability of timelines that they are long. They could be very short and involve transformative changes already in the 2020s, as is increasingly suggested by AI insiders such as Daniel Kokotajlo, Leopold Ashcenbrenner and Dario Amodei. I am not saying these people are necessarily right, but to just take for granted that they are wrong strikes me as reckless and irrational.

And please read yesterday's blog post by OpenAI's CEO Sam Altman. Parts of it are overly personal and cloying, but we should take seriously his judgement that the aforementioned regime change is about to happen this very year, 2025:
    We are now confident we know how to build AGI as we have traditionally understood it. We believe that, in 2025, we may see the first AI agents “join the workforce” and materially change the output of companies. We continue to believe that iteratively putting great tools in the hands of people leads to great, broadly-distributed outcomes.

    We are beginning to turn our aim beyond that, to superintelligence in the true sense of the word. We love our current products, but we are here for the glorious future. With superintelligence, we can do anything else. Superintelligent tools could massively accelerate scientific discovery and innovation well beyond what we are capable of doing on our own, and in turn massively increase abundance and prosperity.

    This sounds like science fiction right now, and somewhat crazy to even talk about it. That’s alright—we’ve been there before and we’re OK with being there again. We’re pretty confident that in the next few years, everyone will see what we see, and that the need to act with great care, while still maximizing broad benefit and empowerment, is so important. Given the possibilities of our work, OpenAI cannot be a normal company.

The time window may well be closing quickly for state actors (in particular, the U.S. government) to intervene in the deadly race towards superintelligence that OpenAI, Anthropic and their closest rivals are engaged in.

Footnote

1) Here, by "predictably transformative", I merely mean that the fact that the technology will radically transform society and our lives is predictable. I do not mean that the details of this transformation can be reliably predicted.

fredag 27 december 2024

Kan AI förgöra mänskligheten? Min senaste medverkan i Utbildningsradion

Jag blev intervjuad i november för avsnittet Kan AI verkligen förgöra mänskligheten av Utbildningsradions program Hjärta och hjärna med programledarna Jenny Jägerfeld och Eric Stern. Avsnittet släpptes idag och jag känner mig hyggligt nöjd med hur det blev. De hade även intervjuat min gode vän och framtidsforskarkollega Karim Jebari, men vid ett separat tillfälle någon dag senare, vilket måhända inte framgick av hur de i redigeringen valde att saxa fram och tillbaka mellan våra respektive yttranden. Saxningen var dock helt rimlig med tanke på att programmet var uppbyggt kring tre centrala ja/nej-frågor som både Karim och jag ombads ta ställning till.

Jag var föreberedd på att de skulle klippa ganska kraftigt i intervjun med mig, vilket ibland kan vara ett riskmoment med tanke på möjligheten att klippa illasinnat, vilket jag dock inte kände var något att oroa sig över i detta fall. Det enda jag hajar till inför när jag nu lyssnar igenom avsnittet är hur jag mot slutet (50:25 in i avsnittet) summerar min insats i programmet med att
    jag får säga "vet inte" på samtliga tre frågor, och då kan ni ju tycka att ni kallat in fel expert här,
men med min omedelbara fortsättning bortklippt, vilken ungefär löd
    fast om ni hade hittat någon som givit tvärsäkra ja/nej-svar så hade det ju bara visat att denne uppvisar dåligt epistemiskt omdöme givet det extremt osäkra vetenskapliga kunskapsläget.
Denna fortsättning var avsedd att genast undanröja den potentiella missuppfattningen att mitt yttrande skulle vara en sågning av den egna expertisen snarare än en reflektion över det allmänna kunskapsläget, men jag tror att kontexten ändå förhindrar en sådan tolkning. I efterhand inser jag dessutom att det hade varit omöjligt för programmakarna att inkludera fortsättningen utan att det hade låtit som en sågning av Karims omdömesförmåga (vilket det såklart inte var avsett som, inte minst med tanke på att jag vid den tidpunkten inte visste hur han skulle svara på de tre frågorna).

Valet av Karim och mig som experter att intervjua var bra på så vis att våra uppfattningar går kraftigt isär på en rad för AI-debatten centrala punkter, vilket är ganska representativt för hur kunskapsläget ser ut (även om vi givetvis inte respresenterar det fulla åsiktsspektrum som föreligger bland AI-forskare och andra experter). Jag vill här bara kommentera en av dessa punkter. När Karim på tal om den eventuella risken för existentiell AI-katastrof säger (vid pass 20:20) att "sannolikheten att det skulle ske de närmsta hundra åren är extremt låg", så får detta programledare Jägerfeld, med intervjun med mig i färskt minne, att (vid 22:25) fråga "vad är det som gör, tror du, att Olle och andra forskare tänker att det är en såpass stor risk att AI utrotar mänskligheten?". Detta är en väldigt bra typ av fråga att ställa då avsikten är att gå till grunden med våra divergerande ståndpunkter, och efter att avhandlat en annan del av frågebatteriet ger Karim (vid 23:55) ett rakt svar:
    Under början av 2000-talet fanns en massa idéer om att när en AI blivit tillräckligt intelligent och uppnått en viss nivå, så kunde den då börja förbättra sig själv, och då skulle den här självförbättrande spiralen bli en feedback, en återkopplingseffekt, som skulle leda till att den på kort tid skulle bli extremt intelligent. Den här teorin eller scenariot, som diskuterades i många kretsar, förutsätter en gammal generation av AI, den typ av AI som vi hade på 00-talet, det som vi idag kallar expertsystem. Moderna AI - deep learning-AI - kan inte förbättra sig själva på det här sättet, eftersom de kräver jättemycket data, extremt mycket elektricitet, extremt mycket begränsade resurser, chips och så vidare, som gör självförbättringsloopen mycket mindre effektiv, mycket mer kostsam, och begränsad av en massa naturliga hinder.
Detta är ett mycket bättre svar än vad de flesta andra skeptiker i frågan om existentiell AI-risk hade förmått leverera, men jag vill ändå mena att det bygger på en grov förenkling av hur AI-utvecklingen ser ut idag. Det har förvisso talats mycket om hur denna utveckling i hög grad drivs av uppskalning av data och beräkningsresurser, men det är långt ifrån hela sanningen, då algoritmutveckling också ligger bakom en stor del av prestandaförbättringen, något som blir extra tydligt med OpenAI:s kraftfulla nya modeller o1 och o3 som eventuellt rentav kan ses som en brytpunkt där uppskalningen inte längre ligger i första rummet, utan det mer handlar om algoritmer som genom att exempelvis bryta ned problem i en sekvens av mindre delproblem ger större utbyte än de tidigare mer rena språkmodellerna. Denna algoritmiska aspekt öppnar för den feedbackloop som Karim avvisar, och jag skulle vilja råda honom att läsa Leopold Aschenbrenners Situational Awareness, som i detalj resonerar sig igenom det mainlinescenario han (Aschenbrenner alltså) ser framför sig det närmaste årtiondet, och som leder till superintelligens. Uppskalning av beräkningskapacitet och elförsörjning finns med i hans scenario, men centralt är också hur AI, tack vare sina extremt snabbt tilltagande kompetenser inom programmering, matematik och relaterade områden, ser ut att inom några få år kunna överträffa även de bästa mänskliga AI-utvecklarna i deras egen gren, vilket öppnar för exempelvis OpenAI att kunna sätta tusentals eller rentav miljontals sådana AI i arbete och därigenom skala upp sin AI-utveckling så dramatiskt att den omtalade självförbättringsspiralen sätter igång på allvar.

Relaterat om än mer översiktligt hörde vi nyligen en av vår tids allra vassaste AI-forskare, den avhoppde OpenAI-medarbetaren Ilya Sutskever, göra bedömningen att den rena uppskalningens epok är förbi men att utvecklingen ändå kommer att rusa vidare mot superintelligens. Det kan såklart hända att såväl Sutskever och Aschenbrenner som en rad andra ledande AI-profiler nära händelsernas epicentrum i San Francisco och Silicon Valley är helt fel ute i sina bedömningar, men jag har mycket svårt att begripa hur Karim kan vara så till den grad säker på detta att det motiverar den direkt avvisande attityd rörande möjligheten till dramatiskt accelererad AI-utveckling har ger uttryck för i Hjärta och hjärna.

fredag 29 november 2024

AI-kommissionens rapport är bättre än väntat

Den svenska regeringens AI-kommission, som sjösattes i december förra året, är redan färdig med sitt uppdrag! I direktiven ingick bland annat att föreslå hur
    Sverige som ledande forskningsnation, avancerad industrination och ambitiös välfärdsnation bättre ska tillvarata möjligheterna och hantera riskerna med AI
och att
    identifiera prioriterade internationella insatser och lämna förslag till hur Sverige kan agera proaktivt och samordnat vid framtagande och utveckling av internationella policyer och regelverk för AI.
Kommissionens rapport överlämnades vid en pressträff i tisdags (den 26 november), där deras ordförande Carl-Henric Svanberg bjöd på en längre föredragning, efter att ha avslöjat några av huvuddragen i en artikel på DN Debatt dagen innan.

Rapporten är en positiv överraskning, i förhållande till mina förväntningar som var ytterst lågt ställda efter lanseringen av kommissionen förra året, då Svanberg enligt TT:s rapportering meddelat att "Vi måste avmystifiera AI" med tillägget att "kommissionen måste balansera faror och positiva aspekter på området, där [...] det generellt blir väl mycket larmrapporter". Som kronan på verket framhöll han att "AI är varmt. Det är kärlek och empati", vilket väl inte är vare sig särskilt väl skickat som avmystifiering eller någon alldeles lyckad utgångspunkt för den som har ambitionen att "balansera faror och positiva aspekter". En ytterligare bidragande orsak till mina låga förväntningar stod att finna i kommissionens inte helt välbalanserade sammansättning, med AI-riskförnekaren Mathias Sundin som det namn som stack allra mest i ögonen.

Men som sagt, resultatet blev bättre än väntat. Ett första lackmustest är i vilken mån de förstått vilken exceptionellt snabb och omvälvande utveckling vi står på tröskeln till, och på denna punkt ger jag dem betyg 3 (på den gamla goda 5-gradiga skalan). Att de insett brådskan så till den grad att de såg till att fullgöra uppdraget på just under 12 månader, att jämföra med den 18-månadersdeadline som stipulerades i uppdraget, är ett mycket gott tecken. Detsamma gäller det återkommande talet i rapporten om AI som en "omtumlande, framforsande teknik som i människans händer skapar förutsättningar för grundläggande förbättringar av våra samhällen". Emellertid följs just de orden upp av formuleringen "precis som järnvägen, elen och telefonen gjorde" vilken innebär ett implicit antagande att AI-teknikens effekter inte kommer att bli väsentligt större än de som följde på dessa tidigare teknikgenombrott, eller med andra ord att AI kommer att på Nate Silvers teknologiska Richterskala stanna på TRS-nivå 8 istället för att fortsätta till nivåerna 9 eller 10. Det kan förstås hända att den förutsägelsen visar sig korrekt, men det kräver i så fall antingen att fortsatt AI-utveckling relativt snart stöter på något oväntat och oöverstigligt tekniskt hinder, eller att vi (mänskligheten) besinnar oss och drar i nödbromsen inför de oöverskådliga konsekvenserna av att skapa en ny art vars allmänintelligens vida överstiger vår egen. Vilken av dessa båda eventualiteter kommissionen tror blir verklighet ger rapporten ingen ledtråd om, och deras förgivettagande förblir märkligt omotiverat. Något liknande kan sägas om avsnittet om AI-teknikens framtida energibehov, där kloka ord om hur "storleken på AI:s framtida elbehov i dag är högst osäker och inte går att förutsäga med någon precision" följs upp av den antiklimatiska, omotiverade1 och närmast bisarrt modesta bedömningen att "AI kommer att stå för någon eller några procent av den totala elkonsumtionen i världen".2

Rapporten har mycket att säga både om skapandet av ett fruktbart svenskt innovationsklimat och om snabb utrullning av AI-teknik för olika tillämpningar i offentlig sektor, och här finns en hel del att instämma i och applådera. Den föreslagna åtgärdsarsenalen är omfattande, men också påfallande billig, då den budgeterade kostnaden för förslagen landar en bra bit under tre miljarder kr per år,3 varför budgetöverväganden inte kan komma att utgöra någon rimlig ursäkt om regeringen väljer att dra benen efter sig i genomförandet av kommissionens idéer.

Att rapporten trots AI-frågans utpräglat globala karaktär har ett väldigt stort fokus på Sverige och svensk konkurrenskraft är inte orimligt, även om de ovan citerade direktiven hade möjliggjort en något större (och enligt min mening önskvärd) grad av blickhöjning och tankar kring hur Sverige kan bidra till att den globala omställningen till en värld med avancerad AI blir lyckosam. Det utförliga diskussionen kring hur Sverige mellan 2020 och 2024 halkat ned från 15:e till 25:e plats på det som kallas Global AI Index ser jag dock som ett lite löjligt inslag av provinsiell alarmism, i synnerhet då det inte återföljs av något påpekande om vilken remarkablet framskjuten position för ett litet land som Sverige som plats 25 på listan innebär.4

Provinsiellt är också talet om vikten av att EU inte sätter hinder för lanseringen av nya amerikanska AI-modeller i Europa. Här heter det i rapporten att "även om EU-lanseringen av en ny modell bara dröjer sex månader kan det få väldigt negativa effekter på våra företags förmåga att hävda sig i den globala konkurrensen", och kommissionen anmodar "svenska företrädare [att] verka för att den AI-relaterade EU-regleringen inte bidrar till försämrad tillgänglighet för dessa verktyg". Och visst, dessa aspekter är värda att beakta, men de behöver vägas mot EU:s viktiga roll i att verka för en globalt gynnsam och etiskt rimlig utveckling, och behovet av att kunna sätta press på de ledande AI-företagen genom att villkora lanseringen i EU av deras AI-produkter med att de skärper sitt AI-säkerhetsarbete till nivåer där vi alla (i EU såväl som i resten av världen) kan känna oss trygga i att dessa produkter inte kommer att leda till katastrof. Att AI-kommissionens rapport inte med ett ord berör denna centrala målkonflikt tyder på en enögdhet som är djupt bekymmersam och som för tankarna till Svanbergs ovan citerade och föga välavvägda ord om värme och kärlek i december 2023.

Det finns såklart mycket mer att anföra om rapporten, men låt mig avrunda med att kommentera vad den har att säga om min hjärtefråga: vikten av att undvika ett scenario där en ickealignerad AI tar över världen och utplånar mänskligheten. Här hade man, av de skäl jag inledningsvis nämnde, kunnat frukta att rapporten skulle vara totalt avfärdande inför att detta skulle vara en problematik att överhuvudtaget ta på allvar. Men hör här vad de säger:
    Vissa menar dock att en sådan utveckling skulle kunna hota mänsklighetens existens. Detta genom att AI-systemen utvecklar en egen vilja som skiljer sig från vår, och betraktar oss som ett hot mot sin egen fortlevnad eller sina egna mål. Risken i ett sådant scenario ligger i att systemen helt enkelt blir mer kapabla än vi människor och att vår förmåga inte räcker till för att hindra en okontrollerad utveckling.
Och vidare:
    AI-kommissionen anser att oron kring den så kallade existentiella risken är något som måste beaktas...
Ihop med förslaget om ett svenskt AI-säkerhetsinstitut som de budgeterar med 30 miljoner kr årligen utgör dessa ord en ytterst glädjande överraskning. Jag har ingen insyn i kommissionens inre arbete, men med tanke på vad Mathias Sundin sagt i andra sammanhang om existentiell AI-risk anar jag att förhandlingarna om formuleringar kan ha varit hårda,5 och de har också resulterat i en del reservationer jag inte gillar helt, som följande fortsättning på "något som måste beaktas..." ovan:
    ...men beklagar samtidigt att delar av den offentliga diskussionen om säkerhet har tenderat att fokusera på spekulativa risker med mycket låg sannolikhet.
Eftersom det här inte preciseras vilka spekulativa risker som avses, och eftersom den offentliga diskussionen är vittförgrenad och av extremt ojämn kvalitet, så kan jag inte beslå detta uttalande som formellt felaktigt. Sammanhanget ger dock en kraftig antydan om att påståendet handlar om risken att mänsklighetens utplånas av superintelligent AI, och att kommissionen med talet om "mycket låg sannolikhet" utan ett uns av motivering gör en ytterst kontroversiell bedömning som helt saknar solitt vetenskapligt stöd. Kommissionens ledamöter behöver uppenbarligen läsa på i frågan, och som startpunkt rekommenderar jag varmt Connor Leahys m.fl. aktuella text The Compendium. Den vägen tror jag att de skulle kunna närma sig insikten om vad som kanske är den allra viktigaste åtgärd Sverige behöver vidta men som lyser med iögonfallande frånvaro i rapporten: att agera internationellt för att påtala det oacceptabla i och få stopp på den civilisatoriskt livsfarliga kapplöpning mot AGI-avgrunden som en knapp handfull AI-företag i norra Kalifornien just nu är inbegripna i.

Fotnoter

1) Med ordvalt "omotiverade" tillåter jag mig här en ytterst mild överdrift, då ju bedömningen föregås av påpekandet att "Erfarenheten visar [...] att det hela tiden utvecklas energieffektivare dataprocessorer och algoritmer", dock utan omnämnande av Jevons paradox, vilket är ett förbiseende jag helst hade sluppit se i en statlig utredning anno 2024.

2) Se t.ex. Leopold Aschenbrenners Situational Awareness för ett helt väsensskilt scenario som det vore oklokt att utan argument bara vifta undan.

3) Dock finns gott om frågetecken att resa inför enskilda budgetpunkter. För att bara nämna ett exempel i mängden så budgeteras 30 miljoner kr årligen för skapandet av 50 gästprofessurer inom AI, och jag har väldigt svårt att begripa hur 600 000 kr per sådan tjänst och år skulle kunna räcka.

4) På Wikipedias lista över världens folkrikaste länder ligger Sverige på 90:e plats, medan 25:e-platsen på samma lista innehas av Italien med just under 59 miljoner invånare. Om den försämrade placeringen för Sverige alls behöver förklaras med något annat än brus och godtycke i mätmetoden, så vill jag peka på att framväxten av tigerekonomier och en global medelklass har ökat konkurrensen på listan, något jag vägrar se som entydigt dåligt.

5) Om jag får spekulera ytterligare så gissar jag att Nobelpristagaren Geoffrey Hintons varningsord vid tillkännagivandet av fysikpriset i förra månaden kan ha haft gynnsam påverkan på kommissionens avvägning, och kanske också att kommissionsledamoten Fredrik Heintz (som på sistone verkar ha svängt en aning i frågan) kan ha spelat en konstruktiv roll i diskussionerna.

fredag 20 september 2024

Aschenbrenner, Bostrom, Carlsmith

För första gången sedan hösten 2018 innehåller det nya numret av Förbundet Humanisternas medlemstidning Humanisten en artikel jag författat.1 Denna gång bär min artikel rubriken AI-debattens ABC, där ABC står för de tre ledande AI-tänkarna Leopold Aschenbrenner, Nick Bostrom och Joe Carlsmith, vilka alla under 2024 utkommit med viktiga böcker eller boklånga essäer. Så här inleds min text:
    När detta skrivs i augusti 2024 är en av de stora snackisarna inom AI – artificiell intelligens – den pinfärska forskningsrapporten The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery, vars författarkollektiv kommer från företaget Sanaka AI och ett par olika universitet. De har kommit långt i att automatisera vetenskaplig forskning, inklusive avgörande steg som brainstorming, hypotesgenerering, försöksplanering, datavisualisering och rapportförfattande. Lite i förbigående nämner de hur deras AI i en viss tillämpning hindrades av en restriktion i hur länge dess beräkningar kunde exekveras, och hur AI:n då gick in och försökte redigera sin egen programkod i syfte att eliminera denna restriktion. För oss som kan vår AI-historik är det omöjligt att inte associera till Alan Turings spekulationer i en berömd föreläsning 1951, om hur tillräckligt intelligenta maskiner skulle kunna nå en tröskel där de kan börja förbättra sig själva utan vidare mänsklig inblandning, och hur en sådan utveckling kan väntas leda till att vi till slut förlorar kontrollen över maskinerna.

    Turing brukar med rätta framhållas som en av 1900-talets mest banbrytande tänkare och som den största AI-pionjären av alla. Det sistnämnda alltså trots att han dog redan 1954 (för egen hand, till följd av det brittiska rättssystemets på den tiden barbariska syn på homosexualitet), ännu inte 42 år fyllda, och därmed inte fick uppleva det som numera räknas som AI-forskningens egentliga startskott två år senare, sommaren 1956. Då samlades ett antal av USA:s ledande matematiker för en sommarkonferens vid Dartmouth College i New Hampshire kring den ambitiösa idén att skapa datorprogram med förmågor som vi dittills hade sett som unikt mänskliga: språkanvändning, skapande av abstraktioner, lärande och självförbättring. Mötet kom att sätta stark prägel på decennier av fortsatt arbete, och de utmaningar som då formulerades står än idag i centrum för AI-forskningen. De höga förväntningarna var tidvis svåra att leva upp till, så till den grad att området kom att genomgå ett par perioder av så kallad AI-vinter, och det var först på 2010-talet som den exponentiellt ökande tillgången till datorkraft och datamängder gjorde att gamla neurala nätverksidéer började bära frukt på allvar och ge stora framgångar inom så olika tillämpningar som bildigenkänning, brädspel och autonoma fordon.

    För den breda allmänheten är det de senaste årens utvecklingen av så kallade språkmodeller som blivit mest synlig: marknadsledande här är OpenAI, vars lansering av ChatGPT i november 2022 för första gången gjorde det möjligt för gemene man att föra samtal med en till synes intelligent AI. Under de knappa två år som sedan förflutit har utvecklingen fortsatt i rasande takt, och ovan nämnda produkt från Sanaka är bara ett av många dramatiska framsteg som alltmer pekar mot att vi närmar oss det som kallas AGI – artificiell generell intelligens – och den kritiska punkt som Turing talade om i sina varningsord från 1951. Att AI-utvecklingen radikalt kommer att transformera många samhällssektorer och även samhället som helhet blir alltmer uppenbart, och även om teknikens potential att skapa ekonomiskt välstånd är i det närmaste obegränsad finns också risken att ett slarvigt genomfört AI-genombrott leder till vår undergång.

    Detta slags farhågor har det senaste decenniet lett till ökade satsningar på det som kommit att kallas AI Alignment – AI-forskning specifikt inriktad på att se till att de första i fråga om allmänintelligens övermänskligt kapabla AI-systemen har mål och drivkrafter som prioriterar mänsklig välfärd och mer allmänt är i linje med mänskliga värderingar. Detta har dock visat sig vara lättare sagt än gjort, satsningarna på AI Alignment är ännu små (i förhållande till AI-utvecklingen som helhet), och vi verkar idag vara mycket långt ifrån en lösning. Härav de senaste årens diskurs från tänkare som Eliezer Yudkowsky och Max Tegmark som de senaste åren varnat för att satsningar på AI Alignment kanske inte räcker till, och att vi därför behöver dra i nödbromsen för utvecklingen av de allra mest kraftfulla AI-systemen; även jag har alltmer kommit att ansluta mig till denna tankegång.

    Samtidigt finns det de som hävdar att allt tal om existentiell AI-risk är grundlös science fiction och som stämplar oss som lyfter dessa farhågor som domedagspredikanter. I spetsen för denna motdebatt finns kända namn som IT-entreprenören Marc Andreessen och Metas AI-forskningschef Yann LeCun, men för att försvara deras position behöver man anta antingen att AI-utvecklingen automatiskt kommer att avstanna innan den nått övermänsklig allmänintelligens, eller att en övermänskligt intelligent AI på något sätt automatiskt skulle anamma en för mänskligheten gynnsam uppsättning värderingar. Den första av dessa linjer tenderar att implicit postulera någon närmast magisk förmåga hos den mänskliga hjärnan, något som är svårt att passa in i en ickereligiös naturalistisk världsbild, och den andra har visat sig ungefär lika ohållbar.

    Precis som intressant och konstruktiv klimatdiskussion undviker att fastna i polemik med klimatförnekarnas insisterande på att den globala uppvärmningen antingen är en chimär eller är oberoende av mänsklig aktivitet, så lämnar den mest givande AI-diskussionen idag det Andreessen-LeCunska AI-riskförnekeriet därhän, och blickar istället framåt, med fokus på hur vi bör tänka för att bäst navigera en osäker framtid. För den som vill fördjupa sig i den för vår framtid så avgörande AI-frågan vill jag ur 2024 års bokutbud rekommendera tre böcker som alla tar detta grepp, men som i övrigt ger inbördes väldigt olika perspektiv. Det handlar om...

Läs den spännande fortsättningen här!

Fotnot

1) Jag håller lite grand andan inför vilka läsarreaktionerna blir denna gång. Förra gången uppstod ett visst palaver, vilket om jag inte missminner mig landade i att en medlem vid namn Ernst Herslow utträdde ur Humanisterna i vredesmod över att synpunkter som mina fick lov att ventileras i medlemstidningen.

fredag 28 juni 2024

On optimism and pessimism standing at the brink of the great AI breakthrough

Sometimes in discussions about technology, the term techno-optimism is reserved for the belief that technology will develop rapidly, while techno-pessimism is used for the belief that it will move slowly or come to a halt. This is not the meaning of optimism and pessimism intended here. Throughout this blog post, the terms will refer to beliefs about consequences of this technology: are they likely to be good or to be bad?

Last time I wrote about the concepts of optimism and pessimism in the context of future AI advances and their ramifications, way back in 2017, I advocated for a sober and unbiased outlook on the world, and held
    both optimism and pessimism as biased distortions of the evidence at hand.1,2
I still hold this view, but I nevertheless think it is worth revisiting the issue to add some nuance,3 now in 2024 when we seem to be standing closer than ever to the brink of the great AI breakthrough. To suggest intentionally introducing either an optimism or a pessimism bias still sounds bad to me, but we can reframe the issue and make it less blatantly pro-distortion by admitting that all our judgements about our future with AI will necessarily be uncertain, and asking whether there might be an asymmetry in the badness of erring on the optimistic or the pessimistic side. Is excessive optimism worse than excessive pessimism, or vice versa?

There are obvious arguments to make in either direction. On one hand, erring on the side of optimism may induce decision-makers to recklessly move forward with unsafe technologies, whereas the extra caution that may result from undue pessimism is less obviously catastrophic. On the other hand, an overly pessimistic message may be disheartening and cause AI researchers, decision-makers and the general public to stop trying to create a better world and just give up.

The latter aspect came into focus for me when Eliezer Yudkowsky, after having began in 2021 to open up publicly about his dark view of humanity's chances of surviving upcoming AI developments, went all-in on this with his 2022 Death with dignity and AGI ruin blog posts. After all, there are all these AI safety researchers working hard to save humanity by solving the AI alignment problem - reserchers who rightly admire Yudkowsky as the brilliant pioneer who during the 00s almost single-handedly created this research area and discovered many of its crucial challenges,4 and to whom it may be demoralizing to hear that this great founder no longer believes the project has much chance of success. In view of this, shouldn't Yudkowsky at least have exhibited a bit more epistemic humility about his current position?

I now look more favorably upon Yudkowsky's forthrightness. What made me change my mind is a graphic published in June 2023 by Chris Olah, one of the leading AI safety researchers at Anthropic. The x-axis of Olah's graph represents the the level of difficulty of solving the AI alignment problem, ranging from trivial via steam engine, Apollo project and P vs NP to impossible, and his core messages are (a) that since uncertainty is huge about the true difficulty level we should rationally represent our belief about this as some probability distribution over his scale, and (b) that it is highly important to try to reduce the uncertainty and improve the precision in our belief, so as to better be able to work in the right kind of way with the right kind of solutions. It is with regards to (b) that I changed my mind on what Yudkowsky should or shouldn't say. If AI alignment is as difficult as Yudkowsky thinks, based on his unique experience of decades of working hard on the problem, then it is good that he speaks out about this, so as to help the rest of us move our probability mass towards P vs NP or beyond. If instead he held back and played along with the more common view that the difficulty is a lot easier - likely somewhere around steam engine or Apollo project - he would contribute to a consensus that might, e.g., cause a future AI developer to wreak havoc by releasing an AI that looked safe in the lab but failed to have that property in the wild. This is not to say that I entirely share Yudkowsky's view of the matter (which does look overconfident to me), but that is mostly beside the point, because all he can reasonably be expected to do is to deliver his own expert judgement.

At this point, I'd like to zoom in a bit more on Yudkowsky's list of lethalities in his AGI ruin post, and note that most of the items on the list express reasons for not putting much hope in one or the other of the following two things.
    (1) Our ability to solve the technical AI alignment problem.

    (2) Our ability to collectively decide not to build an AI that might wipe out Homo sapiens.

It is important for a number of reasons to distinguish pessimism about (1) and pessimism about (2),5 such as how a negative outlook on (1) gives us more reason to try harder to solve (2), and vice versa. However, the reason I'd like to mainly highlight here is that unlike (1), (2) is a mostly social phenomenon, so that beliefs about the feasibility of (2) can influence this very feasibility. To collectively decide not to build an existentially dangerous AI is very much a matter of curbing a race dynamic, be it between tech companies or between nations. Believing that others will not hold back may disincentivize a participant in the race from themselves holding back. This is why undue pessimism about (2) can become self-fulfilling, and for this reason I believe such pessimism about (2) to be much more lethal than a correponding misjudgement about (1).6

This brings me to former OpenAI employee Leopold Aschenbrenner's recent and stupendously interesting report Situational Awareness: The Decade Ahead.7 Nowhere else can we currently access a more insightful report about what is going on at the leading AI labs, how researchers there see the world, and the rough ride during the coming decade that the rest of the world can expect as a consequence of this. What I don't like, however, is the policy recommendations, which include the United States racing ahead as fast as possible towards AGI the next few years. Somewhat arbitrarily (or at lest with insufficiently explained reasons), Aschenbrenner expresses optimism about (1) but extreme pessimism about (2): the idea that the Chinese Communist Party might want to hold back from a world-destroying project is declared simply impossible unless their arm is twisted hard enough by an obviously superior United States. So while on one level I applaud Aschenbrenner's report for giving us outsiders this very valuable access to the inside view, on another level I fear that it will be counterproductive for solving the crucial global coordination problem in (2). And the combination of overoptimism regarding (1) and overpessimism regarding (2) seems super dangerous to me.

Footnotes

1) This was in the proceedings of a meeting held at the EU parliament on October 19, 2017. My discussion of the concepts of optimism and pessimism was provoked by how prominently these termes were used in the framing and marketing of the event.

2) Note here that in the quoted phrase I take both optimism and pessimism as deviations from what is justified by evidence - for instance, I don't here mean that taking the probability of things going well to be 99% to automatically count as optimistic. This is a bit of a deviation from standard usage, which in what follows I will revert to, and instead use phrases like "overly optimistic" to indicate optimism in the sense I gave the term in 2017.

3) To be fair to my 2017 self, I did add some nuance already then: the acceptance of "a different kind of optimism which I am more willing to label as rational, namely to have an epistemically well-calibrated view of the future and its uncertainties, to accept that the future is not written in stone, and to act upon the working assumption that the chances for a good future may depend on what actions we take today".

4) As for myself, I discovered Yudkowsky's writings in 2008 or 2009, and insofar as I can point to any single text having convinced me about the unique importance of AI safety, it's his 2008 paper Artificial intelligence as a positive and negative factor in global risk, which despite all the water under the bridges is still worthy of inclusion on any AI safety reading list.

5) Yudkowsky should be credited with making this distinction. In fact, when the Overton window on AI risk shifted drastically in early 2023, he took that as a sufficiently hopeful sign so as to change his mind in the direction of a somewhat less pessimistic view regarding (2) - see his much-discussed March 2023 Time Magazine article.

6) I don't deny that, due to the aforementioned demoralization phenomenon, pessimism about (1) might also be self-fulfilling to an extent. I don't think, however, that this holds to anywhere near the same extent as for (2), where our ability to coordinate is more or less constituted by the trust that the various participants in the race have that it can work. Regarding (1), even if a grim view of its feasibility becomes widespread, I think AI researchers will still remain interested in making progress on the problem, because along with its potentially enormous practical utility, surely this is one of the most intrinsically interesting research questions on can possibly ask (up there with understanding biogenesis or the Big Bang or the mystery of consciousness): what is the nature of advanced intelligence, and what determines its goals and motivations?

7) See also Dwarkesh Patel's four-and-a-half hour interview with Aschenbrenner, and Zwi Mowshowitz' detailed commentary.