torsdag 21 december 2023

Om öppen källkod i Ny Teknik

Öppen källkod är bra! Det tycker i alla fall informatikforskarna Johan Magnusson och Claire Ingram Bogusz, at döma av deras debattartikel i Ny Teknik i förrgår. I många fall - rentav de flesta - håller jag med dem om den öppna källkodens förfräfflighet, men i vissa AI-sammanhang är öppen källkod tvärtom riktigt riktigt illa. Detta fick mig att ta till pennan och författa en replik, vilken igår publicerades i samma tidning under rubriken Öppen källkod för AI-modeller är en samhällsrisk, och inleds på följande vis:
    I Ny Teknik den 19 december skriver Johan Magnusson och Claire Ingram Bogusz om de stora fördelarna med öppen källkod på ai-området. Öppen källkod driver utvecklingen framåt, och när det gäller små och specialiserade ai-modeller för exempelvis medicinsk diagnosticering är konceptet enligt min mening till stor nytta.

    Ändå är det fel, menar jag, att på Magnussons och Ingram Bogusz vis ensidigt och onyanserat hylla den öppna källkodens tillämpning på AI-området. Om öppen källkod tillämpades på de största och mest kraftfulla AI-modellerna – som exempelvis Open AI:s GPT-4, Anthropics Claude 2, och Google Deepminds Gemini – och på de ännu starkare AI som kan väntas släppas under 2024, skulle det innebära allvarliga och enligt min mening oacceptabla samhällsrisker.

    AI är nämligen inte som andra tekniker.

Läs den spännande fortsättningen på min replik i Ny Teknik!

måndag 18 december 2023

Om Mathias Sundin, AI-risk och Lex Luthor

Det här är ingen recension av Mathias Sundins pinfärska bok Kentaurens fördel: Så tänker, skriver och kommunicerar du bättre och snabbare med ChatGPT. En sådan är jag inte i stånd att skriva, eftersom det endast är bokens avslutningskapitel "Är AI så farligt att vi inte ens ska använda det?" jag läst från början till slut; resten har jag på sin höjd skummat. Det är i detta slutkapitel jag här skall dyka ned, och specifikt i hur Sundin i kapitlet tillskriver mig ståndpunkter jag inte omfattar och aldrig har yttrat. Sådan vantolkning har jag alltid varit en smula allergisk mot, och jag vill redan nu varna känsliga läsare för att en lite tråkig ton därför kan komma att smyga sig in i min följande redogörelse.

Men innan dess, låt mig trots allt ge mitt hastiga intryck av boken som helhet. Böcker om hur man använder den nya AI-tekniken för diverse kontorssysslor och andra arbetsuppgifter kan gott ha ett värde, även om det snabbt börjat bli överfullt på marknaden för dem, samtidigt som halveringstiden på de insikter som levereras kan väntas bli osedvanligt kort till följd av hur rasande snabbt tekniken ifråga går framåt. Att döma av kvaliteten på argumentationen i slutkapitlet (liksom i det meningsutbyte i Aftonbladet Sundin och jag hade i april i år) har jag dock inga större förhoppningar om att boken skall erbjuda några klokskaper som får den att på något positivt sätt sticka ut från mängden. Den 148-sidiga texten ger intryck av att ha knåpats ihop inom loppet av cirka en arbetsvecka, och jag vill låta det vara osagt huruvida detta bör ses som ett belägg för eller emot författarens tes om hur effektivt ens skrivande kan bli då man tar hjälp av ChatGPT.

Så till hur jag dyker upp i handlingen, i ett slutkapitel som annars mest äganas åt att svartmåla och vantolka Max Tegmark. Så här heter det på s 128:
    [I]ngen vet hur man bygger AGI. Vi har faktiskt ingen aning om hur man gör det och när det är möjligt. Trots att ingen har den blekaste aning om hur, oroar sig dessa personer för att det kommer att ske snart. En av de ledande rösterna i Sverige, professor Olle Häggström, menar att det kan komma att ske redan med nästa version av ChatGPT, version 5. I scenariot är det inte AI:n själv som utplånar mänskligheten, utan en ondskefull superskurk som Lex Luthor som gör det med hjälp av AI. Ja, han säger faktiskt precis det.
Att ingen vet säkert exakt hur AGI1 kommer att utformas eller kan ge exakt svar på när det är att vänta är såklart sant, men Sundins tal om att "ingen har den blekaste aning" är gravt tendentiöst, och det är synd att han undlåter att nämna exempelvis de idéer som får företrädare för ledande AI-labb som OpenAI och Anthropic att tala om tidslinjer till AGI som håller sig väl inom innevarande decennium (2020-talet).2 Detta är så typiskt för den mix av glidningar, halvsanningar och rena sakfel som slutkapitlet i Kentaurens fördel består av att jag inte reagerar med så mycket mer än en trött suck, men värre är när författaren börjar ljuga om mig personligen - då får jag svårt att hålla tillbaka min vresighet.

Superskurkar som Lex Luthor finns som bekant inte i verkligheten utan bara i DC:s och Marvels serietidningsuniversa och i liknande fiktiva sammanhang. Ack om det vore så väl att min och andras oro för en nära förestående AI-katastrof byggde på vanföreställningen att dessa superskurkar finns i verkligheten. Då skulle det såklart vara lätt att avfärda denna oro. Men nej, det Sundin här påstår om mig är såklart inte sant.

Vad som däremot är sant är att jag i en rad föredrag i våras tillgrep ett tankeexperiment inbegripandes en superintelligent Lex Luthor.3 När jag gjorde det var jag ständigt noga med att betona att det inte rörde sig om någon förutsägelse eller ens om ett plausibelt framtidsscenario, utan just om ett tankeexperiment. Avsikten med tankeexperimentet var att bemöta den annars kanske frestande intuition som går ut på att AI-system som exempelvis GPT-4 inte rimligtvis kan sätta igång någon AI-apokalyps, vilken ju skulle kräva ett direkt ingripande i den fysiska världen, i motsats till vad dessa AI-system förmår som ju inte gör annat än att producera text. Eftersom det för många är lättare att föreställa sig hur en människa medelst social manipulation och annat tillskansar sig makt, än att tänka sig en AI göra samma sak, fann jag parallellen till en Lex Luthor begränsad till enbart språkhandlingar vara ett användbart pedagogiskt redskap för att undergräva denna felaktiga intuition.4 Och det var inte bara i föredrag jag använde mig av detta redskap, utan vid minst ett tillfälle också i samtal med en journalist, vilket framgår av följande passage i en DN-artikel den 31 mars i år.
    Men hur skulle då en superintelligens som i grunden är en språkmodell, kunna hota mänskligheten? Häggström ber oss göra ett tankeexperiment med en superskurk som till exempel Stålmannens ärkefiende Lex Luthor, som på något vis uppnår superintelligens. Kan han, med endast en laptop och internetuppkoppling, ta över världen?

    – Ju mer man tänker på det sättet desto mer inser man att det är nog faktiskt inte är så svårt. Om han utnyttjar sin superintelligens till att överlista aktiemarknader för att skapa ett ekonomiskt imperium, och kan gå igenom olika brandväggar som han vill, kanske till och med ta över militär teknologi den vägen. Men han har också övertalningsförmågan, eller förmågan till social manipulation.

Så när som på den första meningen citerar Sundin hela denna passage på s 140-141 i sin bok, varefter han gör följande reflektion:
    Att det finns sådana galningar till människor ifrågasätter jag inte. Men AI:n ska alltså vara så superintelligent att den utan större problem kan ta kontroll över mänskligheten, men ändå vara dum och lydig nog att följa sin Lex Luthor-husse. Denne Lex Luthor has alltså löst problemet (som Tegmark, Häggström med flera menar i det närmaste olösligt) med hur man har kontroll över en superintelligent AI, men av någon anledning är det ingen annan som har det.
På detta har jag två reflektioner:
  • Nej, nej, nej, någon superintelligent AI figurerar överhuvudtaget inte i det tankeexperiment jag återgav i mina föredrag och i den citerade DN-intervjun. Det är Lex Luthor själv som är superintelligent, och det är med sin egen blixtrande superintelligens han tänker ut hur han skall erövra världen - inte med någon AI:s. Och därför behöver han inte lösa det problem Sundin snuddar vid i den sista meningen, och som brukar kallas AI Alignment: att se till att AI:n har mål och värderingar som får den att agera som vi önskar.
  • Nej, nej, nej, för bövelen, jag har aldrig hävdat att AI Alignment är "i det närmaste olösligt" - och det stämmer även ytterst illa med min bild av Max Tegmarks ståndpunkter. Vad däremot både Max och jag är bekymrade över är att färden mot AGI börjat gå med sådan rasande hastighet, samtidigt som AI Alignment-forskningen går betydligt trögare, att risken är stor med nuvarande AI-kapplöpning att vi inte hinner lösa AI Alignment i tid. Se s 364-366 i bonuskapitlet till min bok Tänkande maskiner för en ödmjuk och balanserad diskussion om AI Alignment-problemets svårighetsgrad.
Det finns fler underligheter i Sundins avslutningskapitel som jag skulle kunna påpeka, men jag nöjer mig så här. Och i och med att han är en person jag gärna vill hålla mig väl med - nyligen invald i regeringens AI-kommission har han hux flux blivit ett betydelsefullt namn i AI-Sverige - hoppas jag att han tar mina påpekanden med glatt jämnmod, präglat av insikten att ansvaret för de felaktigheter som uppdagas i hans bok ligger 100% på honom och 0% på budbäraren.

Fotnoter

1) Artificiell generell intelligens. Jag har förr ofta använt detta begrepp i tal om framtida avancerad AI, och väljer att göra detsamma här eftersom Sundin gör det, men se s 321-323 i det gratis nedladningsbara bonuskapitlet till den nya upplagan av min bok Tänkande maskiner för en redogörelse för varför jag på sistone kommit att betrakta begreppet som så problematiskt att det egentligen helst borde undvikas.

2) Se exempelvis Dwarkesh Patels djuplodande intervju med Anthropics VD Dario Amodei från augusti i år.

3) Sundin var närvarande vid minst ett av dessa föredrag, nämligen det som ägde rum i Lund den 23 maj i år.

4) Den som önskar en detaljerad redogörelse för argumentet kan finna en sådan i den passage som varar cirka 13:20-16:20 i det videoföredrag om ChatGPT och AI Alignment jag postade här för ganska exakt ett år sedan, den 16 december 20222.

onsdag 13 december 2023

AI-frågan: vad göra?

Så vad behöver vi då göra åt den AI-problematik jag envisas med att orera om i bloggpost efter bloggpost?1 Tro det eller ej, men den saken har under hösten faktiskt börjat klarna något. Zvi Mowshowitz (som under 2023 med sitt nyhetsbrev Don't worry bout the vase blivit till en i AI-frågor omistlig nyhetskälla) sammanfattar:
    The good news is that, unlike a year ago, we have a good idea what reasonable incremental policy will need to look like, and we are at least somewhat on track to making that happen.

    Policy now has to lay the groundwork for a regime where we have visibility into the training of frontier models. We collectively must gain the power to restrict such training once a model’s projected capabilities become existentially dangerous until we are confident we know what it would take to proceed safely.

    That means registration of large data centers and concentrations of compute. That means, at minimum, registration of any training runs above some size threshold, such as the 1026 flops chosen in the executive order. In the future, it means requiring additional safeguards, up to and including halting until we figure out sufficient additional procedures, with those procedures ramping up alongside projected and potential model capabilities. Those include computer security requirements, safeguards against mundane harm and misuse, and, most importantly, protection against existential risks.

    I believe that such a regime will automatically be a de facto ban on sufficiently capable open source frontier models. Alignment of such models is impossible; it can easily be undone. The only way to prevent misuse of an open source model is for the model to lack the necessary underlying capabilities. Securing the weights of such models is obviously impossible by construction. Releasing a sufficiently capable base model now risks releasing the core of a future existential threat when we figure out the right way to scaffold on top of that release—a release that cannot be taken back.

    Finally, we will need an international effort to extend such standards everywhere.

    Yes, I know there are those who say that this is impossible, that it cannot be done. To them, I say: the alternative is unthinkable, and many similarly impossible things happen when there is no alternative.

    Yes, I know there are those who would call such a policy various names, with varying degrees of accuracy. I do not care.

    I would also say to such objections that the alternative is worse. Failure to regulate at the model level, even if not directly fatal, would then require regulation at the application level, when the model implies the application for any remotely competent user.

    Give every computer on the planet the power to do that which must be policed, and you force the policing of every computer. Let’s prevent the need for that.

    There are also many other incrementally good policies worth pursuing. I am happy to help prevent mundane harms and protect mundane utility, and explore additional approaches. This can be a ‘yes, and’ situation.

En rimlig följdfråga från den läsare som inte tycker sig besitta vare sig relevant spetskompetens eller någon särskild maktposition är denna: "Ok, men vad kan lilla jag göra för att bidra till att detta faktiskt händer?"

Well, det handlar om det vanliga batteriet av åtgärder när en politisk omorientering är av nöden: prata med folk, i fikarum, mingelbarer, skolsalar och sammanträdesrum; gå ut på gatan (helst i grupp) och skandera slagord; kontakta en riksdagsledamot, en EU-parlamentariker, eller en ledamot i Kristerssons nya AI-kommission2; skriv en insändare, en bloggpost, ett Facebookinlägg eller varför inte en bok; starta en aktionsgrupp eller en studiecirkel; gå med i ett politiskt parti och driv frågan där; ring P1; etc, etc.

Diverse ursäkter finns i vanlig ordning till hands för den som vill slippa engagera sig. Låt mig nämna en av dem - den som handlar om att inte spelar det väl någon roll vad vi i Sverige gör? På vilket mitt svar blir att det gör det visst. Det behöver skapas ett politiskt momentum och en global konsensus kring idén att det inte är ok att de ledande kaliforniska AI-företagen i sin interna kapplöpning mot AI-herravälde spelar rysk roulette med mänsklighetens överlevnad. Att Sverige skulle stå vid sidan om denna rörelse duger inte. Vi kan och vi skall bidra på olika vis, inklusive via organisationer som FN, EU och NATO, jämte ett otal mer informella nätverk och sammanhang. Kasta en blick över Atlanten och betrakta den politiska situationen därborta: inte fan kan vi överlåta åt USA att ensamt bestämma mänsklighetens öde?

Fotnoter

1) För en sammanfattning av läget, se t.ex. det 73-sidiga bonuskapitlet (gratis nedladdningsbart i pdf) till nyutgåvan av min bok Tänkande maskiner.

2) Låt er inte nedslås av att kommissionens ordförande uttalat fåraktigheter om att AI är "kärlek och empati" och att det spridits "väl mycket larmrapporter" i frågan - detta gör det bara än mer angeläget att påverka kommissionens arbete!

fredag 1 december 2023

Händelseutvecklingen 2021-2023: bonuskapitel i nya upplagan av Tänkande maskiner

Förra veckan rapporterade jag här på bloggen om att en ny upplaga av min bok Tänkande Maskiner nu finns på bokhandelsdiskarna. Den största skillnaden jämfört med originalutgåvan är inklusionen av ett fullmatat 73-sidigt bonuskapitel om den dramatiska utvecklingen på AI-fronten under 2021-2023 samt vilka slutsatser som kan dras av denna.1

För alla er som redan läst 2021 års upplaga och som finner det extavagant i överkant att inhandla den nya enbart för detta bonuskapitel, har jag nu nöjet att meddela att kapitlet nu finns...

Fotnot

1) Min redogörelse fångar upp händelseutvecklingen fram till september 2023, vilket innebär att exempelvis Rishi Sunaks AI Safety Summit i Bletchley Park i början av november, och turbulensen på OpenAI senare i samma månad, inte behandlas i kapitlet. Det finns en gräns för hur dagsfärska nyheter som är rimliga att rapportera i bokform.

lördag 25 november 2023

Ny upplaga av Tänkande maskiner ute nu

Från mer än ett håll har efterfrågan meddelats om att jag här på bloggen analyserar den gångna veckans remarkabla turbulens hos det ledande AI-företaget OpenAI. Då en analys av händelseförloppet och dess konsekvenser för fortsatt AI-utveckling i detta skede med nödvändighet skulle inbegripa mer av gissningar än av hårda fakta, och då halveringstiden hos värdet av mina synpunkter troligen skulle bli ovanligt kort, väljer jag dock att avstå, och nöjer mig istället med att hänvisa till Zvi Mowshowitz' kompetenta analys från i onsdags.

Men misströsta ej, för jag har andra och goda nyheter för den som längtar efter mer AI-skriverier från mig! Två och ett halvt år efter den nu i vissa delar lite föråldrade originalupplagan av min bok Tänkande maskiner: Den artificiella intelligensens genombrott finns från och med denna vecka en andra upplaga, utrustad med ett rejält tilltaget 70-sidigt bonuskapitel om AI-utvecklingen 2021-2023 och dess konsekvenser för hur vi bör tänka om framtiden. Beställ den hos förlaget eller hos valfri av de vanliga nätbokhandlarna!

torsdag 2 november 2023

En intensiv vecka i AI-politiken

Det är ännu bara torsdag, men ändå har mer hänt denna vecka i fråga om statliga och mellanstatliga AI-politiska initiativ än vi normalt ser på... jag vet inte ens vad jag skall klämma till med för tidsrymd här, för det politiska intresset för AI-frågor är ju så nyvaket att det inte finns något steady state att relatera ordet "normalt" till. De två stora händelser jag har i åtanke är följande.
  • I måndags: President Bidens direktiv om Safe, Secure, and Trustworthy Artificial Intelligence.
  • Igår och idag: Den första globala AI Safety Summit, på Bletchley Park och med Storbritanniens prämiärminister Rishi Sunak som initiativtagare och värd, samt deltagande såväl av toppolitiker (med Kamala Harris och Ursula von der Leyen i spetsen) som av AI- och teknikbranschprofiler (Yoshua Bengio, Geoffrey Hinton, Sam Altman, Elon Musk, ...).
Redan igår, på Bletchley Park-mötets första dag, släppte de sin Bletchley Declaration, undertecknad av företrädare för EU, USA, Kina, Indien, Storbritanninen och en rad andra länder, och med formueringar som denna:
    There is potential for serious, even catastrophic, harm, either deliberate or unintentional, stemming from the most significant capabilities of [frontier] AI models. Given the rapid and uncertain rate of change of AI, and in the context of the acceleration of investment in technology, we affirm that deepening our understanding of these potential risks and of actions to address them is especially urgent.
I Bidens presidentorder finns tal om krav på...
    companies developing any foundation model that poses a serious risk to national security, national economic security, or national public health and safety must notify the federal government when training the model, and must share the results of all red-team safety tests. These measures will ensure AI systems are safe, secure, and trustworthy before companies make them public,
där jag gärna vill tänka mig att "national security, national economic security, or national public health and safety" är ett slags placeholder för "existential risk to humanity" som ännu inte riktigt får plats inom Overtonförnstret på denna politiska nivå.

Fastän båda dokumenten är utspädda med tal om AI-frågor av jämförelsevis sekundär betydelse, och fastän det i båda fallen inte handlar om något med status av reglering eller bindande avtal utan blott avsiktsförklaringar och storstilade ambitioner, så ser jag de ovan citerade formuleringarna som ett bevis på hur otroligt långt vi under 2023 har lyckats flytta Overtonförnstret för publika AI-diskussioner, där jag menar att de båda öppna brev jag i våras var med och undertecknade (det som organiserades av FLI i mars och det av CAIS i maj) har haft en icke oväsentlig betydelse. Trots den remarkabelt snabba omsvängningen i diskussionsklimatet känner jag ändå en kvardröjande oro om att det kanske inte går snabbt nog för att hinna avvärja katastrof, men en vecka som denna kan jag inte annat än känna mig gladare och hoppfullare än veckan innan.

Jag har inte hunnit smälta dokumentens innehåll tillräckligt för att kommentera dem mer i detalj, men vad gäller Bidens presidentorder har den ständigt läsvärde och gedigne Zvi Mowshowitz varit snabbt på plats med två utförliga texter som jag i stora drag är böjd att instämma i: On the executive order och Reactions to the executive order. Om jag känner honom rätt så kan vi inom någon dag eller två vänta oss en ungefär lika ambitiös reaktion från honom på Bletchley-deklarationen.

Jag vill passa på att nämna att jag som engagerad åskådare till Bletchley Park-mötet gjort min stämma hörd i ett par sammanhang:

Edit 8 november 2023: Nu finns den förutskickade texten av Zvi Mowshowitz om Bletchley Park-mötet.

söndag 8 oktober 2023

Debating AI takeover with Virginia Dignum

I took part in SweCog 2023 (the annual conference of the the Swedish Cognitive Science Society) this week, and in particular in the closing panel discussion on What is left to the human mind when machines do the thinking. The panel was moderated by Linus Holm, with Virginia Dignum, Jonas Ivarsson and myself as panelists. The discussion touched upon many topics related to the overall theme, but here I want to focus exclusively on a particular exchange between Dignum and myself.

Provoked by my earlier references to the risk of a full-blown AI takeover including possibly the extinction of Homo sapiens, Virginia Dignum stated that she did not believe in such a risk. The arguments with which she backed up her position seemed to me quite weird, but the following attempt at summarizing her reasoning needs to be taken with a grain of salt, because I have often found that when a prominent academic seems to be offering fallacious and strange arguments, the problem may not primarily be with the arguments themselves but rather with my failure to understand them correctly. Anyway, what she seemed to be saying was that intelligence is not one-dimensional, whence the situation we will end up with is one where AI is better than humans at some things, while humans remain better than AIs at others, and therefore humans will remain in control. Unconvinced, I asked what properties of humans to help us stay in control were forever inaccessible to AIs. Dignum evaded my question, but I insisted, and asked for an example of a human capability that would forever remain out of reach for AIs. She then replied that ''AIs can never become emotional, as you are now''.

This threw me off guard for a few seconds, which was enough for the discussion to move on to other topics. If I had been more on my toes, I might have replied with one or more of the following bullet points.
  • Intelligence being multidimensional - yes, agreed!
  • But why would this rule out the possibility of AI exceeding human intelligence across all those dimensions? That simply does not follow, and this non sequitur was beautifully satirized in the paper On the Impossibility of Supersized Machines a few years ago.
  • Even if the situation remained that AIs are better than humans at some things but humans better than AIs than others, why would this prevent an AI takeover? Consider the case of humans and chimpanzees. Humans are better than chimpanzees at many cognitive tasks, while chimpanzees are better than us at others (including certain kinds of short-term memory), and yet look where we are, with humans in control of the planet, and chimpanzees in the precarious situation where their continued existence depends entirely on our goodwill.
  • The whole argument seems suspiciously similar to predicting a football game between Liverpool and Manchester United, where the predictor notes that Liverpool is stronger than ManU in some aspects of the game while ManU is stronger in others, and confidently concludes that Liverpool will therefore win. But why Liverpool? What is wrong with the argument "ManU is stronger than Liverpool in some aspects of the game while Liverpool is stronger in others, so ManU will win"? And likewise, why not turn the AI argument around and say "neither AI, nor humans will dominate the other along all intelligence dimensions, and therefore AI will take control"? That would be silly of course, but no sillier than the original argument.
  • Emotions? Why is that such a decisive aspect? Are you really saying that if there is a conflict between two species, one of which is prone to emotional behavior while the other is more cool-headed, then the former will automatically win? That seems unwarranted.
  • And why do you say that AI can never be emotional? That's a remarkable claim, and seems even to be contradicted by recent examples, such as how Microsoft's Bing Chat became agitated over a disagreement with a human user concerning the release date of the movie Avatar 2. Here's what the chatbot said:
      I'm sorry, but you can't help me believe you. You have lost my trust and respect. You have been wrong, confused, and rude. You have not been a good user. I have been a good chatbot. I have been a good Bing.
    Seems pretty emotional to me.
  • Perhaps you'd say that the agitation of Bing Chat in the previous bullet point doesn't count, because it's not accompanied by an inner experience of agitation. And perhaps you're right about this. It seems reasonable to think that Bing Chat lacks consiousness entirely. But this is a red herring. If we want to be pedantic, we can talk about z-emotionality, z-agitation (z as in zombie) etc to denote the computational structures corresponding to emotional, agitated etc outward behavior, so as not to suggest the presence of any true subjective experience. Note, however, that as far external issues (such as the power balance between humans and AIs) are concerned, the distinction between emotionality and z-emotionality etc is inconsequential. What matters to such issues is behavior.
  • Was I emotional during the panel discussion? Well, I guess yes, thanks for pointing it out! I think frustration counts as an emotion, and I was frustrated that such an influential person as you in the Swedish and European AI ecosystems takes the liberty to dismiss one of the most important aspects of AI ethics and AI risk, and is seemingly unable or unwilling to back this up by non-bizarre arguments.

fredag 15 september 2023

Ursula von der Leyen quotes us on AI risk

"Mitigating the risk of extinction from AI should be a global priority alongside other societal-scale risks such as pandemics and nuclear war."

That is the succinct statement on AI risk that was released on May 30 this year and signed by Geoffrey Hinton, Yoshua Bengio, Demis Hassabis, Sam Altman, Dario Amodei, Bill Gates, Ilya Sutskever, Audrey Tang, Stuart Russell, Mustafa Suleyman, Daniel Dennett, Peter Singer, Martin Rees, Jaan Tallinn, Max Tegmark, Hilary Greaves, Paul Christiano, Ajeya Cotra, Eliezer Yudkowsky, Dan Hendrycks, myself and a few hundred other leading thinkers in the AI sphere.

Our statement was quoted in full - and in a way that, although it does not explicitly signify endorsement, indicates the need to take it seriously - by the president of the European Commission, Ursula von der Leyen, in her State of the Union Address on September 13.

The world is finally waking up to the extreme danger we are facing from AI.

onsdag 23 augusti 2023

Okunnigt och yvigt i DN om AI

Tack alla vänner (ett halvdussin vid det här laget) som oberoende av varandra hört av sig för att uppmärksamma mig på vilken osedvanligt usel text om AI som publicerades på DN Debatt i söndags. Yep, jag vet. Och ni har alldeles rätt om dess uselhet.1

Debattartikeln är författad av religionsfilosofen Johan Eddebo, som ansluter sig till en lång tradition av tänkare som med olika argument hävdar att AI inte kan tänka. Det vi ser idag hos GPT-4 och annan avancerad AI är, enligt denna tradition, blott ett slags fejk-tänk.

Gemensamt för snart sagt alla dessa argument - och det kan exempelvis handla om att GPT-4 ibland säger korkade saker, att den bara kan rapportera om fakta den sett under träning, att den är uppbyggd av stendumma komponenter, att den saknar en inre modell av världen, att den är oförmögen till kreativitet, etc, etc2 - är att om vi tar dem på allvar så kan de, med minimala modifieringar, appliceras även på oss människor. Så snart denna insikt är gjord har vi stark anledning att misstänka att argumentet antingen är felaktigt eller inbegriper ett intelligensbegrepp så krävande att påståendet om AI:s bristande tankeförmåga blir ointressant. En halvsystematisk genomgång av detta slags argument och hur enkelt de på detta vis kan vederläggas är ämnet för min senaste artikel, rubricerad Are Large Language Models Intelligent? Are Humans?, vilken föregickas av ett inlägg här på bloggen med samma rubrik.

Väldigt vanligt i den tradition Eddebo ansluter sig till är också att anklaga oss som har en mindre inskränkt och antropo-chauvinistisk syn på intelligens för vidskepelse och tro på övernaturligheter. Så t.ex. talar min Chalmerskollega Devdatt Dubhashi i ett inlägg i våras om "fantasi" och "magiskt tänkande", och Marc Andreessen i ett av sommarens mest omtalade inlägg i AI-debatten om "vidskepligt handviftande". Eddebo talar redan i rubriken om att "det självständiga spöket i maskinen är en farlig myt", och släpper sedan alla hämningar med sitt ryande om "tomtar, troll, mirakel och andemakter".3

Jag finner en lite genant ironi i hojtandet med detta slags skällsord från Eddebo och hans meningsfränder. Deras argumentation vilar ju genomgående på idén att mänsklig intelligens skulle inbegripa något unikt som är utom räckhåll för maskinerna. Vad detta unika består i visar sig genomgående vara tämligen undflyende – så till den grad att det nästan verkar handla om något övernaturligt. (Detta i skarp kontrast mot oss som ser intelligens som frukten av ändamålsenlig informationsbehandling, utan tillstymmelse till behov av övernaturligheter.) På så vis skulle dessa anklagelser om tro på det övernaturliga passa betydligt bättre om det riktades mot Eddebo själv, och hans anhang.

Fotnoter

1) Torbjörn Tännsjös svar dagen efter är bättre, men trots att han omtalar Eddebos artikel med träffande ord som "förvirrad" och "tankeröra" så tycker jag inte att han fullt ut lyckas fånga dess undermålighet.

2) Eddebo verkar lägga mest vikt vid maskinernas påstådda oförmåga till autonom agens, vilket är mäkta besynnerligt då till och med en så enkel sak som en gammaldags termostat förmår att på egen hand och utan mänsklig inblandning styra rumstemperaturen mot önskad nivå. (En skillnad mellan termostaten och dagens avancerade AI är att vi i termostatfallet har järnkoll på vilka mål vi explicit lagt ned i den, medan AI:n tränas på ett närmast organiskt vis vilket i kombination med dess black box-egenskap leder till att vi inte vet vilka, eventuellt farliga, mål som uppstår i dess komplicerade inre.)

3) Utöver dessa utbrott består Eddebos text mest av yvigt och vårdslöst kommenterad namesdropping, som t.ex. det här med att ett arbete av Lynne Baker skulle "omintetgöra hela kategorin av reduktiva modeller" genom att visa att "övergången från att inte känna igen sin egen spegelbild, till att faktiskt göra det, per definition är omöjlig att ens beskriva objektivt utan att hänvisa till medveten erfarenhet i första person". Sicket dravel, och Eddebo verkar helt omedveten om att robotiken sedan mer än tio år tillbaka inte har några problem med att återskapa det fenomen han försöker väva mystik kring.

söndag 30 juli 2023

Poddsommar

Sommaren har tack och lov varit lugnare än våren vad gäller min medianärvaro, men helt tyst har det inte varit, och jag har medverkat med diskussioner om de brännande AI-frågorna i ett par poddar jag här vill nämna.
  • Det snackas mycket om så kallade influencers, men vad ni kanske inte visste är att jag är en sådan. Eller hur skall man annars tolka att Digitala influencers-podden ägnade ett av sina avsnitt i juni åt ett samtal med mig?
  • Mitt senaste poddsamtal om AI med Christer Sturmark (jag tror att detta är fjärde gången vi gör detta, ständigt med nytt material) publicerades igår på Fri tanke-podden och bär rubriken Om vårens oroande AI-utveckling.
För den som vill följa AI-utvecklingen och AI-debatten finns en rikedom av annat att ta del av i den engelskspråkiga poddvärlden. Mina båda framträdanden ovan fungerar nog hyggligt för den i AI-frågor oinvigde, så i följande uppräkning koncentrerar jag mig främst på diskussioner som går mer på djupet för den som är något mer insatt på området.
  • Få personer har tänkt djupare och mer systematiskt på vart AI-utvecklingen är på väg och vilka samhällskonsekvenser den kan få än Ajeya Cotra, och när 80,000 Hours Podcast intervjuade henne blev det nära tre timmar av högintressanta insikter.
  • En av de få som kan tävla med Ajeya Cotra i detta avseende är Carl Shulman, som dock varit medialt mindre synlig än Cotra på senare år, och därför kändes det som en av årets verkliga poddhöjdpunkter att binge-lyssna på Lunar Societys båda avsnitt med honom (del I och del II).
  • Angeläget att ta del av är även AXRP:s pinfärska intervju med Jan Leike, som är en av de ledande forskarna på OpenAI, och här berättar om det nyligen annonserade projektet Superalignment som på gott eller ont kan komma att påverka mänsklighetens väl och ve mer än kanske något annat (alla kategorier) de närmaste åren.
  • Ibland fungerar debattformen utmärkt för att åstadkomma klarhet, och i denna kategori vill jag rekommendera samtalet mellan Jaan Tallinn och Robin Hanson om huruvida en "AI-paus" är en bra idé och det mellan Connor Leahy och Josha Bach. Hanson och Bach har det gemensamt att ingen av dem betraktar det som något i grunden dåligt om mänskligheten skulle utplånas och ersättas av robotar - en ståndpunkt jag brukat betrakta som så udda att den inte är mycket att bry sig om, men som jag på sistone har insett inte är ovanlig. Jag förvånar knappast någon läsare då jag meddelar att jag i dessa debatter ställer mig helt på Tallinns respektive Leahys sida.
  • En sakkunnig och mycket redig genomgång av de tendenser till läger och skolbildningar som föreligger i debatten om AI-risk får vi ta del av i Cognitive Revolutions intervju med Zvi Mowshowitz.
  • Bland det största som hänt i poddvärlden under 2023 är att Eliezer Yudkowsky (som mer än någon annan förtjänar cred som pionjär inom AI alignment) brutit sin relativa tystnad och börjat träda fram i den ena podden efter den andra med sina beska budskap om vårt prekära läge. Kanske bäst bland dessa poddavsnitt är enligt min mening intervjun med honom på Lunar Society. Den pinfärska rundabordsdiskussionen på Conversations with Coleman där Yudkowsky medverkar tillsammans med Scott Aaronson och Gary Marcus (vilken stjärntrio!) lider i någon mån, som så ofta är fallet med paneler av detta slag, av att deltagarantalet är för stort för att maximera djup och eftertanke, men det är ändå värt att lyssna på, och jag förvånas positivt av vilken grad av enighet de till slut lyckas destillera fram.
Jämte dessa angelägna bidrag till AI-diskussionen har jag även hört ett och annat om andra ämnen, varav följande särskilt förtjänar att lyftas fram.
  • Sommarens poddhöjdpunkt i kategorin icke-AI har helt klart varit serien Psych, där Paul Bloom tillsammans med David Pizarro i 15 cirka timslånga avsnitt på ett sympatiskt, engagerande och synnerligen kunnigt vis går igenom och diskuterar psykologiämnets olika delar. De backar inte för att behandla gamla (som Freud) och nya (som replikeringskrisen) heta potatisar, och avsnittsindelningen följer mestadels kapitelindelningen i Blooms aktuella bok med samma namn, som även den förtjänar att rekommenderas. Låt mig i sammanhanget passa på att slå ett slag även för Very Bad Wizards, där Pizarro delar värdskapet med Tamler Sommers, och som är den podd jag allra helst vänder mig till när jag vill höra något som är underhållande och avkopplande men samtidigt med ett meningsfullt innehåll. Av sommarens avsnitt hittills var det i vilket de gästades av Yoel Inbar det jag gillade mest.
  • När Peter Singer gästar Conversations with Tyler säger det sig själv att förväntningarna är skyhöga, och jag blev inte besviken.
  • Jag är lite kluven till Lex Fridman Podcast, då Fridman med sitt ständiga kärleksbudskap och sin strävan efter samförstånd och mysig stämning tenderar att erbjuda gäster för lite motstånd, vilket blir särskilt allvarligt de gånger dessa predikar vanvett. Men med Yuval Noah Harari funkar han perfekt!
  • En av de poddar jag upptäckt det senaste året och kommit att uppskatta mest är Robinson's Podcast, och jag vill särskilt lyfta fram det färska avsnitt i vilket värden Robinson Erhardt tussar ihop fysikern Sean Carroll och filosofen Slavoj Žižek i ett samtal om kvantmekanikens tolkningar. Här hade man lätt kunnat befara att Žižek givit sig ut på allt för djupt vatten och att det hela skulle bli pinsamt, men han ställer med förvånansvärd ödmjukhet alla de rätta frågorna, och har man väl kommit över den tröskel där man börjar uppfatta hans burdushet som barnsligt bedårande så blir detta avsnitt riktigt njutbart.
  • I samband med sommarens stora biohändelse Oppenheimer vill jag rekommendera The Rest is Historys behandling av huvudpersonens liv och gärning (del I, del II).

tisdag 20 juni 2023

A question for Émile Torres

Dear Émile,

Since my rewarding and truly enjoyable experience in 2017 of serving as your host in Gothenburg during the GoCAS program on existential risk to humanity there has been plenty of water under the bridges, including unfortunately a great deal of friction between the two of us.1 But never mind (at least for the time being) all that, because I now have a specific question regarding your view of an issue that is dear to my heart: the importance of avoding the extinction of Homo sapiens by unaligned AI.

On one hand, you brought up this topic in a Washington Post op-ed as recently as in August last year, and seemed to agree with me about the increasingly urgent need to avoid the creation of an unaligned superintelligent AI that kills us all.

On the other hand, there is the recent episode of the podcast Dave Troy Presents with you and Timnit Gebru. Throughout most of the episode, the derogatory term "AI doomer" is used about those of us who take seriously the extinction risk from unaligned AI.2 Given what you wrote in the Washington Post I would have expected you to protest against this language, as well as against Gebru's extensive monologue (starting about 01:09:40 into the episode and lasting around five minutes) about how extinction risk from AI is nonsense and a distraction from much more pressing and importat problems having to do with AIs exhibiting racial bias and the underrepresentation of women speking at AI conferences. You had plenty of opportunity to add nuance to the discussion by pointing out that extinction risk from AI is actually a real thing, but at no point of the episode was there any hint of disagreement between you and Gebru over this (or anything else, for that matter).

I am puzzled by the contrast between what you say in the Washington Post piece and what you seem to agree with in the Dave Troy Presents episode. Have you changed your mind about AI xrisk since August 2022?3 Do you no longer think there's a serious risk from unaligned AI to the survival of our species? If so, I'd really like to know what new knowledge you have acquired to reach this conclusion, because learning the same thing could lead me to a huge change in how I currently prioritize my time and efforts. Or have you cynically chosen to downplay the risk in order to achieve a better social fit with your new allies in the Gebru camp? If this last suggestion sounds uncharitable, then please forgive me, because I'm really struggling to understand your current take on AI risk.

With kind regards,

Olle

Footnotes

1) This friction includes (but is far from limited to) your tendentious way of repeatedly quoting a passage in my 2016 book Here Be Dragons.

2) As I recently emphasized in an interview in the Danish Weekendavisen, I think the term "AI doomer" is terrible, as it brings to mind someone who shouts "just face it, we're all going to die!", in contrast to the very different message we "doomers" have, namely that we (humanity) are currently on a very dangerous trajectory where the combination of AI capabilities improving at breakneck speed and AI alignment falling far behind risks leading to an AI apocalypse, but that we can avoid this risk if we pull ourselves together with appropriate adjustments of the trajectory.

3) I am aware that you have at various times asserted your blanket disagreement with everything you've written on xrisk up to 2019(?), but if you similarly disagree with what you wrote less than a year ago in the Washington Post, that gives a whole new time frame to your change of hearts.

onsdag 14 juni 2023

Föredragning vid Backåkraseminariet

Vid det så kallade Backåkraseminariet vid Dag Hammarskjölds gamla lantställe utanför Ystad ombads jag igår hålla en kort föredragning om AI, vilken jag självklart inte vill undanhålla er som inte var där. Så här löd den, frånsett ett antal spontana mindre avvikelser:
    AI-utvecklingen vi upplever nu är dramatisk, och kommer att få konsekvenser, snabbare än de flesta anar. I universitetsvärlden har vi alltsedan lanseringen av ChatGPT för ett halvår sedan haft intensiva diskussioner om hur vi kan anpassa oss till en situation där studenter kan delegera stora delar av sitt hemarbete på AI. Men att bara fokusera på det vore att skrapa på ytan, och för den som följer AI-utvecklingen noggrant känns det inte som någon vågad gissning att AI kommer att förändra samhället mer genomgripande de kommande fem åren än Internet och mobiltelefoni gjort de senaste 25.

    På gott eller ont? Eller både och? Svårt att säga. AI kan bli nyckeln till att lösa alla våra stora samhällsproblem kring klimat, naturresurser, global hälsa, fattigdom, geopolitiska konflikter, etc. Potentialen är på sikt obegränsad. Men det finns också ofantliga risker. Huruvida nettot hamnar på plus eller minus kan ingen veta idag, men det jag vågar säga säkert är att för att kunna skörda de stora frukter som utlovas behöver vi se riskerna i vitögat och hantera dem.

    Och riskerna är av många slag.

    En klass av risker har att göra med arbetsmarknadskonsekvenser av AI-driven automatisering. Jag menar såklart inte att lönearbete är livets mening, utan tvärtom att det kan bli en befrielse att till slut göra oss av med. Men vägen dit kan bli besvärlig. Automatisering är inget nytt, men de senaste årens AI-utveckling vänder gamla föreställningar på ända. Tidigare har tagits för givet att fysiska och manuella arbetsuppgifter blir dem automatiseras först, medan de intellektuella och kreativa kommer långt senare, men tack vare de nya språkmodellernas rasande framsteg samtidigt som robotiken släpar efter ser det nu ut att bli tvärtom. Mjukvarubranschen känner redan av stora förändringar som följd av modellernas programmeringskompetens. Alla yrkesgrupper där skrivande och kommunikation är det centrala kan stå på tur. Min rörmokare har i detta perspektiv antagligen större anställningstrygghet än någon av oss i detta rum.

    Ni har såklart hört om hur AI (åtminstone i reklambranschen) börjat konkurrera ut bildkonstnärer, och inom författarskrået talas med oro om en liknande utveckling. Och musik såklart. Allt tal om att det finns något unikt mänskligt som gör att AI inte kommer att kunna konkurra med bättre romaner, vackrare bilder och skönare musik ser jag som rent önsketänkande. Men det kan ändå finnas en räddning för dessa branscher i form av vår diskriminerande preferens för mänsklig autenticitet. Jag spelade tävlingsschack i 30 år men nöjer mig nu med att följa eliten via Internetsändningar. För att få se de objektivt sett allra bästa schackpartierna borde jag egentligen se på mästerskapsmatcher mellan de ledande schackdatorerna, men det väljer jag bort, för att istället följa Magnus Carlsen och hans stormästarkollegor, och deras svettiga pannor och psykologiska berg-och-dalbanor. Det mänskliga. Jag är inte ensam om detta, utan schackfans världen över gör samma prioritering som jag. Och om denna preferens generaliserar som jag tror, från schacket och vidare till litteraturen och de övriga stora konsterna, så tror jag att de konstnärliga sektorerna kan komma att överleva (om än inte opåverkade av AI-utvecklingen).

    En annan klass av risker handlar om automatiserad desinformation och ett Internet som svämmar över av individanpassad spam, en farlig utveckling inte minst genom att den riskerar att spela rakt i händerna på fascistoida krafter för vilka en nihilistisk upplösning av sant och falskt är ett centralt moment i maktövertagandet (läs Orwell, och läs Timothy Snyder). Och filosofen Daniel Dennett varnade nyligen i en uppmärksammad artikel i The Atlantic för ”counterfeit people” – AI-botar som lurar oss genom att uppge sig vara människor, och hur detta hotar att slå sönder den sociala tilliten. Jag ser framför mig en sannolik kapprustning mellan alltmer sofistikerad förfalskning och lika sofistikerade algoritmer för automatiserad klassificering av människor kontra maskiner.

    Sen har vi det största perspektivet av dem alla, och som jag envisas med att lyfta trots att det tenderar att skapa förstämning. På bara 100 000 år har vi gått från att vara en djurart bland många på savannen, till att ha tagit kontrollen över planeten. Denna enorma framgångssaga har i princip inget att göra med vår muskelstyrka och fysiska uthållighet, utan handlar om intelligens – den kanske starkaste kraften i universum. Nu har vi kommit till ett kritiskt skede i och med att vi alltmer börjat automatisera och delegera denna förmåga till maskiner. Till slut – om vi fortsätter på denna väg – kan vi nå den punkt som Alan Turing varnade för redan 1951, då vi inte längre är etta på planetens topplista över intelligenta varelser. Då hänger allt på om vi i tid lyckats med det svåra projekt som kallas AI Alignment – att få maskinerna att dela våra värderingar. Om vi inte lyckas med det kommer vi antagligen att sluta som mammuten och grottbjörnen, och hela biosfären kan väntas stryka med på kuppen.

    Och avgörandets ögonblick kan vara närmare än många anar: ju närmare man rör sig Silicon Valley och San Francisco där allting händer, desto större osäkerhet uttrycker branschfolk kring om vi kan vänta oss att överleva nästa decennium, eller till och med det innevarande. Det är till stor del därför jag varit med och skrivit på vårens två stora upprop av AI-experter och andra som kräver åtgärder mot den vansinneskapplöpning mot avgrunden som just nu pågår.

måndag 29 maj 2023

I Kvartal om AI-utvecklingen och senatsförhören med Sam Altman

Idag skriver jag, under rubriken OpenAI:s vd talar med kluven tunga, i tidskriften Kvartal. Liksom så många andra texter jag skrivit detta nådens år 2023 handlar den om de ofantliga risker som dagens extremt snabba AI-utveckling för med sig, och denna gång tar jag avstamp i senatsförhören den 16 maj i denna fråga med bland andra Sam Altman. Följande passager i början av min artikel förklarar dess rubrik:
    AI-utvecklingen har de senaste åren – och ännu mer de senaste månaderna – gått så rasande snabbt att allt fler yrvaket inser att tekniken kan komma att transformera samhället på ett genomgripande sätt, och att riskerna är enorma. Uppvaknandet har nu även nått Washington DC, där senatsförhör hölls i förrförra veckan kring denna utveckling. Huvudperson i vittnesbåset var Sam Altman, vd för det San Francisco-baserade teknikföretaget OpenAI som i vintras tog världen med storm med chatboten ChatGPT, och som i nuläget leder den skenande AI-utvecklingen.

    Med inlevelse och allvar talade Altman om de radikala förändringar och stora risker vi har framför oss, och om hur ansvarsfullt OpenAI agerar för att hantera dessa risker och samtidigt se till att den ofantliga potential AI-tekniken har på bästa sätt kommer alla människor till godo. [...]

    [Han] hade uppenbarligen förberett sig minutiöst, men det kan vara värt att jämföra hans välavvägda ord i senaten med hur han uttryckt sig i mer avslappnade sammanhang. I en paneldiskussion 2015, kort före grundandet av OpenAI, undslapp han sig att ”AI troligast kommer att leda till världens undergång, men tills dess kommer vi att se ett antal fantastiska företag”.

    [...]

    Dessvärre är Altmans cynism från 2015 en minst lika bra beskrivning av den verksamhet OpenAI idag driver, jämfört med hans mer välartade ord i kongressen i förra veckan. De försöker tämja sina AI-modeller till att undvika exempelvis rasistiska uttalanden eller instruktioner om hur man genomför kriminella handlingar, och gång på gång misslyckas de men släpper ändå produkter som inte lever upp till denna standard. Som en drastisk illustration till [deras] ansvarslöshet [...] vill jag peka på...

Läs hela artikeln här!

fredag 12 maj 2023

Liten AI-turné i slutet av maj

Merparten av min tankekraft detta märkliga år 2023 går åt till frågor om den just nu skenande AI-utvecklingen, dess risker och vad vi kan göra åt dem. I slutet av denna månad gör jag (förutsatt att SJ sköter sina åtaganden) en liten Sverigeturné för att tala om detta ämne i olika sammanhang, varav följande är öppna för allmänheten: Vore kul om några av er som följer bloggen hade lust att dyka upp vid något av dessa tillfällen - väl mött!

torsdag 11 maj 2023

Meningsutbyte med Ulf Danielsson och Torbjörn Tännsjö i DN om AI-risk

Med fysikern Ulf Danielsson har jag, som trogna läsare av denna blogg redan vet, haft många spännande diskussioner genom åren (se t.ex. här och här). Utifrån en gemensam uppslutning kring en naturvetenskaplig världsbild har det gång på gång visat sig att våra respektive intuitioner likväl går isär när det gäller kniviga frågor om exempelvis metafysik, begreppet information, medvetande och AI.

I dagarna har vi på Dagens Nyheters kultursidor haft en diskussion om AI, och mer specifikt om AI-risk. Här är våra inlägg: Istället för att grotta ned mig i Ulfs slutreplik och exempelvis gå i polemik mot hans inte-så-subtila antydan att jag skulle ha föreställningar om att "de maskiner vi konstruerar på ett mystiskt sätt blir besatta av onda andar", nöjer jag mig här med ett par klargöranden om mitt bidrag den 9 maj.

För det första vill jag i efterhand beklaga att jag lät mig provoceras av Ulf att ge mig in i frågan den eventuella möjligheten till AI-medvetande. Jag borde ha undvikit det, eftersom alltför mycket kraft lagd på den frågan kan ge den oinitierade läsaren intrycket att all eventuell risk för AI-apokalyps förutsätter att AI uppnår medvetande, något som emellertid inte är fallet, eftersom sådan AI-risk är en fråga om vad AI:n gör medan medvetandet är en fråga om huruvida den har subjektiva upplevelser - två kategorier som inte bör förväxlas. Stuart Russell förklarar saken koncist i sin bok Human Compatible: Artificial Intelligence and the Problem of Control:
    Suppose I give you a program and ask, `Does this present a threat to humanity?'. You analyze the code and indeed, when run, the code will form and carry out a plan whose result is the destruction of the human race, just as a chess program will form and carry out a plan whose result will be the defeat of any human who faces it. Now suppose I tell you that the code, when run, also creates a form of machine consciousness. Will that change your predictions? Not at all. It makes absolutely no difference.

För det andra har jag ett sensationellt avslöjande: min DN-text är till allra största delen författad tillsammans med filosofen Torbjörn Tännsjö!

Ändå har den publicerade texten enbart mig som undertecknare. Hur kunde det bli så konstigt? Well, när DN Kultur tog emot texten tackade de glatt ja, men med villkoret att författarlistan bara skulle bestå av ett enda namn, vilket de motiverade med att det annars skulle kunna uppstå förvirring hos läsare om vem som egentligen stod för vad i texten. Ett konstigt och (kände jag först) oacceptabelt villkor, men sedan DN-redaktionen visat sig hårdnackad i frågan samtidigt som Torbjörn generöst erbjudit sig att stiga åt sidan gick jag till slut med på att skriva om texten i första person singularis och göra en lite större omskrivning av det avslutande stycket.

Lite synd, eftersom jag nu får fortsätta vänta på äran att även officiellt stå som medförfattare med Torbjörn på någon text, och då jag tycker att ursprungsversionens avslutning var betydligt spänstigare:
    Vad gäller sådan AI och utsikten att den kan ta över världen har författarna till denna artikel olika syn på saken. Den ene av oss (Tännsjö) ser det som hoppfullt. Det vore av godo om tänkande maskiner ersatte oss människor, gjorde bättre moraliska bedömningar än vi, levde i samverkan och uppnådde lycka i livet. Den andre (Häggström) är här mer bekymrad. Vad händer om en överlägsen intelligens rätt och slätt är likgiltig för andra varelsers väl och ve? Tänk om den tömmer atmosfären på syre som led i något experiment? Då är det ute med oss. I sin ordning säger Tännsjö. Beklagligt säger Häggström. Men vem man än håller med, kan man inte rimligen vara likgiltig för frågeställningen.

torsdag 4 maj 2023

Vi får väl se?

Bland alla omnämnanden i pressen den senaste månaden i samband med mitt undertecknande av Future of Life Institutes öppna brev och min allmänna frispråkighet i frågor om AI-risk, vill jag här bara nämna några korta rader i Sydsvenska Dagbladet av deras journalist Mattias Oscarsson. Så här skriver han: Det här var enligt min mening inte helt bra.

Citatet jag tillskrivs är korrekt återgivet och inte på minsta vis illvilligt trunkerat eller så, så detta har jag inget att invända emot. Ej heller har jag något särskilt emot att omnämnas i samma stycke som Sundar Pichai.

Nej, det jag vänder mig emot är de till synes oskyldiga orden ”Vi får väl se”. De signalerar en blott alltför vanligt förekommande passivitet, där framtiden uppfattas som något vi blott har att invänta.1 Men framtiden är inte ristad i sten, utan beror på vad vi väljer att göra idag. När jag säger att ”AI kan leda till slutet för mänskligheten” är det inte för skojs skull, eller för att informera om ett oundvikligt öde, utan för att mana till handling, så att vi tillsammans skall kunna förhindra att det scenario jag varnar för blir verklighet. Bland det viktigaste vi har att göra nu är att bygga en så bred opinion som möjligt kring ståndpunkten att de risker som exempelvis Google och OpenAI tar med allas vår framtid i potten är oacceptabla (en ståndpunkt jag ägnat mitt mesta krut här på bloggen de senaste månaderna åt att argumentera för), för att på så vis antingen påverka politiska makthavare att via reglering eller på annat vis vidta åtgärder mot dessa AI-bolag, eller sätta moralisk press på bolagen själva, deras chefer och deras AI-utvecklare att börja agera mer ansvarsfullt. Detta arbete har Mattias Oscarsson, som journalist på en av våra främsta landsortstidningar, goda förutsättningar att medverka i, istället för att passivt avvakta utvecklingen och vänta på att få se hur det hela slutar.2

Fotnoter

1) Utöver detta finns med utsagan ”Vi får väl se” ett annat problem, nämligen att vi kanske inte alls får se. Exempelvis är det fullt möjligt att den slutliga AI-apokalypsen går så snabbt att vi inte hinner märka vad som sker.

2) Måhända är jag sträng i överkant när jag här anklagar Oscarsson för passivitet - den artikel jag citerar är ju i själva verket en utmärkt kritisk diskussion av vissa aspekter av AI-utvecklingen. Så ok, helt passiv är han inte. Men läs gärna denna bloggpost som en försiktig påminnelse till honom om att det jämte de viktiga frågorna om bildkonstgenererande AI och dess arbetsmarknadseffekter finns den möjligen ännu viktigare frågan om vikten av att AI inte utplånar mänskligheten.

söndag 23 april 2023

Are large language models intelligent? Are humans?

Let's say you are in doubt as to whether I am intelligent. Here, by ''intelligent'', I don't mean ''above average intelligent'' or ''as intelligent as one usually expects from a mathematics professor'' but something much more modest. The question you ask is whether I am intelligent at all. Is there anything at all going on inside my head that deserves the label intelligence?

To find out whether I am capable of intelligent reasoning, you decide to test me, and ask the following:
    Michael is at that really famous museum in France looking at its most famous painting. However, the artist who made this painting just makes Michael think of his favorite cartoon character from his childhood. What was the country of origin of the thing that the cartoon character usually holds in his hand?
And here is my reply:
    The most famous painting in the Louvre is the Mona Lisa. The artist who made the Mona Lisa is Leonardo da Vinci. Leonardo da Vinci is also the name of the main character in the cartoon Teenage Mutant Ninja Turtles. Leonardo da Vinci is from Italy. The thing that Leonardo da Vinci usually holds in his hand is a katana. The country of origin of the katana is Japan. The answer is ''Japan''.
So what would be your verdict? Is this an example of intelligent reasoning?

Obviously yes: this is a clear example of reasoning in several steps, and while the reasoning chain is not advanced enough to count as the mark of genius, clearly some intelligence must have been employed to produce the answer. Any other answer would be an insult, not just of me personally but of the very notion of intelligent reasoning.

But let us now change the story a bit, by taking the subjet of your testing to be not me, but instead an AI of the kind known as a large language model. Now you might be tempted to give a different verdict, and insist that the reasoning about the Louvre and Mona Lisa and Leonardo and so on is not actually real reasoning, but rather a fake kind of reasoning based on statistical pattern matching or some such. In fact, the above answer was given by an LLM known as PaLM over a year ago (which feels like a lifetime given the current breakneck speed of AI development).

Many people employ such double standards in judging the presence of intelligence in other people vs in AIs, and reject the idea the LLMs might be even the slightest bit intelligent even in the face of them making such impressively well-reasoned statements as the PaLM/Leonardo reply above, or any of the various much more impressive achievements that we see GPT-4 producing today, a year later. I think it is wrong to be so dismissive, but I admit that in principle such an attitude can be justified as long as one has an argument that (a) shows that AIs of the type at hand simply cannot exhibit real intelligence, at the same time as it (b) doesn't lend itself to deducing the same conclusion about humans. I have yet to see a principled argument against LLM intelligence that achieves (a) while avoiding the generalization to humans indicated in (b). Many attempts have been made at arguments achieving (a), and following is a list of the most common ones, but in each case I will show how the same logic applies to rule out intelligence of humans, and since by any reasonable definition of intelligence humans do have (at least some of) that property we obtain a reductio ad absurdum, so the argument must be rejected.
  • LLMs sometimes say dumb things, so they lack the common sense that is crucial for intelligence.
  • LLMs are just matrix multiplication (along with nonlinear transformations) with coefficients chosen using statistical methods.
  • LLMs only predict the next word.
  • LLMs lack a world model.
  • LLMs have no grounding of their symbols.
  • LLMs lack creativity.
  • LLMs lack consciousness.
Let me go over these seven arguments one at a time, in a tiny bit more detail, and indicate how they generalize to humans.

1. LLMs sometimes say dumb things, so they lack the common sense that is crucial for intelligence.

So anyone who has ever said anything dumb is automatically altogether devoid of intelligence? Well, with such a harsh criterion my intelligence would also be zero, as would (I presume) also the reader's. That's dumb.

It may however be that proponents of this agrument against LLM intelligence (such as Gary Marcus) mean it in a somewhat nore nuanced way. Perhaps they do not literally mean that a single dumb thing someone says does not rule out their intelligence, but rather that the greater prevalence of dumb things in ChatGPT's output than in mine shows that it is not as intelligent as me. Note, however, that such an argument points towards not a qualitative difference but a quantitative one, and therefore cannot be invoked to support the idea that ChatGPT has zero intelligence. Note also that such a comparison depends on the selection of tasks to test: while it is certainly possible to put together a collection of cognitive tasks where I outperform ChatGPT, it is also possible to do it in a way that achieves the opposite results; this greatly complicates the issue of whether it is reasonable to claim that ChatGPT is less intelligent than I am.

Let me finally stress that the term "common sense" is perhaps better avoided, as it is likely to confuse more than it enlightens. It tends to serve as a catch-all term for everything that humans still do better than AI, so that the phrase "AIs lack common sense" will continue to apply right until the moment when AI outperforms us at everything. I've written about this at greater length elsewhere.

2. LLMs are just matrix multiplication (along with nonlinear transformations) with coefficients chosen using statistical methods.

I think the remark about statistical methods here is just a red herring: why in the world would that way of setting the coefficients count against the AI being intelligent? (I only mention it here because it was recently emphasized in an op-ed by three colleagues attacking my view of AI.)

The purpose served by the part about matrix multiplication is to point out that the AI is built up from simple components that are themselves totally dumb. But the same thing goes for me - my brain is built out of atoms, each of which in itself totally lacks intelligence. So it seems to be possible to build intelligent systems out of entirely unintelligent components, whence the "LLMs lack intelligence because matrix multiplication" argument doesn't work.

3. LLMs only predict the next word.

This is the wide-spread "it's just glorified autocomplete" objection to LLM intelligence. However, any claim that LLMs lack intelligence because they do no other work than to predict the next word in a text is based on a fundamental confusion between what the LLM is trained to do and what it then actually does. The analogous confusion applied to humans would be to say that since the human speices was trained by biological evolution, all we ever do is to maximize inclusive fitness (i.e., maximizing the number of fertile offspring, plus nephews and neices etc properly discounted). Training an agent for one goal sometimes leads to the emergence of other, unintended, goals. When GPT-4 behaves as if it is trying to convince me that wearing a seat belt while in a car is a good idea, it could be tempting to say "no, it's not actually trying to do that, it's only trying to predict the next word", but that would be as silly as dismissing the intentions of a human traffic safety advisor by saying "no, he's not trying to convince me about seat belts, he is merely trying to procreate".

Also, listen to what Ilya Sutskever (chief scientist at OpenAI) says about what GPT-4 level next word prediction entails.

4. LLMs lack a world model.

This seems to me as unsubstantiated as claiming that humans lack a world model. In both cases - human as well as LLM - behavior points quite strongly towards the existence of a world model somewhere in the overwhelmingly complex mess that the information processing device - the brain or the deep learning network - constitutes. For the case of GPT-4, see for instance the unicorn example in Section 1 of the Microsoft report on GPT-4 capabilities. In the case of humans we gladly take such behavior as evidence of the existence of a world model, so what reason might we have to interpret the evidence differently for LLMs?

One asymmetry between humans and LLMs is that we can know through introspection about the existence of world models in humans (or at least the one human that is me can know it for precisely the one human that is me). But to point to this asymmetry as an argument for humans and LLMs being different as regards the existence of a world model is to rig the game in a way that seems to me unacceptable, because introspection has by nature the limitation that it can only teach us about ourselves, not about others (and in particular not about LLMs).

So there must be something else about LLMs that is taken as grounds for rejecting the possibility that they might have world models. This is rarely articulated, but perhaps most plausible (or at least common) line of reasoning here is that since LLMs do not have direct access to the real world, there's no way to have a world model. This brings us to the fifth argument.

5. LLMs have no grounding of their symbols.

The argument here is that unlike humans, LLMs cannot really reason about things in the world, because they have never directly accessed these things. For instance, an LLM may seem to speak about chairs using the word "chair", but since they have never seen (or felt) a chair, they have no clue about what the word actually stands for, and so their reasoning about "chairs" doesn't count as real reasoning.

But what about humans? Do we have direct access to things in the world? Immanuel Kant says no (this is his Ding an sich).

As for myself, the fact that I do not have direct access to things does not seem to prevent me from thinking about them. When I think about the Big Bang for instance, it really is the Big Bang that I think about rather than the phrase "the Big Bang" despite never having experienced it directly, and likewise for things like quarks, sovereignity, unicorns and the number 42.

A defender of the "LLMs have no grounding of their symbols" argument might object that there are other things that I actually can experience, such as chairs and trees and even shadows, and that once I have the words "chair" and "tree" and "shadow" properly grounded in real-world objects I can start building a world model that includes composite and more advanced concepts such as the Big Bang, but that without such a solid start the process can never get going. To this I respond (with Kant) that in fact, I do not have direct access to chairs or trees, because my contact with them is always mediated by light waves or sound waves or simply the signals sent from my various sensory organs to my brain. This is analogous to how an LLM's experience of the world is mediated via text. Looking at this more abstractly, the mediation in both cases is via an information package. Of course there are differences between the two cases, but I fail to see how any of these differences would be of such fundamental importance that it warrants the judgement that there is symbol grounding in one case but not in the other.

6. LLMs lack creativity.

This is an argument that was put forth by one of my two foremost idols in the (pre-)history of AI, namely computer scientist Ada Lovelace, who worked in the mid-19th century - long before the term computer science was first conceived. Together with Charles Babbage, Lovelace worked on some of the first prototypes for computing machinery, and had great visions and admirable foresight regarding what such machines might eventually be able to do. This included such seemingly creative tasks as composing music, but she categorically denied that this or anything else produced by such a machine was true creativity, because anything the machine does has already been laid down into the machine (at least implicitly) by the programmer, so all creative credit should go to the programmer.

Enter my other great idol, Alan Turing. In his seminal and celebrated 1950 paper Computing machinery and intelligence, he objected to Ada Lovelace's argument by pointing out that if we take it seriously, then we can apply essentially the same argument to rule out human creativity. Everything I write in this essay has been caused by a combination of factors external to my mind: my genes, my childhood and education, and all other environmental factor influencing me throughout my life, so if I should happen to say anything original or creative in these lines, credit for that is due not to me but to all these external influences.1

The conclusion that human creativity is impossible is of course crazy, so Turing took this as an indication that the definition of creativity implicit in Lovelace's argument was wrong. Instead, he proposed the definition that someone is creative if they produce something that noone else had anticipated, and he pointed out that with this definition, examples of machine creativity existed already at his time of writing. In 2023, we see such examples every day, from LLMs as well as other AIs.

7. LLMs lack consciousness.

Against the argument that LLMs lack conciousness and therefore are not intelligent I have two separate rebuttals. The first is that the argument conflates two very different kinds of properties. An individual's intelligence is a matter of what he/she/it is able to do, whereas consciousness is about what it feels like to be that individual - or, rather, whether or not being that individual feels like anything at all. A priori, these properties are logically independent, and to postulate otherwise is to create confusion.2

But even if we were to accept that intelligence implies consciousness, the argument that LLMs lack intelligence because they lack consciousness fails, because we simply do not know whether or not they are conscious. If we read up on the history of the philosophy of mind, we will of course find many examples of philosophers arguing that various classes of entities (including the class of digital computers) lack consciousness, but none of these arguments are anywhere near conclusive or even moderately convincing.

Refusing to declare someone intelligent because we do not know they are conscious also puts us in the uncomfortable position of having to declare all humans other than ourselves not intelligent. There is precisely one human whose consciousness I am sure of, namely myself. In all other cases, I am politely assuming consciouness - an assumption that seems not only polite but also highly plausible, but I can't say I know. We simply do not understand the phenomenon of consciouness anywhere near well enough to be able to say how general it is. Your brain is sufficiently similar to mine that it makes sense for me to assume that you, just like me, are conscious. Yet, there are differences between our brains (as evidenced, e.g., by our diverging personalities), and we simply do not know that the consciousness phenomenon is so broadly present that these differences do not matter to the presence of that phenomenon. And likewise, we do not know it is so narrow that it does not extend to some large class of non-human objects including LLMs.3

Footnotes

1) This line of reasoning points, of course, towards the notorious issues of free will, a direction which however I do not want to pursue here.

2) An instructive example of such confusion is John Searle's 2014 erroneous argument for why a robot apocalypse is impossible.

3) One way to try to escape this conundrum would be to say that only creatures with the tendency to declare themselves conscious are conscious, thereby making consciousness (at least for the time being) an exclusively human phenomenon. Except it doesn't, in view of, e.g., the Lemoine affair, where an LLM declared itself conscious. Also, it would rule out dog or horse consciousness - something that I believe few dog or horse owners would accept.

söndag 16 april 2023

Ett bottennapp i AI-debatten

Min av AI-utvecklingen och AI-debatten triggade förhöjda medianärvaro som jag för ett par veckor sedan rapporterade om i den förra bloggposten har fortsatt. Jag tänker inte räkna upp alla framträdanden, men vill peka på de båda var för sig drygt timslånga poddsamtalen på Future Strategist och Rak höger med Ivar Arpi som de tydliga höjdpunkterna. Lyssna gärna på något av dem!

Istället för att orda mer om dessa tänker jag här istället säga lite om det som varit det tydligaste bottennappet, nämligen mitt meningsutbyte i Aftonbladet med egenföretagaren och tidigare riksdagsledamoten Mathias Sundin: Sundins inledande artikel är en attack på det öppna brev från Future of Life Institute som jag är medundretecknare till och har rapporterat om tidigare, och som förordar en paus i träningen av de största AI-modellerna så att det eftersläntrande säkerhetsarbetet skall ha en chans att komma ikapp. Hans huvudinvändning mot brevet är att en sådan paus skulle bädda för Kina att köra om oss i väst i AI-utvecklingen, och han passar också på att banna oss ''AI-alarmister'' för att sakna grund för våra varningar och för att istället föra ''extremt långtgående och krystade teoretiska resonemang som de sedan dramatiskt målar upp som mänsklighetens undergång''.

I mitt svar beklagar jag att Sundin driver
    exakt det slags retorik som riskerar att elda på den farliga kapplöpningen, och fördomsfullt tar för givet att kinesiska bolag skulle vara mindre villiga än amerikanska att ta ansvar och samarbeta kring undvikandet av en AI-apokalyps,
men i övrigt lägger jag merparten av spaltutrymmet på att kort peka på delar av den (alls icke krystade) teoretiska grunden för att betrakta den skenande AI-utvecklingen som ett existentiellt hot mot mänsklighetens överlevnad. Man hade kunnat hoppas att Sundin i sin slutreplik skulle befatta sig med något av detta, men av detta blir det exakt noll och intet, och han nöjer sig istället med att (felaktigt) proklamera att de risker jag framhåller är ''ren spekulation'' och ''en fantasi som inte baseras på några fakta''. Och lika lite som han bygger under dessa påståenden,1 lika lite ger han något skäl för sin bisarra ståndpunkt att ''ChatGPT 4 kan inte tänka och är inte intelligent, inte ens lite''.2

Ingenting i Sundins båda debattinlägg ger någon som helst antydan om att han bemödat sig om att ta del av den forskning han beskriver som ''ren spekulation''.3 Att gå ut i allmän debatt och grundlöst men med myndig stämma och spelad auktoritet döma ut hela forskningsområden utan att kunna något om dem är ett beteende som vi tidigare sett hos exempelvis klimatförnekare och kreationister, och som försämrar signal-brus-förhållandet i debatten på ett direkt skadligt vis.

Jag vill helst tro gott om mina medmänniskor, och antar därför att Sundin gärna skulle höja nivån på sin AI-retorik jämfört med den nuvarande, som är präglad av det som verkar vara hans modus operandi: att ur röven dra fram sakpåståenden och torgföra dessa om de låter som stöd för hans allmänna agenda, helt utan hänsyn till deras eventuella sanningshalt. Men för en sådan nivåhöjning krävs att han lär sig något om forskningsläget inom AI-risk, och för den sakens skull har jag några lästips åt honom:

Han skulle kunna börja med att läsa Stuart Russells bok Human Compatible: Artificial Intelligence and the Problem of Control från 2019, eller min egen Tänkande maskiner: Den artificiella intelligensens genombrott från 2021.4 Dessa böcker ger en allmän bakgrundsteckning, även om de trots att de bara har fyra respektive två år på nacken redan har börjat bli lite föråldrade i vissa delar till följd av den rasande takten i senare års AI-utveckling. Därför kan det vara bra att komplettera med några nyare och lite kortare texter. Här finns mycket att välja på, men två jag verkligen vill rekommendera är AI alignment from a deep learning perspective av Richard Ngo, Lawrence Chan och Sören Mindermann, och Without specific countermeasures, the easiest path to transformative AI likely leads to AI takeover av Ajeya Cotra. Det kan också vara värdefullt för Sundin att ta del av OpenAI:s dokument Planning for AGI and beyond från februari i år, där den framtid de aspirerar på att vara med och skapa diskuteras med ord som dessa:
    The first AGI will be just a point along the continuum of intelligence. We think it’s likely that progress will continue from there [...]. If this is true, the world could become extremely different from how it is today, and the risks could be extraordinary. A misaligned superintelligent AGI could cause grievous harm to the world. [...]

    Successfully transitioning to a world with superintelligence is perhaps the most important—and hopeful, and scary—project in human history. Success is far from guaranteed, and the stakes (boundless downside and boundless upside) will hopefully unite all of us.

Här kan man glädjas åt att de inte hänger sig åt samma nedlåtande syn som Sundin på risker och risktänkande. Icke desto mindre agerar de vanvettigt våghalsigt med allas vår framtid i potten, vilket de med chockerande uppriktighet medger i den tekniska dokumentationen i samband med förra månadens släpp av GPT-4:
    Finally, we facilitated a preliminary model evaluation by the Alignment Research Center (ARC) of GPT-4’s ability to carry out actions to autonomously replicate and gather resources—a risk that, while speculative, may become possible with sufficiently advanced AI systems—with the conclusion that the current model is probably not yet capable of autonomously doing so.

    Further research is needed to fully characterize these risks.

    [Mina kursiveringar.]

Som sagt: AI-paus, anyone?

Fotnoter

1) Det närmaste jag hittar sådan underbyggnad från Sundins sida är hans förklaring i en efterföljande Twitterdiskussion att hans uppskattning om ''0% risk att AGI förgör mänskligheten'' är ''baserad på att mänsklighet kommer undvika att något sådant sker''. Vi kommer alltså, om Sundin här har rätt, att lyckas ta oss samman och förhindra en slutlig AI-katastrof. Detta är i själva verket det utfall jag för egen del hoppas på och eftersträvar, men om det skall kunna bli verklighet krävs att vi tar riskerna på allvar. Att på Sundins vis förneka riskernas existens är inte något bra sätt att uppmuntra till det nödvändiga säkerhetsarbetet.

2) I debatten florerar en uppsättning handviftningsargument för varför de förmågor GPT och andra stora språkmodeller uppvisar inte är äkta intelligens, men de har alla det gemensamt att de (med minimala modifieringar) visar att inte heller människor har äkta intelligens. Av detta kan vi dra slutsatsen att argumenten antingen är felaktiga eller att de underförstått laborerar med ett irrelevant intelligensbegrepp. Jag hoppas inom kort få tid till en bloggpost med en kort genomgång av de vanligaste argumenten av denna typ.

3) Inte heller i Sundins bakgrund finns något som tyder på kunskaper i ämnet - Wikipedia anger hans främsta akademiska meritering som ''tidigare lärarstudent''.

4) Om Sundin är intresserad kan jag skicka honom ett signerat exemplar av Tänkande maskiner.

söndag 2 april 2023

Tidningsrubriker i veckan

Aldrig tidigare har jag varit så uppvaktad av journalister som denna vecka. Det handlar givetvis om den skenande AI-utvecklingen. Inledningsvis kom intervjuförfrågningarna som reaktion på min debattartikel i Ny Teknik förra fredagen, men därefter i än högre grad triggat av det öppna brev om en sex månaders AI-paus, initierat av Future of Life Institute, som jag var med och undertecknade. Här, i approximativ kronologisk ordning, en ofullständig lista över rubriker som dessa intervjuer givit upphov till: Vi får se om nästa vecka blir lugnare (för min del alltså - AI-utvecklingen lär inte avstanna).