Visar inlägg med etikett Yoshua Bengio. Visa alla inlägg
Visar inlägg med etikett Yoshua Bengio. Visa alla inlägg

fredag 29 augusti 2025

AI-riskförnekarargumentationens ihålighet: ett illustrativt exempel

I mina två senste bloggposter (16 augusti respektive 22 augusti) har jag rapporterat om ett meningsutbyte i tidningen Ny Teknik i vilket jag av fyra Chalmerskollegor angrips för att bedriva skrämselpropaganda i mitt tal om AI-risk, jämte en radiodebatt mellan mig och en av de fyra - Moa Johansson - som ägde rum i Sveriges Radios Studio Ett mitt under den pågående skriftväxlingen. Som framgår av min bloggrapportering är jag djupt kritisk mot nivån på de fyra kollegornas retorik.

Men det tog inte slut där, för i tisdags (den 26 augusti) tussades jag på nytt ihop med Moa Johansson, denna gång i SVT:s Aktuellt, med programledren Nike Nylander som moderator. Det jag vill göra här är att sätta strålkastarljuset på Johanssons avslutningsreplik, som trots att den blott består av några få meningar utgör ett slags koncentrat av mycket av den ihålighet som brukar prägla det slags AI-riskförnekarargumentation som det här handlar om.0

För lite kontext återger jag här även min egen (som det skulle visa sig) sista replik.1 Min debattmotståndare hade just avfärdat hela den AI-riskforskning jag försöker torgföra som blott bestående av spekulativa filosofiska tankeexperiment, utan förankring i empiriska observationer.
    NN: Olle Häggström, det är rena spekulationer säger Moa Johansson här.

    OH: Det känns inte som att hon har en riktigt aktuell bild av hur AI-riskforskningen ser ut. För tio år sedan så hade det legat ganska mycket i den här bilden. Då dominerades forskningen av tankeexperiment, abstrakta modeller, och så vidare, som man tänkte kring. Men vad som hände då, det var att AI-riskforskare förutspådde med hjälp av de här modellerna att AI-system kan komma att utveckla självbevarelsedrift, och bete sig lögnaktigt och manipulativt, och motstå försök att stänga av dem, och sådana saker. Och de här grejerna, de observerar vi nu, i den ena efter den andra av empiriska studier. Så det här är exempel på de data som man faktiskt börjar se nu. Det finns andra data, som handlar om hur snabbt AI-utvecklingen går, och som ger möjlighet att extrapolera in i framtiden. Ingenting här är säkert, men när man extrapolerar en trend, och den går i alarmerande riktning, då behöver man i alla fall ta den på allvar menar jag.

    NN: Moa Johansson, jag vill fråga dig: det här, för oss som inte kan så mycket om det här så är det här väldigt konstigt ändå att ni som kan jättemycket om AI landar i så här helt olika slutsatser. Vad tänker du om det, att ni forskare tycker så här olika om en så otroligt viktig fråga?

    MJ: Jag vill då påpeka att som Olle säger att jag inte följt med i någon AI-risklitteratur så tänker jag att Olle Häggström kanske inte ändå har följt med tillräckligt djupt in i den tekniska litteraturen, för då skulle han kunna känna igen att de här scenarierna som han nämner, att AI inte vill bli avstängd, och så vidare, det finns ingen grund för det. Det är, återigen, spekulationer och hype. Man måste skilja på det som är kanske hype, ren reklam från vissa AI-företag som vill släppa en spektakulär pressrelease. Men det stämmer helt enkelt inte att det finns några empiriska fakta att AI-system inte skulle vilja bli avstängda. När man talar om stora språkmodeller, som producerar text, så kan man få en stor språkmodell att säga väldigt mycket olika saker, "jag vill inte bli avstängd", och det beror ju på att stora språkmodeller är tränade på data från internet. På internet finns även alla de här science fiction-historierna som har cirkulerat sedan AI:s födelse. AI, maskinintelligens, är ett av de mest populära ämnena för science fiction, tillsammans med rymdresor.

Här avbröt Nike Nylander med meddelandet att tiden för vårt samtal dessvärre var ute. Jag vet inte om Moa Johansson avsiktligt spekulerade i om det här skulle bli sista ordet, men på det här visat slapp hon i alla fall få de förödande bristerna i sin argumentation påpekade. I annat fall hade jag kunnat lyfta fram någon eller några av följande punkter:
  • Det är såklart inte behagligt att få sin egen okunskap påpekad i direktsänd TV, men Moa Johansson bäddade själv för detta med sina svepande påståenden om ett forskningsområde som hon uppenbarligen blott har den allra ytligaste bekantskap med, och hennes tu quoque-svar är verkligen bisarrt. Hon påstår att mitt tal om hur man observerat olika slags adversariellt strategiskt agerande hos stora språkmodeller är grundlöst, och att jag skulle ha insett detta om blott jag hade "följt med tillräckligt djupt in i den tekniska litteraturen". Vad blir då hennes diagnos på exempelvis världens mest citerade AI-forskare Yoshua Bengio, eller på världens näst mest citrade AI-forskare tillika Nobelpristagare Geoffrey Hinton, när de säger samma sak som jag i denna fråga? Har inte heller dessa båda herrar "följt med tillräckligt djupt in i den tekniska litteraturen"? Här kan jag känna en impuls att be Moa Johansson att visa mig (och herrarna Bengio och Hinton) de referenser som bevisar att något AI-agerande av det slag vi här talar om inte föreligger. Men min impuls är så klart meningslös: några sådana referenser finns inte, och hennes påstående är gripet ur luften. Eller för att tolka henne en liten aning mer välvilligt: om man som Moa Johansson är förtjust i "stochastic parrots"-begreppet och hör frasen "LLMs are just stochastic parrots" tillräckligt ofta, så kan man till slut få för sig att inga nya emergenta fenomen kan uppstå ur detta papegojande,2 glömsk av att den saken motbevisats hundra gånger om de senaste åren.
  • Moa Johansson försöker påskina att den evidens jag avser för att AI inte vill3 bli avstängd består av yttranden AI gjort av typen "jag vill inte bli avstängd". Om det stannade vid det skulle jag gå med på att evidensen var tämligen svag, för vi vet ju alla att när någon säger sig vilja något kan det inte alltid tas at face value.4 Men som Johansson myckt väl vet går de AI-system man experimenterat med längre än så, och agerar för att undgå avstängning. En studie från Apollo Research från slutet av förra året visar t.ex. hur en AI som fått tillgång till dokumentation som tyder på att den kan komma att stängas av om den i tester uppvisar färdigheter på en viss nivå väljer5 att i testerna mörka dessa färdigheter. Och en nyare studie från Anthropic visar hur den i samma syfte6 (att undgå avstängning) vidtar åtgärder för att försöka7 utpressa sin ägare, och i ett extremt scenario till och med mörda denne.
  • Moa Johansson hävdar att det är till följd av science fiction-historier i träningsdata där fiktiva AI försöker undgå avstängning som vi ser något liknande i laboratorieförsök med existerande AI. Detta är en intressant spekulation, men tvärtemot Johanssons tvärsäkra formulering är det just en spekulation.8 Men ok, låt oss för resonemangets skull anta att spekulationen är korrekt. Kan vi då på Johanssons vis avfärda fenomenet? Hon tycks tro det, men som jag skriver om saken i min förra bloggpost: "AI:s förmågor är vad de är, [och] att förklara ett fenomen är inte liktydigt med att påvisa att det inte finns".9
  • När man vill stänga sitt sinne helt för evidens i oönskad riktning kan man, som en sista desperat åtgärd, hävda att evidensen är förfalskad, exempelvis för att skapa "reklam" och att kunna "släppa en spektakulär pressrelease". Uppenbarligen är det så Moa Johansson ser på ovan nämnda studier från Apollo och Anthropic. Att hon sjunkit så djupt i sin argumentation är ett tydligt tecken på hur ohållbar hennes position är.
Men inget av detta fick jag alltså tillfälle att påpeka i Aktuellt-sändningen.

Slutligen. Några av dem som hört av sig till mig efter att ha sett Aktuellt-inslaget har antytt att jag verkade arg. Med anledning härav vill jag understryka att jag absolut inte har något emot samtal och debatter med rejält delade meningar. Så länge alla inblandade håller sig till intellektuellt hederlig argumentation är allt gott och väl, men när någon avviker alltför flagrant från det händer det att min sinnesstämning förmörkas en smula, och detta gäller i extra hög grad när det är en universitetsforskarkollega som förfaller till demagogi och oredlighet. Det kan ha varit något av detta som tv-tittarna anade bakom mitt ack så dåliga pokerface.

Fotnoter

0) Se även Jonas von Essens reflektioner om samma Aktuellt-debatt, i hans pinfärska artikel Riskerna med AI låter som science fiction - men går inte att vifta bort i Ny Teknik.

1) Jag ber läsaren ha översende med vilket slarvigt och ostrukturerat intryck talat språk nästan alltid ger så snart det sätts på pränt.

2) Denna bisarra tanke - analog med med att hävda att eftersom min hjärna blott består av atomer och elementarpartiklar så kan ingen tanke emergera i min hjärna som går bortom det själlösa och triviala interagerandet mellan elementarpartiklar - är dessvärre nödvändig för att ge talet om stokastiska papegojor någon som helst argumentativ stuns.

3) Här är det möjligt att inleda en semantisk diskussion om ordet "vill", och hävda att vilja är ett exklusivt mänskligt fenomen och att det därför är ett kategorifel att diskutera vilja hos en AI. Den sortens direkt cirkulära argument för att underkänna AI:s olika kompetenser per definition är jag dock inte intresserad av. När jag talar om "vilja" i detta sammanhang är det i behavioristisk mening: en AI:s vilja att uppnå något utfall U är de informations- och beräkningsstrukturer i AI:n inre som får dem att agera för att U skall inträffa - oavsett i vad mån dessa strukturer liknar eller skiljer sig från motsvarande hjärnverksamhet hos en människa som vill U. (Det finns flera goda skäl till ett sådant språkbruk, varav ett i AI-risksammanhang särskilt relevant är att det primärt viktiga ur AI-risksynpunkt är hur en AI agerar snarare än hur människolika dess inre maskinerier är.) Vän av ordning som anser att mitt bruk av ordet är en olämplig antropomorfism är välkommen att föreställa sig att jag istället för "vilja" och "vill" skriver "schvilja" och "schvill", samt på motsvarande sätt skriver "schönskan", "schpreferens", "schresonemang", "schkunskap", "schförståelse", och så vidare, men jag avstår helst från dessa fula och i längden tröttsamma sch-prefix.

4) Som när en byråkrat eller en kollega säger "Jag skulle såklart gärna vilja hjälpa dig, men...".

5) Schväljer.

6) Schyfte.

7) Schförsöker. Äh, ni fattar grejen vid det här laget, väl?

8) Ett fullt möjligt, om än dyrt, sätt att testa av hur mycket det ligger i denna spekulation vore att jämte, säg, GPT-5, träna en parallell modell på exakt samma sätt men med den enda skillnaden att sådana science fiction-historier tvättats bort från träningsdatamängden, och se vilken skillnad man kan uppmäta i modellernas tendens till självbevarelsedrift. Gissningsvis finns smartare sätt att testa detta, och jag skulle vara mycket intresserad av att få se resultatet. Moa Johansson däremot hyser knappast något sådant intresse, eftersom hon uppenbarligen anser sig veta svaret på förhand.

9) Jag kan inte föreställa mig annat än att Moa Johansson, som förberedelse för vår Aktuellt-debatt, hade läst min bloggpost. Men trots att jag där alltså påpekar det uppenbart felaktiga i hennes argumentation drar hon sig inte för att helt skamlöst dra samma vals igen för SVT:s tittare.

måndag 10 februari 2025

Back from Paris

The so-called AI Action Summit1 takes place today and tomorrow in Paris, but I am back home after the inaugural meeting of the International Association for Safe and Ethical AI that took place there last week. Much was said at our meeting that I would wish for the world leaders at the Summit to pick up on, but if I had to single out just one sentence, it would be the following, said by the organization's president pro tempore Stuart Russell in his closing address:
    It is entirely reasonable for governments to impose safety requirements that manufacturers cannot meet.
Read it, and read it again, and upon a moment's thought you will find it utterly obvious. Safety requirements are safety requirements. Yet, so much of contemporary AI governance discussion seems to implicitly rest on its negation.

Stuart Russell's talk can be found here, beginning 03:35:50 into the video. Other notable talks were given by Yoshua Bengio, Anca Dragan, Geoffrey Hinton, Maria Ressa, Joseph Stiglitz and Max Tegmark. These and many others are available in the videos collected here. I especially recommend Bengio's talk, beginning 17:00 into this video.

Footnote

1) The name change, compared to the 2023 AI Safety Summit led by Rishi Sunak at Bletchley Park in the UK, is unfortunate. You can still protest!

tisdag 3 september 2024

The urgent need for AI safety: three videos

Today I would like to recommend three videos highlighting the importance of AI safety from various perspectives.

First, Yoshua Bengio. He is a professor at the Université de Montréal and widely held as one of the world's two or three most respected AI researchers. Yesterday (September 2), he spoke at the Royal Swedish Acadamy of Engineering Sciences (IVA). Since early 2023, Bengio has been outspoken about the urgent need to address existential AI risk and AI safety, and this was also the focus of his talk yesterday:

The talk is nontechnical, very clearly laid out and quite crisp: it begins about 13:20 into the unedited video and goes on until about 36:10. After that follows a long and fairly enlightening discussion with Fredrik Heintz, who is a bit of a key player in the Swedish AI ecosystem, being a professor at Linköping University, a long-time preident of the Swedish AI Society, and a member of the AI commission launched by the Swedish government in December last year. I've had a number of interactions with Fredrik over the last few years, in media and elsewhere, and on these occasions he never came across as particularly interested in the need to save humanity from AI catastrophe. This time, however, he engaged so seriously with what Bengio had to say about the topic that I take it as a highly welcome shift in his position towards a better appreciation of AI safety concerns. Well done, Fredrik!

While Bengio's talk works well as a first introduction for a beginner to the fields of AI risk and AI safety, I feel that an even better such introduction may be Robert Miles' recent video AI ruined my year. Unlike Bengio, Miles is not primarily an AI researcher but a very skilled communicator and popularizer of some of the field's key ideas. The video is a summary of the past year's dramatic unfolding of some key AI events, and a touchingly personal recollection of how these have forced him into some pretty deep soul searching:1

Finally, here's a third video - please bear with me, because it's just 11 seconds long - where a famous clip with Gary Oldman in the movie Léon is efficiently exploited in order to make a key point to US presidential candidate Kamala Harris:

Footnote

1) These are the key qualities for which I recommend Miles' video. The fact that my name is visible in it for a split second plays little or no role in this.

torsdag 2 november 2023

En intensiv vecka i AI-politiken

Det är ännu bara torsdag, men ändå har mer hänt denna vecka i fråga om statliga och mellanstatliga AI-politiska initiativ än vi normalt ser på... jag vet inte ens vad jag skall klämma till med för tidsrymd här, för det politiska intresset för AI-frågor är ju så nyvaket att det inte finns något steady state att relatera ordet "normalt" till. De två stora händelser jag har i åtanke är följande.
  • I måndags: President Bidens direktiv om Safe, Secure, and Trustworthy Artificial Intelligence.
  • Igår och idag: Den första globala AI Safety Summit, på Bletchley Park och med Storbritanniens prämiärminister Rishi Sunak som initiativtagare och värd, samt deltagande såväl av toppolitiker (med Kamala Harris och Ursula von der Leyen i spetsen) som av AI- och teknikbranschprofiler (Yoshua Bengio, Geoffrey Hinton, Sam Altman, Elon Musk, ...).
Redan igår, på Bletchley Park-mötets första dag, släppte de sin Bletchley Declaration, undertecknad av företrädare för EU, USA, Kina, Indien, Storbritanninen och en rad andra länder, och med formueringar som denna:
    There is potential for serious, even catastrophic, harm, either deliberate or unintentional, stemming from the most significant capabilities of [frontier] AI models. Given the rapid and uncertain rate of change of AI, and in the context of the acceleration of investment in technology, we affirm that deepening our understanding of these potential risks and of actions to address them is especially urgent.
I Bidens presidentorder finns tal om krav på...
    companies developing any foundation model that poses a serious risk to national security, national economic security, or national public health and safety must notify the federal government when training the model, and must share the results of all red-team safety tests. These measures will ensure AI systems are safe, secure, and trustworthy before companies make them public,
där jag gärna vill tänka mig att "national security, national economic security, or national public health and safety" är ett slags placeholder för "existential risk to humanity" som ännu inte riktigt får plats inom Overtonförnstret på denna politiska nivå.

Fastän båda dokumenten är utspädda med tal om AI-frågor av jämförelsevis sekundär betydelse, och fastän det i båda fallen inte handlar om något med status av reglering eller bindande avtal utan blott avsiktsförklaringar och storstilade ambitioner, så ser jag de ovan citerade formuleringarna som ett bevis på hur otroligt långt vi under 2023 har lyckats flytta Overtonförnstret för publika AI-diskussioner, där jag menar att de båda öppna brev jag i våras var med och undertecknade (det som organiserades av FLI i mars och det av CAIS i maj) har haft en icke oväsentlig betydelse. Trots den remarkabelt snabba omsvängningen i diskussionsklimatet känner jag ändå en kvardröjande oro om att det kanske inte går snabbt nog för att hinna avvärja katastrof, men en vecka som denna kan jag inte annat än känna mig gladare och hoppfullare än veckan innan.

Jag har inte hunnit smälta dokumentens innehåll tillräckligt för att kommentera dem mer i detalj, men vad gäller Bidens presidentorder har den ständigt läsvärde och gedigne Zvi Mowshowitz varit snabbt på plats med två utförliga texter som jag i stora drag är böjd att instämma i: On the executive order och Reactions to the executive order. Om jag känner honom rätt så kan vi inom någon dag eller två vänta oss en ungefär lika ambitiös reaktion från honom på Bletchley-deklarationen.

Jag vill passa på att nämna att jag som engagerad åskådare till Bletchley Park-mötet gjort min stämma hörd i ett par sammanhang:

Edit 8 november 2023: Nu finns den förutskickade texten av Zvi Mowshowitz om Bletchley Park-mötet.