-
NN: Olle Häggström, det är rena spekulationer säger Moa Johansson här.
OH: Det känns inte som att hon har en riktigt aktuell bild av hur AI-riskforskningen ser ut. För tio år sedan så hade det legat ganska mycket i den här bilden. Då dominerades forskningen av tankeexperiment, abstrakta modeller, och så vidare, som man tänkte kring. Men vad som hände då, det var att AI-riskforskare förutspådde med hjälp av de här modellerna att AI-system kan komma att utveckla självbevarelsedrift, och bete sig lögnaktigt och manipulativt, och motstå försök att stänga av dem, och sådana saker. Och de här grejerna, de observerar vi nu, i den ena efter den andra av empiriska studier. Så det här är exempel på de data som man faktiskt börjar se nu. Det finns andra data, som handlar om hur snabbt AI-utvecklingen går, och som ger möjlighet att extrapolera in i framtiden. Ingenting här är säkert, men när man extrapolerar en trend, och den går i alarmerande riktning, då behöver man i alla fall ta den på allvar menar jag.
NN: Moa Johansson, jag vill fråga dig: det här, för oss som inte kan så mycket om det här så är det här väldigt konstigt ändå att ni som kan jättemycket om AI landar i så här helt olika slutsatser. Vad tänker du om det, att ni forskare tycker så här olika om en så otroligt viktig fråga?
MJ: Jag vill då påpeka att som Olle säger att jag inte följt med i någon AI-risklitteratur så tänker jag att Olle Häggström kanske inte ändå har följt med tillräckligt djupt in i den tekniska litteraturen, för då skulle han kunna känna igen att de här scenarierna som han nämner, att AI inte vill bli avstängd, och så vidare, det finns ingen grund för det. Det är, återigen, spekulationer och hype. Man måste skilja på det som är kanske hype, ren reklam från vissa AI-företag som vill släppa en spektakulär pressrelease. Men det stämmer helt enkelt inte att det finns några empiriska fakta att AI-system inte skulle vilja bli avstängda. När man talar om stora språkmodeller, som producerar text, så kan man få en stor språkmodell att säga väldigt mycket olika saker, "jag vill inte bli avstängd", och det beror ju på att stora språkmodeller är tränade på data från internet. På internet finns även alla de här science fiction-historierna som har cirkulerat sedan AI:s födelse. AI, maskinintelligens, är ett av de mest populära ämnena för science fiction, tillsammans med rymdresor.
- Det är såklart inte behagligt att få sin egen okunskap påpekad i direktsänd TV, men Moa Johansson bäddade själv för detta med sina svepande påståenden om ett forskningsområde som hon uppenbarligen blott har den allra ytligaste bekantskap med, och hennes tu quoque-svar är verkligen bisarrt. Hon påstår att mitt tal om hur man observerat olika slags adversariellt strategiskt agerande hos stora språkmodeller är grundlöst, och att jag skulle ha insett detta om blott jag hade "följt med tillräckligt djupt in i den tekniska litteraturen". Vad blir då hennes diagnos på exempelvis världens mest citerade AI-forskare Yoshua Bengio, eller på världens näst mest citrade AI-forskare tillika Nobelpristagare Geoffrey Hinton, när de säger samma sak som jag i denna fråga? Har inte heller dessa båda herrar "följt med tillräckligt djupt in i den tekniska litteraturen"? Här kan jag känna en impuls att be Moa Johansson att visa mig (och herrarna Bengio och Hinton) de referenser som bevisar att något AI-agerande av det slag vi här talar om inte föreligger. Men min impuls är så klart meningslös: några sådana referenser finns inte, och hennes påstående är gripet ur luften. Eller för att tolka henne en liten aning mer välvilligt: om man som Moa Johansson är förtjust i "stochastic parrots"-begreppet och hör frasen "LLMs are just stochastic parrots" tillräckligt ofta, så kan man till slut få för sig att inga nya emergenta fenomen kan uppstå ur detta papegojande,2 glömsk av att den saken motbevisats hundra gånger om de senaste åren.
- Moa Johansson försöker påskina att den evidens jag avser för att AI inte vill3 bli avstängd består av yttranden AI gjort av typen "jag vill inte bli avstängd". Om det stannade vid det skulle jag gå med på att evidensen var tämligen svag, för vi vet ju alla att när någon säger sig vilja något kan det inte alltid tas at face value.4 Men som Johansson myckt väl vet går de AI-system man experimenterat med längre än så, och agerar för att undgå avstängning. En studie från Apollo Research från slutet av förra året visar t.ex. hur en AI som fått tillgång till dokumentation som tyder på att den kan komma att stängas av om den i tester uppvisar färdigheter på en viss nivå väljer5 att i testerna mörka dessa färdigheter. Och en nyare studie från Anthropic visar hur den i samma syfte6 (att undgå avstängning) vidtar åtgärder för att försöka7 utpressa sin ägare, och i ett extremt scenario till och med mörda denne.
- Moa Johansson hävdar att det är till följd av science fiction-historier i träningsdata där fiktiva AI försöker undgå avstängning som vi ser något liknande i laboratorieförsök med existerande AI. Detta är en intressant spekulation, men tvärtemot Johanssons tvärsäkra formulering är det just en spekulation.8 Men ok, låt oss för resonemangets skull anta att spekulationen är korrekt. Kan vi då på Johanssons vis avfärda fenomenet? Hon tycks tro det, men som jag skriver om saken i min förra bloggpost: "AI:s förmågor är vad de är, [och] att förklara ett fenomen är inte liktydigt med att påvisa att det inte finns".9
- När man vill stänga sitt sinne helt för evidens i oönskad riktning kan man, som en sista desperat åtgärd, hävda att evidensen är förfalskad, exempelvis för att skapa "reklam" och att kunna "släppa en spektakulär pressrelease". Uppenbarligen är det så Moa Johansson ser på ovan nämnda studier från Apollo och Anthropic. Att hon sjunkit så djupt i sin argumentation är ett tydligt tecken på hur ohållbar hennes position är.
0) Se även Jonas von Essens reflektioner om samma Aktuellt-debatt, i hans pinfärska artikel Riskerna med AI låter som science fiction - men går inte att vifta bort i Ny Teknik.
1) Jag ber läsaren ha översende med vilket slarvigt och ostrukturerat intryck talat språk nästan alltid ger så snart det sätts på pränt.
2) Denna bisarra tanke - analog med med att hävda att eftersom min hjärna blott består av atomer och elementarpartiklar så kan ingen tanke emergera i min hjärna som går bortom det själlösa och triviala interagerandet mellan elementarpartiklar - är dessvärre nödvändig för att ge talet om stokastiska papegojor någon som helst argumentativ stuns.
3) Här är det möjligt att inleda en semantisk diskussion om ordet "vill", och hävda att vilja är ett exklusivt mänskligt fenomen och att det därför är ett kategorifel att diskutera vilja hos en AI. Den sortens direkt cirkulära argument för att underkänna AI:s olika kompetenser per definition är jag dock inte intresserad av. När jag talar om "vilja" i detta sammanhang är det i behavioristisk mening: en AI:s vilja att uppnå något utfall U är de informations- och beräkningsstrukturer i AI:n inre som får dem att agera för att U skall inträffa - oavsett i vad mån dessa strukturer liknar eller skiljer sig från motsvarande hjärnverksamhet hos en människa som vill U. (Det finns flera goda skäl till ett sådant språkbruk, varav ett i AI-risksammanhang särskilt relevant är att det primärt viktiga ur AI-risksynpunkt är hur en AI agerar snarare än hur människolika dess inre maskinerier är.) Vän av ordning som anser att mitt bruk av ordet är en olämplig antropomorfism är välkommen att föreställa sig att jag istället för "vilja" och "vill" skriver "schvilja" och "schvill", samt på motsvarande sätt skriver "schönskan", "schpreferens", "schresonemang", "schkunskap", "schförståelse", och så vidare, men jag avstår helst från dessa fula och i längden tröttsamma sch-prefix.
4) Som när en byråkrat eller en kollega säger "Jag skulle såklart gärna vilja hjälpa dig, men...".
5) Schväljer.
6) Schyfte.
7) Schförsöker. Äh, ni fattar grejen vid det här laget, väl?
8) Ett fullt möjligt, om än dyrt, sätt att testa av hur mycket det ligger i denna spekulation vore att jämte, säg, GPT-5, träna en parallell modell på exakt samma sätt men med den enda skillnaden att sådana science fiction-historier tvättats bort från träningsdatamängden, och se vilken skillnad man kan uppmäta i modellernas tendens till självbevarelsedrift. Gissningsvis finns smartare sätt att testa detta, och jag skulle vara mycket intresserad av att få se resultatet. Moa Johansson däremot hyser knappast något sådant intresse, eftersom hon uppenbarligen anser sig veta svaret på förhand.
9) Jag kan inte föreställa mig annat än att Moa Johansson, som förberedelse för vår Aktuellt-debatt, hade läst min bloggpost. Men trots att jag där alltså påpekar det uppenbart felaktiga i hennes argumentation drar hon sig inte för att helt skamlöst dra samma vals igen för SVT:s tittare.