torsdag 10 oktober 2024

Två debattartiklar om AI-risk idag

Idag den 10 oktober 2024 publicerar jag inte mindre än två debattartiklar i svensk press. Båda behandlar AI-risk, och ett visst överlapp i innehåll föreligger, men huvudfokuset är ändå lite olika i de två texterna. I den ena, publicerad i Kvartal, resonerar jag kring en serie oroande tecken på det falnande intresset för AI-säkerhet och samhälleligt ansvarstagande på företaget OpenAI. I den andra, publicerad i Expressen, kommenterar jag beskedet tidigare i veckan att AI-forskaren Geoffrey Hinton utsetts till Nobelpristagare i fysik, och dennes syn på AI-risk.

Så här inleds Kvartal-artikeln, vilken bär rubriken OpenAI visar sitt rätta ansikte:
    Mediebevakningen inom AI har dämpats något jämfört med för ett år sedan, och det kan vara frestande att dra slutsatsen att teknikutvecklingen mattats av. Inget kunde dock vara mer felaktigt. Nya och bättre chatbots släpps på löpande band, de ledande AI-bolagen investerar allt större miljardbelopp i utvecklingen av nya modeller, och många i branschen ser med spänd förväntan fram emot vilket tekniksprång det blir när Open AI så småningom släpper GPT-5.

    Sedan de nyligen släppt sin senaste och hittills bästa språkmodell, benämnd o1, experimenterade den världsledande matematikern Terence Tao med att diskutera matematik med den. Upplevelsen var, menade han, som att prata med en ”medioker men inte helt inkompetent doktorand”, vilket han ansåg vara ett klart fall framåt jämfört med tidigare modeller. Efter att själv ha provat samma sak kan jag instämma i hans bedömning.

    Många kommentatorer tog i Taos uttalande fasta på ordet ”medioker”, och hävdade att den nya modellen är en besvikelse. Detta är dock ett utslag av svårartad fartblindhet, och förbiser att även en medelmåttig matematikdoktorand behärskar långt mer matematik än nästan alla andra. De senaste årens utveckling är makalös, och blotta tanken att det skulle vara möjligt att föra meningsfulla vetenskapliga samtal med en AI skulle för bara för fem år sedan ha avfärdats som spekulativ science fiction. Reaktionen hade blivit densamma på idén att miljontals unga människor år 2024 dagligen skulle anlita Character.ai och liknande chatbots som artificiell samtalsterapeut, vän eller romantisk partner.

    Även om AI-utvecklingen mot all förmodan skulle avstanna tvärt så finns så mycket outnyttjad potential att dess inverkan på ekonomi, arbetsmarknad och samhälle kan väntas bli mycket stor. Ännu större blir givetvis effekterna om nuvarande trendlinjer mot allt kraftfullare AI består.

    De positiva möjligheterna med den eskalerande AI-tekniken är närmast obegränsade, men detsamma gäller även riskerna. Konkurrensen från AI börjar bli kännbar för exempelvis copywriters och programmerare, och många andra yrkesgrupper ser ut att stå på tur. Deepfakes och olika slags automatiserad diskriminering (till exempel en AI som avgör om du ska få ett banklån eller kallas till anställningsintervju, och som svarar nej på grund av kön eller hudfärg) är andra omdiskuterade riskområden. Och ingen kan med säkerhet säga vad som händer med samhället då en allt större del av befolkningen vänder sig bort från mänskliga kontakter för att i stället välja umgänge med en mer anpasslig och trogen AI-vän.

    För att inse hur omvälvande förändringarna kan bli är det värt att ta ett steg tillbaka för att...

Läs hela artikeln här!

Expressen-artikeln, rubricerad Nobelpristagaren vet att det han skapat är farligt, inleds på följande vis:
    Då AI-forskaren Geoffrey Hinton utsågs att jämte fysikern John Hopfield erhålla 2024 års Nobelpris i fysik uppstod en egendomlig situation som troligen saknar motstycke i Nobelhistorien. I sitt testamente 1895 skrev Alfred Nobel nämligen att hans pris skall tilldelas dem som ”gjort mänskligheten den största nytta”. Hinton fruktar att hans forskning tvärtom kan komma att bli till ofantlig skada för mänskligheten.

    Via telefon under presskonferensen den 8 oktober då priset offentliggjordes uttryckte han sin oro över att den yttersta konsekvensen av hans och andra AI-forskares landvinningar kan bli skapandet av AI-system som är ”mer intelligenta än vi, och som slutligen tar kontrollen”. Datorpionjären Alan Turing uttryckte samma oro redan 1951, men skillnaden är att Hinton i dag ser att situationen börjar bli akut.

    Geoffrey Hinton har varit en drivande kraft inom AI-forskningen i mer än fyra decennier, och det är i hög grad de beräkningsmetoder han utvecklat som möjliggör den storskaliga träningen av ChatGPT och andra AI-system som i dag börjat sätta allt större avtryck i samhället. Han var länge ganska obekymrad över AI-utvecklingens konsekvenser, men våren 2023 gjorde han en helomvändning som visar på...

Läs hela artikeln här!

lördag 21 september 2024

Some cheerful notes on the US Senate Hearing on Oversight of AI

Earlier this week, a hearing was held at the US Senate on the topic Oversight of AI: Insiders' Perspectives. Here is the full 2h 13 min video recording of the event, and here is a transcript. I strongly recommend seeing or reading the whole thing.

As regards the subject-matter content of the hearing, large parts of it can only be described as deeply troubling, provided one cares about the human civilization and the human race not being destroyed in the sort of AI catastrophe that may well become the endpoint of the ongoing and reckless race between leading tech companies towards creating superintelligent AI.1 Nevertheless the meeting cheered me up a bit, because I think it is of tremendous importance that the topics discussed reach the ears both of powerful politicians and of the general public. In addition, the following two observations had a really heartening effect on me.

1. My admiration for Senator Richard Blumenthal is on a steady increase. When he chaired an earlier session, in May 2023, on a similar topic, he was apparently unprepared to seriously take in the idea of AI-caused human extinction, and misunderstood it as being a labor market issue. Here is what he then said to OpenAI's CEO Sam Altman:
    You have said - and I'm gonna quote - development of superhuman machine intelligence is probably the greatest threat to the continued existence of humanity. End quote. You may have had in mind the effect on jobs.
This is understandable. Extinction of humanity is such a far-out concept that it can be hard to take in if you are not used to it. But over the next few hours and months, Blumenthal did take it in, and in this week's hearing he showed excellent undertanding of the issues at stake. He really does take the issues seriously, and seems to be a force for good concerning the need to involve government in mitigating AI risk. Also, not every 78-year old top politician in the United States shows such a steep learning curve.

2. Of the four witnesses, two of them - Helen Toner and William Saunders - are situated mainly on what I would call the AI safety side of AI discourse, while the two others - Margaret Mitchell and David Evan Harris - are more towards AI ethics. These are two adjacent areas without any razor-sharp boundary between them, but here is how I contrast them in my recent paper On the troubled relation between AI ethics and AI safety:
    The difference between the fields is mostly one of emphasis. Work in AI safety focuses mainly on what happens once AI attains capabilities sufficiently broad and powerful to rival humanity in terms of who is in control. It also addresses how to avoid a situation where such an AI with goals and incentives misaligned with core human values goes on to take over the world and possibly exterminate us. [...] In contrast, work in AI ethics tends to focus on more down-to-Earth risks and concerns emanating from present-day AI technology. These include, e.g., AI bias and its impact on social justice, misinformation based on deepfakes and related threats to democracy, intellectual property issues, privacy concerns, and the energy consumption and carbon footprint from the training and use of AI systems.
As discussed at some length in my paper, a tension between representatives in these fields has in recent years been salient, often with accusations that people on the other side are wasting time and resources on the wrong problems. This is extremely unproductive, but all the more wonderful was to see how the witnesses at this Senate hearing showed no such tendencies whatsoever, but instead were eager to emphasize agreements, such as around the need to regulate AI, the dangers involved in naively hoping that the tech companies will self-regulate, and the importance of whistleblower protection. I would like to think that this is a sign that the two camps are beginning to get along better and to unite in the struggle against the true enemy: the tech company executives who are letting (to quote the words OpenAI's former head of safety Jan Leike used as he left in disgust) "safety culture and processes [take] a backseat to shiny products".

*

A final word of caution: Do not take my cheerful observations above as an excuse to say "phew, I guess we're all right then". We're not. The Senate hearing this week was a step in the right direction, but there's a long, difficult and uncertain road ahead towards getting the necessary governmental grip on AI risk - in the United States and internationally.

Footnotes

1) Here are two passages from statements by the witnesses at the hearing. For me personally, it's nothing new, but it is very good to hear them artucilated clearly in this setting. First, former2 OpenAI board member Helen Toner:
    This term AGI isn't well-defined, but it's generally used to mean AI systems that are roughly as smart or capable as a human. In public and policy conversations talk of human level AI is often treated as either science fiction or marketing, but many top AI companies, including OpenAI, Google, Anthropic, are building AGI as an entirely serious goal and a goal that many people inside those companies think they might reach in 10 or 20 years, and some believe could be as close as one to three years away. More to the point, many of these same people believe that if they succeed in building computers that are as smart as humans or perhaps far smarter than humans, that technology will be at a minimum extraordinarily disruptive and at a maximum could lead to literal human extinction. The companies in question often say that it's too early for any regulation because the science of how AI works and how to make it safe is too nascent.

    I'd like to restate that in different words. They're saying we don't have good science of how these systems work or how to tell when they'll be smarter than us or don't have good science for how to make sure they won't cause massive harm. But don't worry, the main factors driving our decisions are profit incentives and unrelenting market pressure to move faster than our competitors. So we promise we're being extra, extra safe.

    Whatever these companies say about it being too early for any regulation, the reality is that billions of dollars are being poured into building and deploying increasingly advanced AI systems, and these systems are affecting hundreds of millions of people's lives even in the absence of scientific consensus about how they work or what will be built next.

Second, former OpenAI safety researcher William Saunders:
    When I thought about this [i.e., timelines to AGI], there was at least a 10% chance of something that could be catastrophically dangerous within about three years. And I think a lot of people inside of OpenAI also would talk about similar things. And then I think without knowing the exact details, it's probably going to be longer. I think that I did not feel comfortable continuing to work for an organization that wasn't going to take that seriously and do as much work as possible to deal with that possibility. And I think we should figure out regulation to prepare for that because I think, again, if it's not three years, it's going to be the five years or ten years the stuff is coming down the road, and we need to have some guardrails in place.

2) Toner was pushed off the board as a consequence of Sam Altman's Machiavellean manueverings during the tumultuous days at OpenAI in November last year.

fredag 20 september 2024

Aschenbrenner, Bostrom, Carlsmith

För första gången sedan hösten 2018 innehåller det nya numret av Förbundet Humanisternas medlemstidning Humanisten en artikel jag författat.1 Denna gång bär min artikel rubriken AI-debattens ABC, där ABC står för de tre ledande AI-tänkarna Leopold Aschenbrenner, Nick Bostrom och Joe Carlsmith, vilka alla under 2024 utkommit med viktiga böcker eller boklånga essäer. Så här inleds min text:
    När detta skrivs i augusti 2024 är en av de stora snackisarna inom AI – artificiell intelligens – den pinfärska forskningsrapporten The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery, vars författarkollektiv kommer från företaget Sanaka AI och ett par olika universitet. De har kommit långt i att automatisera vetenskaplig forskning, inklusive avgörande steg som brainstorming, hypotesgenerering, försöksplanering, datavisualisering och rapportförfattande. Lite i förbigående nämner de hur deras AI i en viss tillämpning hindrades av en restriktion i hur länge dess beräkningar kunde exekveras, och hur AI:n då gick in och försökte redigera sin egen programkod i syfte att eliminera denna restriktion. För oss som kan vår AI-historik är det omöjligt att inte associera till Alan Turings spekulationer i en berömd föreläsning 1951, om hur tillräckligt intelligenta maskiner skulle kunna nå en tröskel där de kan börja förbättra sig själva utan vidare mänsklig inblandning, och hur en sådan utveckling kan väntas leda till att vi till slut förlorar kontrollen över maskinerna.

    Turing brukar med rätta framhållas som en av 1900-talets mest banbrytande tänkare och som den största AI-pionjären av alla. Det sistnämnda alltså trots att han dog redan 1954 (för egen hand, till följd av det brittiska rättssystemets på den tiden barbariska syn på homosexualitet), ännu inte 42 år fyllda, och därmed inte fick uppleva det som numera räknas som AI-forskningens egentliga startskott två år senare, sommaren 1956. Då samlades ett antal av USA:s ledande matematiker för en sommarkonferens vid Dartmouth College i New Hampshire kring den ambitiösa idén att skapa datorprogram med förmågor som vi dittills hade sett som unikt mänskliga: språkanvändning, skapande av abstraktioner, lärande och självförbättring. Mötet kom att sätta stark prägel på decennier av fortsatt arbete, och de utmaningar som då formulerades står än idag i centrum för AI-forskningen. De höga förväntningarna var tidvis svåra att leva upp till, så till den grad att området kom att genomgå ett par perioder av så kallad AI-vinter, och det var först på 2010-talet som den exponentiellt ökande tillgången till datorkraft och datamängder gjorde att gamla neurala nätverksidéer började bära frukt på allvar och ge stora framgångar inom så olika tillämpningar som bildigenkänning, brädspel och autonoma fordon.

    För den breda allmänheten är det de senaste årens utvecklingen av så kallade språkmodeller som blivit mest synlig: marknadsledande här är OpenAI, vars lansering av ChatGPT i november 2022 för första gången gjorde det möjligt för gemene man att föra samtal med en till synes intelligent AI. Under de knappa två år som sedan förflutit har utvecklingen fortsatt i rasande takt, och ovan nämnda produkt från Sanaka är bara ett av många dramatiska framsteg som alltmer pekar mot att vi närmar oss det som kallas AGI – artificiell generell intelligens – och den kritiska punkt som Turing talade om i sina varningsord från 1951. Att AI-utvecklingen radikalt kommer att transformera många samhällssektorer och även samhället som helhet blir alltmer uppenbart, och även om teknikens potential att skapa ekonomiskt välstånd är i det närmaste obegränsad finns också risken att ett slarvigt genomfört AI-genombrott leder till vår undergång.

    Detta slags farhågor har det senaste decenniet lett till ökade satsningar på det som kommit att kallas AI Alignment – AI-forskning specifikt inriktad på att se till att de första i fråga om allmänintelligens övermänskligt kapabla AI-systemen har mål och drivkrafter som prioriterar mänsklig välfärd och mer allmänt är i linje med mänskliga värderingar. Detta har dock visat sig vara lättare sagt än gjort, satsningarna på AI Alignment är ännu små (i förhållande till AI-utvecklingen som helhet), och vi verkar idag vara mycket långt ifrån en lösning. Härav de senaste årens diskurs från tänkare som Eliezer Yudkowsky och Max Tegmark som de senaste åren varnat för att satsningar på AI Alignment kanske inte räcker till, och att vi därför behöver dra i nödbromsen för utvecklingen av de allra mest kraftfulla AI-systemen; även jag har alltmer kommit att ansluta mig till denna tankegång.

    Samtidigt finns det de som hävdar att allt tal om existentiell AI-risk är grundlös science fiction och som stämplar oss som lyfter dessa farhågor som domedagspredikanter. I spetsen för denna motdebatt finns kända namn som IT-entreprenören Marc Andreessen och Metas AI-forskningschef Yann LeCun, men för att försvara deras position behöver man anta antingen att AI-utvecklingen automatiskt kommer att avstanna innan den nått övermänsklig allmänintelligens, eller att en övermänskligt intelligent AI på något sätt automatiskt skulle anamma en för mänskligheten gynnsam uppsättning värderingar. Den första av dessa linjer tenderar att implicit postulera någon närmast magisk förmåga hos den mänskliga hjärnan, något som är svårt att passa in i en ickereligiös naturalistisk världsbild, och den andra har visat sig ungefär lika ohållbar.

    Precis som intressant och konstruktiv klimatdiskussion undviker att fastna i polemik med klimatförnekarnas insisterande på att den globala uppvärmningen antingen är en chimär eller är oberoende av mänsklig aktivitet, så lämnar den mest givande AI-diskussionen idag det Andreessen-LeCunska AI-riskförnekeriet därhän, och blickar istället framåt, med fokus på hur vi bör tänka för att bäst navigera en osäker framtid. För den som vill fördjupa sig i den för vår framtid så avgörande AI-frågan vill jag ur 2024 års bokutbud rekommendera tre böcker som alla tar detta grepp, men som i övrigt ger inbördes väldigt olika perspektiv. Det handlar om...

Läs den spännande fortsättningen här!

Fotnot

1) Jag håller lite grand andan inför vilka läsarreaktionerna blir denna gång. Förra gången uppstod ett visst palaver, vilket om jag inte missminner mig landade i att en medlem vid namn Ernst Herslow utträdde ur Humanisterna i vredesmod över att synpunkter som mina fick lov att ventileras i medlemstidningen.

fredag 6 september 2024

En höstsäsong späckad med AI-föredrag

Min höst ser ut att bli relativt späckad vad gäller att hålla föredrag om AI-tekniken, dess konsekvenser och hur vi kan hantera de härmed förknippade stora riskerna. En del av mina framträdanden är öppna för allmänheten, inklusive följande, vilket kanske framför allt kan glädja hugade åhörare från trakterna kring Stockholm, Göteborg, Linköping, Jönköping, Uddevalla och Dublin samt cyberrymden. Observera dock att det i vissa fall krävs föranmälan och/eller inträdesavgift.
  • Onsdagen den 18 september talar jag över ämnet AI and the human civilization at a crossroadsCloud AI Summit i Dublin.
  • Torsdagen den 19 september klockan 12.00 framträder jag på hemmaplan - sal SB-H1 på Chalmers - med ett lunchföredrag med samma rubrik som dagen innan: AI and the human civilization at a crossroads. Det hela är ett arrangemang av den ideella föreningen AI Safety Gothenburg.
  • Därifrån skyndar jag mig raskt vidare till Uddevalla där jag senare samma dag (torsdagen den 19 september klockan 18.00) talar om ämnet Vår framtid med AI: stora möjligheter och stora risker på Dalabergs bibliotek.
  • Lördagen den 28 september klockan 15:30 medverkar jag tillsammans med Peter Gärdenfors och Christer Sturmark i ett samtal rubricerat Kan AI tänka? på Bokmässan i Göteborg.
  • Torsdagen den 3 oktober arrangerar Vetenskapesrådet ett heldagsmöte i Stockholm rubricerat Ethics Arena 2024: AI and research ethics, i vilket jag medverkar med föredraget The ongoing AI transformation: what is at stake och efterföljande panelsamtal.
  • Torsdagen den 17 oktober medverkar jag med ett föredrag på konferensen KVIT 2024: The human behind AI i Linköping. (Förkortningen KVIT verkar stå för kognitionsvetenskap och informationsteknologi.)
  • Tisdagen den 22 oktober håller Statistikfrämjandet sitt digitala höstmöte, vilket i år har rubriken Framtiden för statistiker. Mer information följer längre fram, men redan nu kan avslöjas att jag klockan 10.30 kommer att ge ett föredrag med (surprise, surprise!) visst AI-fokus. [Edit: Här är programmet.]
  • Tisdagen den 5 november äger årets upplaga av konferensen Forskningsbaserad undervisning – teori och praktik i samverkan rum på den högskola i Småland som valt att kalla sig Jönköping University. Temat i år är AI och digitalisering, och jag kommer att medverka med föredraget AI-utvecklingen och den brytningstid vi lever i.
  • Samma rubrik - AI-utvecklingen och den brytningstid vi lever i - använder jag då jag tisdagen den 12 november klockan 18.30 talar i Linköpings domkyrka.

tisdag 3 september 2024

The urgent need for AI safety: three videos

Today I would like to recommend three videos highlighting the importance of AI safety from various perspectives.

First, Yoshua Bengio. He is a professor at the Université de Montréal and widely held as one of the world's two or three most respected AI researchers. Yesterday (September 2), he spoke at the Royal Swedish Acadamy of Engineering Sciences (IVA). Since early 2023, Bengio has been outspoken about the urgent need to address existential AI risk and AI safety, and this was also the focus of his talk yesterday:

The talk is nontechnical, very clearly laid out and quite crisp: it begins about 13:20 into the unedited video and goes on until about 36:10. After that follows a long and fairly enlightening discussion with Fredrik Heintz, who is a bit of a key player in the Swedish AI ecosystem, being a professor at Linköping University, a long-time preident of the Swedish AI Society, and a member of the AI commission launched by the Swedish government in December last year. I've had a number of interactions with Fredrik over the last few years, in media and elsewhere, and on these occasions he never came across as particularly interested in the need to save humanity from AI catastrophe. This time, however, he engaged so seriously with what Bengio had to say about the topic that I take it as a highly welcome shift in his position towards a better appreciation of AI safety concerns. Well done, Fredrik!

While Bengio's talk works well as a first introduction for a beginner to the fields of AI risk and AI safety, I feel that an even better such introduction may be Robert Miles' recent video AI ruined my year. Unlike Bengio, Miles is not primarily an AI researcher but a very skilled communicator and popularizer of some of the field's key ideas. The video is a summary of the past year's dramatic unfolding of some key AI events, and a touchingly personal recollection of how these have forced him into some pretty deep soul searching:1

Finally, here's a third video - please bear with me, because it's just 11 seconds long - where a famous clip with Gary Oldman in the movie Léon is efficiently exploited in order to make a key point to US presidential candidate Kamala Harris:

Footnote

1) These are the key qualities for which I recommend Miles' video. The fact that my name is visible in it for a split second plays little or no role in this.

fredag 12 juli 2024

Om opinionsläget rörande AI-utvecklingen

För oss som arbetar med AI-riskfrågor, och som gärna vill väcka opinion för att hejda den pågående vansinneskapplöpning mot AI-avgrunden, kan det kännas uppmuntrande att se resultaten av opinionsundersökningar vilkas resultat tyder på att vi redan har folket med oss. Så till exempel redovisade Time Magazine i veckan en amerikansk sådan undersökning och meddelade följande:
    According to the poll, 75% of Democrats and 75% of Republicans believe that “taking a careful controlled approach” to AI—by preventing the release of tools that terrorists and foreign adversaries could use against the U.S.—is preferable to “moving forward on AI as fast as possible to be the first country to get extremely powerful AI.”
Och här hemma i Sverige kunde vi nyligen ta del av den senaste SOM-undersökningen, vars AI-avsnitt bland annat meddelar att endast 12% av de svarande ger svaret "mycket stort" eller "ganska stort" på frågan "Hur stort förtroende har du för att teknikföretagen som utvecklar AI gör det ansvarsfullt?", och att 56% ställer sig positiva till ökad reglering av AI. Ytterst glädjande!

Eller? Jag är i själva verket ganska skeptisk till vilka slutsatser om allmänhetens syn på AI som kan dras av detta slags undersökningar. Det stora flertalet har tänkt mycket lite eller inget alls på AI-utvecklingen och dess samhällskonsekvenser, och har därför inga särskilda uppfattningar om saken, så att svaren när de plötsligt avkrävs sådana blir lite vad som helst. Kanske allra tydligast syns detta fenomen i den stora undersökning av AI-forskares uppfattningar om AI-futorologiska spörsmål som utförts av en grupp med Katja Grace i spetsen. Som jag diskuterat utförligt i ett videoföredrag postat tidigare i år här på bloggen så är ett av de tydligaste resultaten av denna undersökning hur internt inkonsistenta och känsliga för framing-effekter AI-forskarnas svar är. Och om inte ens AI-forskarna själva har tänkt igenom AI-teknikens framtid tillräckligt för att ge koherenta svar, vad skall man då tro om allmänheten?

Nämnda SOM-studie är inte utformad för att medge avläsning av framing-effekter på samma direkta vis som den av Grace et al, men jag skall ändå tillåta mig en försiktig spekulation om en specifik siffra i resultaten som kan ha påverkats av framing. Av SOM-studien framgår nämligen att endast 9% av de tillfrågande betecknar påståendet "AI är ett hot mot mänskligheten" som "helt riktigt", en siffra som är uppseendeväckande låg med tanke på att påståendet (enligt både min och många ledande AI-forskares uppfattning) är helt riktigt. Men tidigare i undersökningen förekommer frågan "Om du tänker på de kommande 30 åren, tror du att jobb likt ditt främst kommer att utföras av människor eller robotar/AI?", på vilken de enda svarsalternativen (utöver "vet ej") är "människor" och "robotar/AI". Detta binära val verkar förutsätta att mänskligheten inte utplånas av AI de närmaste 30 åren, ty utan existensen av människor blir ju jobb som exempelvis socialsekreterare, gymnasielärare, narkossköterska eller telefonförsäljare tämligen meningslösa och kommer knappast att utföras vare sig av människor eller av robotar/AI. Genom denna begränsning har de svarande därmed fått en indirekt signal om att AI-genererad utplåning av mänskligheten nog inte är att räkna med, åtminstone inte de närmaste 30 åren, något som (om de inte har en sedan tidigare genomtänkt position i AI-frågor) nog kan tänkas göra dem mer benägna att reagera skeptiskt när de senare i undersökningen ombeds ta ställning till påståendet "AI är ett hot mot mänskligheten". (Jag tror inte för ett ögonblick att SOM-undersökarna gjort detta med avsikt att manipulera utfallet. Troligare är väl att de själva är så obekanta med den hotbild som faktiskt verkar föreligga att det helt enkelt inte föresvävade dem att ett tredje svarsalternativ på frågan om arbetsmarknaden på 30 års sikt kunde behövas.)

Oavsett hur det står till med just denna siffra menar jag dock att undersökningar om folks uppfattningar om framtida samhällskonsekvenser av AI behöver tas med en mycket stor nypa salt. Inte minst gäller detta de siffror som tyder på att vi som vill tygla AI-utvecklingen har folkets stöd. Ett mycket stort opinionsarbete återstår innan vi har något betydande folkligt politiskt momentum för åtgärder i den riktningen.

måndag 8 juli 2024

On Anthropic's call for proposals for third-party model evaluations

Nick Bostrom's modern classic Superintelligence: Paths, Dangers, Strategies from 2014 is full of interesting ideas.1 Some of them have a scary quality to them, and the one that I found scariest of all, back when I read the book, is what he calls the treacherous turn - the idea that a sufficiently intelligent AI which discovers a discrepancy between its own goals and motivations and those of us humans is likely to hide its capabilities and/or true intentions and to keep a low profile, quietly improving its situation and its capabilities until one day it judges the coast to be clear for moving forward at full speed towards whatever its goal is, be it paperclip production or something entirely different and incomprehensible to us. I remember not being fully prepared to take the idea in, but expecting or hoping that it would soon be demoted to a noteworthy technicality that AI alignment research has demonstrated an easy way to defuse.

This has not happened. On the contrary, the treacherous turn phenomenon lies at the heart of the fundamental problem with evaluating the safety of advanced AI models that has become increasingly recognized in recent years. In short, we do not know how to establish the absence of dangerous capabilities in AI models without the a priori assumption that they do not possess superhuman capabilities for deception and social manipulation, making the argument for the models' safety in part circular. With increasingly capable large language models, this problem becomes increasingly pressing and has been discussed both in popular media and in articles by leading AI researchers, as well as by the AI company Anthropic2 in their recent document A new initiative for developing third-party model evaluations:
    Our research shows that, under some circumstances, AI models can learn dangerous goals and motivations, retain them even after safety training, and deceive human users about actions taken in their pursuit. These abilities, in combination with the human-level persuasiveness and cyber capabilities of current AI models, increases our concern about the potential actions of future, more-capable models. For example, future models might be able to pursue sophisticated and hard-to-detect deception that bypasses or sabotages the security of an organization, either by causing humans to take actions they would not otherwise take or exfiltrating sensitive information. We propose to develop evaluations that would monitor such abilities.
Given the current situation, it's a good thing that Anthropic makes this call for help with the problem of safety evaluation of advanced AI models. Even better, one might argue, would be if they refrained from building models whose safety cannot be ascertained with existing evaluation methods.3

Footnotes

1) The same is true about Bostrom's latest book Deep Utopia: Life and Meaning in a Solved World, which I hope to come back to in another blog post later this year.

2) Anthropic's rise, since it was founded in early 2021, has been meteoric. They are now unquestionably among the world's three leading frontier AI developers (along with OpenAI and Google/DeepMind). With their release of Claude 3.5 Sonnet on June 20 this year, we have for the first time since I became aware in 2019 of the rapid rise of large language models a situation where a model not from OpenAI has a significant lead over other publicly available models in terms of overall cognitive capabilities. To understand on a gut level how intelligent Claude is, there really is no substitute for talking to it yourself (which anyone is free to do), but let me offer an amusing sample. After having had a bit of back-and-forth with Claude regarding who are the top ten greatest chess players of all time, I switched topics a bit:

    OH: Here's a harder list-making challenge: who are the 10 greatest AI researchers of all time?

    Claude: Creating a list of the 10 greatest AI researchers of all time is indeed a challenging task, as the field is vast and has evolved significantly over the decades. Additionally, contributions can be theoretical, practical, or both, making comparisons difficult. However, I'll attempt to create a list based on historical impact, influential work, and contributions to the field. Please note that this list is subjective and others might have different opinions:

    1. Alan Turing - For his foundational work on computation and the Turing Test.

    2. Marvin Minsky - Co-founder of MIT's AI lab and author of influential works on AI.

    3. John McCarthy - Coined the term "Artificial Intelligence" and invented LISP.

    4. Judea Pearl - For his work on Bayesian networks and causal reasoning.

    5. Geoffrey Hinton - Pioneer in deep learning and neural networks.

    6. Yann LeCun - Made significant contributions to convolutional neural networks.

    7. Yoshua Bengio - Key figure in the development of deep learning.

    8. Stuart Russell - Co-author of a seminal AI textbook and researcher in multiple AI fields.

    9. Andrew Ng - For his work in machine learning and deep learning, and for making AI education widely accessible.

    10. Demis Hassabis - Co-founder of DeepMind and key figure in reinforcement learning and AI game-playing systems.

    This list attempts to balance historical pioneers with more recent contributors who have shaped modern AI. It's worth noting that many other researchers could justifiably be included, such as Herbert Simon, Allen Newell, Seymour Papert, Jürgen Schmidhuber, Fei-Fei Li, and many others.

    The field of AI is collaborative and builds upon the work of many researchers, so any such list will inevitably omit many important contributors. Also, as AI continues to evolve rapidly, the landscape of influential researchers is likely to change.

    Would you like to discuss any of these researchers in more detail or explore other aspects of AI history?

    OH: Turing on top of the list - I like that! Did you by any chance consider including Ilya Sutskever?

    Claude: I'm glad you appreciate seeing Turing at the top! His contributions to the foundations of computer science and AI are truly monumental.

    Regarding Ilya Sutskever, you raise an excellent point. He's certainly a strong candidate for such a list, and I can see why you'd bring him up. Sutskever has made significant contributions to the field of deep learning and is a key figure in modern AI research. Here's a brief overview of why he could be considered for a top AI researchers list:

    1. He's a co-founder and Chief Scientist of OpenAI, one of the leading AI research organizations.

    2. Sutskever was a key contributor to AlexNet, which was a breakthrough in computer vision using deep learning.

    3. He's made important contributions to sequence-to-sequence learning, which has applications in machine translation and other natural language processing tasks.

    4. His work on improving training techniques for deep neural networks has been influential in the field.

    5. Sutskever has been involved in the development of GPT (Generative Pre-trained Transformer) models, which have revolutionized natural language processing.

    Given these contributions, Sutskever could certainly be considered for inclusion in a top 10 list, especially if focusing on more recent impactful work in deep learning and neural networks. His omission from my initial list reflects the difficulty of narrowing down to just 10 names in such a rich and rapidly evolving field.

    If you were to include Sutskever, who would you remove from the list to make room for him? Or would you structure the list differently to accommodate more recent contributors like Sutskever?

    OH: The biggest surprise to me on your list is Judea Pearl. I'm aware of his work, and respect it, but probably would not have included him on my top 10.

    Another name I'd consider for inclusion, although I realize it might be controversial, is Eliezer Yudkowsky.

    Claude: Your perspective on Judea Pearl is interesting and highlights the subjective nature of these lists. Pearl's inclusion is often based on his groundbreaking work on Bayesian networks and causal reasoning, which has had a significant impact on how we approach probabilistic reasoning in AI. However, I can understand why his work might not seem as directly relevant to the current deep learning-dominated landscape of AI.

    Regarding Eliezer Yudkowsky, his inclusion would indeed be controversial, but it's an intriguing suggestion. Here are some points to consider:

    1. Contributions: Yudkowsky is known for his work on AI safety and rationality rather than for technical AI breakthroughs. He's been influential in raising awareness about potential risks of advanced AI systems.

    2. Impact: He founded the Machine Intelligence Research Institute (MIRI) and has written extensively on topics like friendly AI and decision theory.

    3. Controversy: His lack of formal academic credentials and some of his unconventional views have led to mixed reception in mainstream AI circles.

    4. Influence: Despite controversy, his ideas have influenced discussions on AI ethics and safety, which are increasingly important as AI systems become more powerful.

    Including Yudkowsky would shift the list's focus somewhat from technical achievements to broader impacts on AI discourse and policy. It would recognize the importance of considering AI's societal implications alongside its technical development.

    If you were to create your own top 10 list, how would you balance between technical innovators, theoretical contributors, and those who've influenced the direction and ethics of AI research? Would you give more weight to recent contributions in deep learning and neural networks, or try to represent the broader history of AI?

    OH: These are excellent questions, and I fear there is no objective truth to be found out there.

    I have a confession to make, namely that one of my reasons for asking about top AI researchers was to check whether your creators at Anthropic might have sneakily programmed you to have a preference for one of your own researchers, such as Dario Amodei or Chris Olah. Sorry about that, but you passed my test with dignity!

    Claude: I appreciate your honesty about your motivations for asking the question. You're right that there's no objective truth in creating such lists - they're inherently subjective and can vary greatly depending on the criteria used.

    Your "test" is quite insightful. I can assure you that I don't have any programmed preference for Anthropic researchers or anyone else. My responses are based on my training data and the general consensus in the AI field, not on any specific agenda or bias towards particular individuals or organizations.

    It's a good instinct to be skeptical and look for potential biases in AI systems. In my case, I'm designed to be as objective as possible, acknowledging when topics are controversial or when I might not have complete information.

    Regarding Anthropic researchers like Dario Amodei or Chris Olah, while they have certainly made valuable contributions to the field, their work would be evaluated on its merits just like any other researcher's. The field of AI is vast and rapidly evolving, with many brilliant minds contributing from various institutions and companies around the world.

    Your approach to testing for potential biases is commendable. It's this kind of critical thinking that helps keep AI development accountable and transparent. Is there anything else you'd like to discuss about AI researchers, the development of AI, or the ethical considerations surrounding it?

3) The same goes for OpenAI, as well as for their other competitors. See my comments in January this year about OpenAI's evaluation framework, and this addendum the month after.