Häggström hävdar

fredag 28 juni 2024

On optimism and pessimism standing at the brink of the great AI breakthrough

Sometimes in discussions about technology, the term techno-optimism is reserved for the belief that technology will develop rapidly, while techno-pessimism is used for the belief that it will move slowly or come to a halt. This is not the meaning of optimism and pessimism intended here. Throughout this blog post, the terms will refer to beliefs about consequences of this technology: are they likely to be good or to be bad?

Last time I wrote about the concepts of optimism and pessimism in the context of future AI advances and their ramifications, way back in 2017, I advocated for a sober and unbiased outlook on the world, and held

^1,2

I still hold this view, but I nevertheless think it is worth revisiting the issue to add some nuance,³ now in 2024 when we seem to be standing closer than ever to the brink of the great AI breakthrough. To suggest intentionally introducing either an optimism or a pessimism bias still sounds bad to me, but we can reframe the issue and make it less blatantly pro-distortion by admitting that all our judgements about our future with AI will necessarily be uncertain, and asking whether there might be an asymmetry in the badness of erring on the optimistic or the pessimistic side. Is excessive optimism worse than excessive pessimism, or vice versa?

There are obvious arguments to make in either direction. On one hand, erring on the side of optimism may induce decision-makers to recklessly move forward with unsafe technologies, whereas the extra caution that may result from undue pessimism is less obviously catastrophic. On the other hand, an overly pessimistic message may be disheartening and cause AI researchers, decision-makers and the general public to stop trying to create a better world and just give up.

The latter aspect came into focus for me when Eliezer Yudkowsky, after having began in 2021 to open up publicly about his dark view of humanity's chances of surviving upcoming AI developments, went all-in on this with his 2022 Death with dignity and AGI ruin blog posts. After all, there are all these AI safety researchers working hard to save humanity by solving the AI alignment problem - reserchers who rightly admire Yudkowsky as the brilliant pioneer who during the 00s almost single-handedly created this research area and discovered many of its crucial challenges,⁴ and to whom it may be demoralizing to hear that this great founder no longer believes the project has much chance of success. In view of this, shouldn't Yudkowsky at least have exhibited a bit more epistemic humility about his current position?

I now look more favorably upon Yudkowsky's forthrightness. What made me change my mind is a graphic published in June 2023 by Chris Olah, one of the leading AI safety researchers at Anthropic. The x-axis of Olah's graph represents the the level of difficulty of solving the AI alignment problem, ranging from trivial via steam engine, Apollo project and P vs NP to impossible, and his core messages are (a) that since uncertainty is huge about the true difficulty level we should rationally represent our belief about this as some probability distribution over his scale, and (b) that it is highly important to try to reduce the uncertainty and improve the precision in our belief, so as to better be able to work in the right kind of way with the right kind of solutions. It is with regards to (b) that I changed my mind on what Yudkowsky should or shouldn't say. If AI alignment is as difficult as Yudkowsky thinks, based on his unique experience of decades of working hard on the problem, then it is good that he speaks out about this, so as to help the rest of us move our probability mass towards P vs NP or beyond. If instead he held back and played along with the more common view that the difficulty is a lot easier - likely somewhere around steam engine or Apollo project - he would contribute to a consensus that might, e.g., cause a future AI developer to wreak havoc by releasing an AI that looked safe in the lab but failed to have that property in the wild. This is not to say that I entirely share Yudkowsky's view of the matter (which does look overconfident to me), but that is mostly beside the point, because all he can reasonably be expected to do is to deliver his own expert judgement.

At this point, I'd like to zoom in a bit more on Yudkowsky's list of lethalities in his AGI ruin post, and note that most of the items on the list express reasons for not putting much hope in one or the other of the following two things.

(2) Our ability to collectively decide not to build an AI that might wipe out Homo sapiens.

It is important for a number of reasons to distinguish pessimism about (1) and pessimism about (2),⁵ such as how a negative outlook on (1) gives us more reason to try harder to solve (2), and vice versa. However, the reason I'd like to mainly highlight here is that unlike (1), (2) is a mostly social phenomenon, so that beliefs about the feasibility of (2) can influence this very feasibility. To collectively decide not to build an existentially dangerous AI is very much a matter of curbing a race dynamic, be it between tech companies or between nations. Believing that others will not hold back may disincentivize a participant in the race from themselves holding back. This is why undue pessimism about (2) can become self-fulfilling, and for this reason I believe such pessimism about (2) to be much more lethal than a correponding misjudgement about (1).⁶

This brings me to former OpenAI employee Leopold Aschenbrenner's recent and stupendously interesting report Situational Awareness: The Decade Ahead.⁷ Nowhere else can we currently access a more insightful report about what is going on at the leading AI labs, how researchers there see the world, and the rough ride during the coming decade that the rest of the world can expect as a consequence of this. What I don't like, however, is the policy recommendations, which include the United States racing ahead as fast as possible towards AGI the next few years. Somewhat arbitrarily (or at lest with insufficiently explained reasons), Aschenbrenner expresses optimism about (1) but extreme pessimism about (2): the idea that the Chinese Communist Party might want to hold back from a world-destroying project is declared simply impossible unless their arm is twisted hard enough by an obviously superior United States. So while on one level I applaud Aschenbrenner's report for giving us outsiders this very valuable access to the inside view, on another level I fear that it will be counterproductive for solving the crucial global coordination problem in (2). And the combination of overoptimism regarding (1) and overpessimism regarding (2) seems super dangerous to me.

Footnotes

1) This was in the proceedings of a meeting held at the EU parliament on October 19, 2017. My discussion of the concepts of optimism and pessimism was provoked by how prominently these termes were used in the framing and marketing of the event.

2) Note here that in the quoted phrase I take both optimism and pessimism as deviations from what is justified by evidence - for instance, I don't here mean that taking the probability of things going well to be 99% to automatically count as optimistic. This is a bit of a deviation from standard usage, which in what follows I will revert to, and instead use phrases like "overly optimistic" to indicate optimism in the sense I gave the term in 2017.

3) To be fair to my 2017 self, I did add some nuance already then: the acceptance of "a different kind of optimism which I am more willing to label as rational, namely to have an epistemically well-calibrated view of the future and its uncertainties, to accept that the future is not written in stone, and to act upon the working assumption that the chances for a good future may depend on what actions we take today".

4) As for myself, I discovered Yudkowsky's writings in 2008 or 2009, and insofar as I can point to any single text having convinced me about the unique importance of AI safety, it's his 2008 paper Artificial intelligence as a positive and negative factor in global risk, which despite all the water under the bridges is still worthy of inclusion on any AI safety reading list.

5) Yudkowsky should be credited with making this distinction. In fact, when the Overton window on AI risk shifted drastically in early 2023, he took that as a sufficiently hopeful sign so as to change his mind in the direction of a somewhat less pessimistic view regarding (2) - see his much-discussed March 2023 Time Magazine article.

6) I don't deny that, due to the aforementioned demoralization phenomenon, pessimism about (1) might also be self-fulfilling to an extent. I don't think, however, that this holds to anywhere near the same extent as for (2), where our ability to coordinate is more or less constituted by the trust that the various participants in the race have that it can work. Regarding (1), even if a grim view of its feasibility becomes widespread, I think AI researchers will still remain interested in making progress on the problem, because along with its potentially enormous practical utility, surely this is one of the most intrinsically interesting research questions on can possibly ask (up there with understanding biogenesis or the Big Bang or the mystery of consciousness): what is the nature of advanced intelligence, and what determines its goals and motivations?

torsdag 30 maj 2024

Talking about OpenAI on the For Humanity Podcast

There's been a lot happening at OpenAI in recent weeks, including the departure of their two leading AI safety researchers Ilya Sutskever and Jan Leike. I discussed some of this, along with a handful of related AI risk and AI safety issues, in a long conversation with John Sherman in the latest episode of his podcast For Humanity: An AI Risk Podcast.

Those content with hearing the audio can alternatively get that via Google Podcasts or Apple Podcasts or wherever you listen to podcasts. The episode was released yesterday, May 29, and was recorded one week earlier, on May 22. For updates on what has happened since then with all of the ongoing OpenAI drama, I generally recommend Zvi Mowshowitz on his Substack Don't Worry About the Vase, and right now in particular his posts OpenAI: Fallout (from May 28) and AI #66: Oh to Be Less Online (from today, May 30).

onsdag 15 maj 2024

Min erfarenhet av kursen Diversity and inclusion in higher education

Jag lyckades i vintras kamma hem mina första högskolepoäng på flera decennier! Skälet till att det dröjt så länge är att jag i min ungdom lyckades göra så snabb akademisk karriär att jag hann nå det högsta karriärsteget - professor - redan vid millennieskiftet, vilket var innan man hunnit införa diverse högskolepedagogiska kurser som krav för olika karriärsteg.

Men i år var det alltså dags. På Chalmers har nämligen utfärdats ett direktiv om att alla lärare med kursansvar behöver ha läst och blivit godkända på kursen Diversity and inclusion in higher education (CLS930) senast den 1 januari 2027 för att inte förlora sina examinatorrättigheter.¹ Mot detta krav räcker det inte ens att vifta med professorstitel, gott lärarrenommé och mångårig undervisningerfarenhet.

Jag gick in i kursen utan några högre förväntningar men med ett öppet sinnelag och föresatsen att utan att ställa till något bråk göra vad som krävs för att uppfylla kurskraven så länge detta är möjligt inom ramen för de intellektuella redlighetskrav jag alltid ställer på mig själv. Min upplevelse av kursen blev mestadels negativ, och jag började tidigt leka med tanken att redovisa mina erfarenheter av den i en bloggpost, något jag bedömde vara förenligt med ambitionen att inte ställa till bråk. Jag blev färdig med kursen i mars, och att jag inte kommit till skott med bloggposten tidigare handlar mestadels om lättja och prioritering av annat skrivande, men den impuls som nu fått mig att fatta pennan är en artikel i Dagens Nyheter av Carl Cederström, lektor i företagsekonomi vid Stockholms universitet, som berättar om sin egen erfarenhet av högskolepedagogiska kurser. Artikeln satte igång omfattande Facebookdiskussioner bland universitetslärarkollegor, och jag tror att det kan ha ett värde att jag fyller på med mina egna upplevelser.

Det skall omedelbart sägas att Chalmerskursen jag läste inte inbegrep något som tillnärmelsevis liknar de komjölkningscharadsbisarrerier som Cederström berättar om:

”Visst blir man lite naknare när man ställer upp ett klassrum så här”, förklarade kursläraren.

Sanningshalten i påståendet var svårbestridligt.

Förklaringen till varför vi nödvändigtvis skulle känna oss nakna, om det gavs någon, har jag glömt. Men naknare blev det. Efter lunch ombads vi ta av oss skorna. Läraren snörade på sig ett par svarta mjuka dansskor.

Vi ställde oss i en stor ring. Vi skulle svepa våra blickar fritt över rummet. Och när vi fick ögonkontakt med någon annan skulle vi hoppa jämfota, båda två samtidigt, och sedan marschera mot mitten och just som vi passerade varandra ropa ”hej”!

Utanför sken solen. Trägolvet blänkte. Jag kände mig lite yr.

Vi hoppade runt en stund i strumplästen och skrek hej! och sedan förflyttade vi oss, i fantasin, till en bondgård i mitten av 1800-talet. Nu rörde vi oss fritt i salen, huller om buller, i väntan på att någon ropade ut valfri bondgårdsaktivitet.

”Såga!” ropade någon och vi började rycka med armarna fram och tillbaka genom luften.

”Tvätta kläder!” ropade någon annan och vi böjde oss ner och klämde med händerna mot golvet.

”Hugga ved!” ropade en tredje och vi svingade med armarna.

Och sedan kom det slutligen:

”Mjölka en ko!”

Detta slapp jag. Något annat jag slapp, men som många kollegor i nämnda Facebookdiskussioner vittnade om, var det slags pedagogiskt överteoretiserande utan koppling till hur man faktiskt bör agera i klassrummet som tydligen är ganska vanligt i högskolepedagogiska kurser. Mitt problem med CLS930 var snarast det motsatta: kursen bjöd rikligt på direktiv och rekommendationer om hur man bör agera som universitetslärare i olika situationer, men väldigt lite eller inget alls om den eventuella teoretiska underbyggnad som skulle kunna anföras som skäl till varför just de rekommenderade agerandena är de rätta. Gång på gång under kursen - främst i de obligatoriska inlämningarna men emellanåt också muntligt i föreläsningslokalen - försökte jag föra in diskussionen i riktning mot denna teoretiska underbyggnad eller i brist på sådan underbyggnad åtminstone något slags redig akademisk argumentation, men jag fick väldigt lite respons. Här ett exempel från min inlämning på den del av kursen som behandlade likabehandling av studenter med funktionshinder:

We talk so much about fairness in this course that I think it’s only fair that we spend at least a few minutes discussing the unfairness inherent in our policy to compensate students for some kinds of disability and impairment but not for others.

På detta fick jag ingen respons alls. Jag kan ha viss förståelse för att läraren på en kurs som CLS930 inte har tid att fördjupa sig i alla kursdeltagares alla inlämningar, och kanske blir extra trött av inlämningar som likt den ovanstående kan framstå vid första påseende som en smula obstinat, men jag tycker faktiskt att jag reser en berättigad fråga och är lite besviken på bristen på respons. Det kan såklart också hända att jag alldeles tar miste och att min fråga i själva verket är oberättigad och dum, men om så är fallet skulle jag likväl vara betjänt av en förklaring.

Detta mönster upprepade sig flera gånger under kursen och jag kände mig alltmer intellektuellt otillfredsställd.² En aspekt som bidrog kraftigt till denna otillfredsställelse var att de praktiska rekommendationer för hur vi driver vår undervisning som framkom i kursen uppvisade flera fall av till motsägelse gränsande inre spänningar. Främst bland dessa är hur kursen förmedlade en generellt fördömande attityd gentemot diskriminering, samtidigt som de olika åtgärder som rekommenderades nästan uteslutande själva utgjordes av olika slags diskriminering. Måhända är det ett tecken på att jag är akademiskt miljöskadad, men när jag stöter på sådant känner jag ett behov av att gräva djupare för att försöka hitta rötterna till dessa spänningar och eventuellt i bästa fall upplösa dem. Dylikt gräv ingick dock inte i kursen, och jag har fortfarande besvär med att få ihop (a) det kompromisslösa avståndstagande från diskriminering, där bland annat ordet "nolltolerans" används, i olika officiella Chalmersdokument,³ med (b) de olika diskriminerande åtgärder som lärosätet driver, och ofta marknadsför med visst pompa och ståt.⁴

Jag säger alltså inte att åtgärderna i (b) nödvändigtvis alla är fel, bara att jag inte förstår hur de går ihop med (a). För egen del har jag dock valt att i min undervisningsgärning inte medvetet eller avsiktligt ägna mig åt någon som helst diskriminering, något jag också höll fast vid i de inlämningsuppgifter på CLS930 som handlade om hur jag avsåg implementera insikter från kursen i min egen undervisning.⁵ Jag lekte här med tanken att denna vägran att rätta in mig i ledet skulle kunna rendera mig underkänt på kursen, och sa lite roat till mig själv att jag hoppas att examinator här inte är lika sträng som ledningen på UC Berkeley,⁶ för då är jag kanske rökt. Men detta var inte något som gjorde mig det minsta nervös, dels för att värsta fall-scenariot (att jag från och med 2027 skulle behöva ha en spökexaminator på de kurser jag i övrigt ansvarade för) inte kändes särskilt skräckinjagande, och dels för att Carl Cederström nog träffar nära sanningen då han i ovan nämnda DN-artikel skriver att "mig veterligt har ingen någonsin blivit kuggad på en högskolepedagogisk kurs". Och godkänd blev jag mycket riktig, utan minsta antydan om bakläxa.

Fotnoter

1) Med tanke på hur långt fram i tiden denna deadline ligger kanske någon läsare undrar varför jag läste kursen redan i år (om exempelvis jorden går under eller det stränga Chalmersdirektivet ändras före den 1 januari 2027 kommer jag ju därigenom att i viss mening ha läst kursen i onödan). Svaret ligger i att man på grund av det ökade intresse för att läsa kursen som uppstått till följd av det nya direktivet och som kraftigt överstiger antalet platser har infört ett system där varje institution får nominera ett begränsat antal lärare till varje kursomgång. På min institution valde ledningen att prioritera mig i detta sammanhang; jag tror att skälet är att de bedömde att jag i min roll som ledamot i Chalmers anställningskommitté skulle ha extra stor nytta av kursstoffet.

2) Vad som dock skänkte stor lindring var att jag parallellt med kursen (och på eget initiativ) läste boken The Identity Trap av Yasha Mounk, som ämnesmässigt behandlar delvis samma område som CLS930 men på ett helt annat sätt, där idéerna tas på stort intellektuellt allvar och författaren går på djupet med deras bakgrund. Rekommenderas varmt!

3) Se exempelvis texten Gender equality and equal opportunity plan från 2022, vilken ingick i den rekommenderade litteraturen på kursen.

4) Se exempelvis Camp Vera, som säkert är mycket värdefullt för deltagarna och troligen även för Chalmers, men som samtidigt är flagrant diskriminerande i och med att endast personer som "identifierar [s]ig som tjej eller icke-binär" är välkomna att delta.

5) Som skäl för denna policy för den egna undervisningsverksamheten anförde jag bland annat att diskriminerande åtgärder riskerar att bryta mot den svenska diskrimineringslagen från 2008, vilken vi hade lärt oss om i början av kursen. Men på detta fick jag faktiskt svar från läraren, som pekade på en paragraf i lagen som undantar "åtgärder som är ett led i strävanden att främja jämställdhet mellan kvinnor och män och som avser annat än löne- eller andra anställningsvillkor".

Detta är intressant, och kan vara ett led i upplösandet av den motsättning jag här diskuterar mellan å ena sidan fördömandet av diskriminering och å andra sidan bruket av detsamma. Men riktigt klok på detta blir jag ändå inte. Antagligen skulle det citerade undantaget fria exempelvis Camp Vera-initiativet från anklagelser om diskriminering, men hur skulle lagen tillämpas om någon exempelvis drev en cancerklinik med policyn att alltid prioritera manliga patienter framför kvinnliga och att släppa in de senare endast i mån av plats, och som anförde att syftet med denna policy är att främja jämställdhet mellan män och kvinnor i fråga om medellivslängd? Sett genom mina juridiskt okunniga och naiva ögon ser det ut som att undantaget i lagen är tillämpligt och att cancerkliniken kan frias, men jag tror och hoppas att vi alla är överens om att det vore fullkomligt på tok.

6) Jag syftar här på deras bedömningsregler för det mångfalds- och inklusions-yttrande som är obligatoriskt när man söker lärartjänst hos dem, och som jag känner till tack vare Bryan Caplan. Eventuellt ser vi nu ett första tecken på att dylika ideologiska bekännelseobligatorier är på tillbakagång i det amerikanska universitetsväsendet.

onsdag 8 maj 2024

Om KVA:s nya AI-skrift

Ett av de olika sätt som Kungliga Vetenskapsakademien (KVA) bedriver sitt utåtriktade arbete mot allmänheten är via den överlag utmärkta skriftserien Vetenskapen säger. Konceptet att på 16 lättillgängliga sidor presentera något aktuellt vetenskapsområde är utmärkt, men djävulen bor i detaljerna, och den senaste utgåvan, vilken utkom den 11 april i år och handlar om AI, är inte helt lyckad.

Som KVA-ledamot känner jag ett behov av att meddela att denna skrift inte representerar någon konsensusuppfattning inom KVA om AI-frågor. Rent formellt kan hävdas att detta påpekande är överflödigt, eftersom det på broschyrens sista sida står att den är författad av en expertgrupp bestående av Virginia Dignum, Fredrik Heintz, Danica Kragic Jensfeldt, Amy Loutfi och Anders Ynnerman, och att den "speglar expertgruppens uppfattning och ska inte ses som ett uttalande eller ställningstagande av [KVA]". Med tanke på hur lätt hänt det kan vara att läsaren missar detta, och på hur hårt KVA har marknadsfört skriften bland annat i sociala medier, ser jag ändå ett värde i att göra den separata disclaimer som denna bloggpost utgör.

I slutet av broschyren ägnas ett par sidor åt diverse framtida samhällsutmaningar som AI reser, vilka genomgående är av mer jordnära karatär än de existentiella riskfrågor jag brukar lyfta exempelvis i mina föredrag och böcker samt här på bloggen. Frågor av det senare slaget omnämns i KVA-skriften endast som hastigast, i en faktaruta med följande ordalydelse:

AGI och debatten om X-Risk

Artificiell Generell Intelligens (AGI) skulle vara ett AI-system som kan göra allt som vi människor kan, och mer. En del AI-forskare anser att vi är ganska nära detta – andra att det dröjer decennier, eller att AGI aldrig kommer att finnas. Flera stora företag tävlar i dag om att först lyckas utveckla AGI. Nu växer en debatt om så kallad existentiell risk, X-Risk: att AGI utom kontroll skulle kunna hota vår existens. Vad händer om vi skapar AGI, ger den stort inflytande över den fysiska världen och otillräckliga instruktioner? Vissa forskare menar att systemen skulle kunna prioritera andra mål högre än vår trygghet och skada oss för att uppnå de målen.

AI-experter är inte överens om hur stor X-Risk är och när, eller ens om, den blir aktuell. Men de som varnar vill att även den risken tydligt vägs in i AI-regleringar.

Allt annat lika är det såklart positivt att denna faktaruta finns med jämfört med om den inte hade gjort det. Ändå anser jag att den styvmoderligt undanskymda plats xriskfrågan fått i broschyren skapar en skevhet i det övergripande budskapet. Den läsare som trots allt når ända fram till faktarutan och inför dess besked kanske tänker "oj, hota vår existens, det låter allvarligt", men broschyrens utformning är som gjort för att läsarens nästa tanke skall vara "fast nej, AI-forskarna har rimligtvis läget under kontroll, för om de inte hade det skulle väl skriften ha fått en annan utformning där denna katastrofrisk fått ett helt annat utrymme, antagligen redan från sida ett".

Men detta intryck är bedrägligt, för situationen är inte under kontroll. Jag finner detta särskilt allvarligt med tanke på att en explicit uttalad målgrupp för skriftserien är gymnasieelever. Det kan inte vara en ok kommunikationsstrategi gentemot våra barn och ungdomar att tona ned och sopa under mattan de globala problem vi vuxna skapat och på några års sikt är i färd med att lämna över till dem.

Att faktarutan alls kom med tar jag åt mig äran av. Någon månad innan broschyren släpptes fick jag - närmast av en tillfällighet - möjlighet att läsa ett utkast och en inbjudan att kommentera. I utkastet fanns inte ett ord om xrisk-frågor, och med min kännedom om de forskare som ingick i författargruppen (jag känner alla utom en och är väl bekant med deras ointresse för xrisk) är jag övertygad om att så hade förblivit fallet även i slutversionen om jag inte hade besvarat inbjudan att kommentera. Det som här följer är ett par mycket lätt redigerade utdrag ur det ebrev jag skrev den 14 mars till Ulf Ellervik, som inte ingick i författargruppen men som har ett övergripande redaktionellt ansvar för skriftserien.

Vetenskapen säger – om AI

Mycket i texten är utmärkt, men jag har ett antal mindre påpekanden som jag tycker föranleder korrigeringar, plus en betydligt större synpunkt som i korthet innebär att texten bleve till stor skada om den publicerades i nuvarande skick. Men låt mig avverka småsakerna först.

Den därpå följande listan över mindre synpunkter, vilka överlag behandlades nöjaktigt i broschyrens slutversion, kan vi lämna därhän. Efter listan gick jag rakt på mitt huvudbudskap:

Det räcker med ett kort studium av människans förhistoria för att inse hur farligt det kan vara att hamna på efterkälken och på anda plats på listan över planetens intelligentaste arter. Skapandet av AGI utgör därför en existentiell risk för Homo sapiens, och det är därför en alarmerande situation vi idag befinner oss i när de tre ledande AI-utvecklarna (OpenAI, Anthropic och Google/DeepMind) är inbegripna i en rasande kapplöpning mot AGI, där ledande företrädare för dessa bolag förutser att bara några få år återstår tills detta mål är uppnått, men utan att kunna prestera några tillnärmelsevis övertygande lösningsförslag på den så kallade AI Alignment-problematik som syftar till att göra AGI till mänsklighetens tjänare eller vän istället för dess utplånare.

Denna AI-drivna existentiella risk (xrisk) har på några få år seglat upp som den enligt min mening allra mest akuta samhällsfrågan att lösa, och om vi misslyckas med det så kan det mycket väl gå så illa att ingen enda människa får uppleva innevarande decenniums utgång. Att i en text som Vetenskapen säger – om AI underlåta att med så mycket som ett ord omnämna denna xriskproblematik är en grotesk felbedömning.

I textens avslutande avsnitt talas en del om andra AI-risker, förknippade med exempelvis deep fakes och med hur enskilda bidragstagare i det nederländska socialförsäkringssystemet kan komma i kläm till följd av skeva AI-bedömningar. Det är bra, för dessa frågor är viktiga, men att dryfta dem utan att alls nämna AI-xrisk är lite som om ett säkerhetsinspektionsprotokoll inför fartyget Titanics jungfrufärd skulle anmärka på den lite för glesa förekomsten av brandsläckare i fartygskorridorerna, och på halkrisken i köksutrymmena, men utan att ägna minsta uppmärksamhet åt fartygets sjöduglighet i händelse av grundstötning eller krock med isberg.

Extra märkligt blir intrycket av texten då den vidgår att AGI kan vara på gång (med en formulering som ”vissa AI-forskare hävdar att vi är ganska nära”), utan att gå vidare med den xrisk-problematik som därigenom ligger ytterst nära till hands.

Jag hävdar givetvis inte att frågan om AI-xrisk är okontroversiell. Tvärtom, uppfattningarna hos ledande forskare på området går starkt isär, vilket nyligen exemplifierades i en samanställning av några kända AI-profilers uppskattningar av risknivån (https://pauseai.info/pdoom). Så någon konsensus om att risken är betydande finns inte, men ej heller finns konsensus om att den är försumbar, något som dock blir det implicita budskapet i det nuvarande utkastet. Om detta står sig i textens slutversion blir den i praktiken till ett bidrag till den osakliga propagandakampanj om AI:s ofarlighet som drivs av mörka krafter med kortsiktiga kommersiella och andra intressen.

Det går inte an. Det går sannerligen inte an i ett läge där två av de tre forskare som delade 2018 års Turingspris med en prismotivering som inkluderar orden ”the fathers of the deep learning revolution”, jämte ledarna för de tre främsta AI-laboratorierna, plus hundratals prominenta AI-forskare och professorer, tillsammans skrivit under på att AI-xrisk är en av vår tids angelägnaste frågor att hantera (https://www.safe.ai/work/statement-on-ai-risk). När Vetenskapen säger – om AI når sin slutliga utformning och publiceras behöver xrisk-prespektivet finnas med. Det kan inte undanhållas våra gymnasieungdomar och andra läsare av den planerade pamfletten. Och med tanke på frågans ohyggliga dignitet – det handlar ju om huruvida våra anhöriga och släktingar som nu är i spädbarnsåldern skall få chansen att växa upp till skolålder – räcker det inte med att saken omnämns med ett par-tre meningar, utan den behöver ägnas åtminstone en eller helst två sidor i den slutliga tryckta texten.

Något som helst problem att fylla detta utrymme med intressant och engagerande sakdiskussion finns inte. Evidensen för att vi står inför en akut risksituation har under de år som gått av 2020-talet snabbt vuxit sig allt starkare. En del av detta redovisas utförligt i 2023 års upplaga av min senaste bok Tänkande maskiner (https://fritanke.se/bokhandel/bocker/tankande-maskiner/). Idealt skulle, med tanke på hur kontroversiell frågan är, pamfletten redogöra för argumenten hos båda sidor – de som menar att AI-xrisk bör tas på allvar och de som menar att vi kan rycka på axlarna åt den. En viss svårighet med detta är dock att den senare kategorin argument tenderar att vara så svaga och lättflyktiga att de vid minsta kritiska analys avdunstar. För ett typexempel på det sistnämnda, se den paneldiskussion jag i höstas deltog i tillsammans med Virginia Dignum (https://haggstrom.blogspot.com/2023/10/debating-ai-takeover-with-virginia.html) vars fingeravtryck är tydliga på många ställen i föreliggande textutkast. Sagda svårighet kan dock övervinnas, och jag är övertygad om att pamflettens slutliga utformning kan göras bra och välbalanserad.

Låt mig slutligen notera att textutkastets avslutningsstycke –

Det är inte ovanligt att människor är rädda för AI. Ofta beskrivs AI som något som händer oss, något vi inte kan kontrollera utan bara försöka lindra konsekvenserna av. Det ger en känsla av maktlöshet. Men AI händer inte oss – det är vi som får AI att hända. AI skapas och designas av människor och det ger oss alternativ och val. Genom ansvarsfull utveckling, tydliga regler och noggranna etiska överväganden kan vi säkra att risken för skador blir så liten som möjligt och att AI används för samhällets bästa.

Mvh,
Olle

fredag 19 april 2024

Future of Humanity Institute 2005-2024

The news that University of Oxford's Future of Humanity Institute (FHI), after nearly two decades of existence, closed down earlier this week (Tuesday, April 16) made me very sad. The institute was Nick Bostrom's brainchild, and it was truly pioneering in terms of formulating some of the most profound and important questions about how to ensure a flourshing future for mankind, as well as in beginning the work of answering them. Their work has more or less uninterruptedly been at the forefront of my mind for more than a decade, and although I only visited their physical headquarters twice (in 2012 and 2016), it is clear to me that it was a uniquely powerful and creative research environment.

In the first draft of this blog post I used the acronym RIP in the headline, but decided to change that, because I wish that what remains from the institute - the minds and the ideas that it fostered - will not rest in peace, but instead continue to sparkle and help create a splendid future. They can do this at the many subsequent research institutes and think tanks that FHI helped inspire, such as The Centre for the Study of Existential Risk in Cambridge, The Future of Life Institute in Massachussetts, The Global Priorities Institute in Oxford, and The Mimir Center at the Institute for Future Studies in Stockholm. And elsewhere.

My friend Anders Sandberg was a driving force at the institue almost from the start and then until the very end. His personal memoir of the institute, entitled Future of Humanity Institute 2005-2024: Final Report offers a summary and many wonderful glimpses from their successful work, including a generous collection of photographs.¹ Reading it is great consolation at this moment. Along with the successes, Anders also tells us briefly about the institute's downfall:

Starting in 2020, the Faculty [of Philosophy] imposed a freeze on fundraising and hiring. Unfortunately, this led to the eventual loss of lead researchers and especially the promising and diverse cohort of junior researchers, who have gone on to great things in the years since. While building an impressive alumni network and ecosystem of new nonprofits, these departures severely reduced the Institute. In late 2023, the Faculty of Philosophy announced that the contracts of the remaining FHI staff would not be renewed. On 16 April 2024, the Institute was closed down. [p 19] Later, on p 60-61, he offers three short paragraphs about what failings on the FHI's side may have led to such harsh treatment from the Faculty. What he offers is hardly the full story, and I have no specific insight into their organization that can add anything. Still, let me offer a small speculation, mostly based in introspection into my own mind and experience, about the kind of psychological and social mechanisms that may have contributed:

If you are an FHI kind of person (as I am), it will likely seem to you that lowering P(doom) by as little as a ppm is so obviously urgent and important that it appears superfluous and almost perverse to argue for such work using more traditional academic measuring sticks and rituals. That may lead you to ignore (some of) those rituals. If this clash of cultures continues for sufficiently long without careful intervention, the relations to the rest of the university are likely to decline and eventually collapse.

Footnote

1) See also his latest blog post.

tisdag 2 april 2024

Interviewed about AI risk in two new episodes of The Evolution Show

Three years ago, shortly after the release of the first edition of my book Tänkande maskiner, I was interviewed about AI risk by Johan Landgren in his YouTube podcast The Evolution Show. The amount of water under the bridges since then has been absolutely stupendous, and the issue of AI risk has become much more urgent, so last month Johan decided it was time to record two more episodes with me:

In his marketing of our discussion he put much emphasis on "7 years" as a timeline until the decisive AI breakthrough that will make or break humanity. I'm not sure I even mentioned that figure explicitly in our conversations, but admittedly it was implicit in some of the imagery I held forth. Still, I should emphasize that timelines are extremely uncertain, to the extent that an exact figure like 7 years needs to be taken with a huge grain of salt. It could happen in 2 years, or 5, or 10, or - provided either some severe unforseen technical obstacle or a collective decision to pause the development of frontier AI - even 20 years or more. This uncertainty subtracts nothing, however, from the urgency of mitigating AI existential risk.

Another part of Johan's marketing of our conversation that I'd like to quote is his characterization of it as "kanske det viktigaste jag haft i mitt liv" ("perhaps the most important one in my entire life"). This may or may not be an exagerration, but I do agree with him that the topics we discussed are worth paying attention to.

tisdag 26 mars 2024

What Max Tegmark really said about AI risk

In a recent article in the Australian online magazine Quillette, Swedish AI pundit Mathias Sundin portrays his more framous compatriot Max Tegmark as a doomsayer. He quotes Tegmark as saying the following in the Swedish public radio show Sommar on August 1, 2023:

I’ve been thinking a lot about life and death lately. Now, it’s probably my turn next in my family. But I guess the rest of humanity will perish about the same time — after over a hundred thousand years on our planet. I believe the artificial intelligence that we’re trying to build will probably annihilate all of humanity pretty soon. The quote is authentic and the translation from Swedish is fine. But look at Sundin's comment immediately after the quote:

There were no ifs or buts and no “10 percent risk” or other disclaimers — just the promise of certain doom. The careful reader might here notice the contrast between Sundin's talk of “certain doom”, and Tegmark's use of the word “probably” — which normally signifies not certainty but uncertainty.¹ If the reader trusts that Sundin writes in good faith, he will likely conclude that the word “probably” is used here by Tegmark not in its real meaning, but as meaningless sentence filler and random noise, and that if one looks carefully at what else he has to say in the Sommar show, Sundin's summary about “the promise of certain doom” turns out to be accurate.

So let's have a look then, at what Tegmark has to say in Sommar, to determine whether Sundin's summary statement is warranted. (Spoiler: it is not.)

Less than half a minute after the passage quoted by Sundin, Tegmark says the following:

This is already an indication that, far from preaching “certain doom”, Tegmark thinks that “a more hopeful and inspiring future” is possible, and wants to engage his listeners in the great project of navigating towards such a future.

Soon after that, Tegmark goes on to compare an AI catastrophe wiping out humanity to a more down-to-Earth and familiar event: the death at old age of his own parents. He feels his parents had full lives, and thinks the possibility of an AI apocalypse compares unfavorably to this:

“Our future can become so much better than our past” are hardly the words of someone who predicts “certain doom”, and the entire passage is on the contrary rather hopeful. Later in the show, Tegmark spells out his hopeful vision about a flourishing future in slighly more detail:

⁴

A more striking counterexample to Sundin's claim that Tegmark offers “no ifs and buts” in his talk about AI risk would be hard to imagine. And there's more:

⁵

And this:

⁶

It is clear from these quotes that far from predicting “certain doom”, Tegmark thinks a bright future awaits us if only we get our act together and play our cards right. It is furthermore clear that he doesn't even think this right way of playing our cards necessarily invloves giving up on the project of building superintelligent AI. To the contrary, such AI plays a key role in the grand visions for the future that he paints. It's just that he understands that there are risks involved and that we therefore need to proceed with a suitable level of caution, something that he judges the leading AI developers to lack. Hence his talk about the need to change course.

This is a highly reasonable position (and one that I share),⁷ but conveying it accurately goes counter to Sundin's ambition of painting Tegmark in the worst possible light. Instead, Sundin shamelessly decides to gamble on the readers of Quillette not knowing Swedish and therefore not being able to check his story, and to simply lie about what Tegmark says in Sommar.

What else can be said about Sundin's Quillette article? Well, it is quite bad. As is sadly typical for large parts of the AI debate as a whole and for his own writings in particular, Sundin is not interested in engaging seriously with the arguments of his opponents, and the article is full of inaccuracies and misrepresentations. I spent so much ink in 2023 — one newspaper op-ed and two blog posts — on Sundin's poor writing that frankly speaking I am sick of it, and so I will not say anything more about his Quillette article. I will not even comment on his choice (which is especially bizarre given the long and tedious email exchange we had about it in December last year) to continue to grossly misrepresent the point of my Lex Luthor thought experiment.

This is mostly not about Sundin himself, but more intended as an example of the abysmally low level of discourse among the category of accelerationists and AI risk deniers that he represents. I do worry, however, that him being chosen in December last year as a member of the Swedish government's AI commission is a small sign of governmental dysfunction.

Footnotes

1) The word used in the Swedish original is “antagligen” (01:37 into the radio show), which has very similar connotations in the present context as the English “probably”.

2) The Swedish original, beginning at 02:05: Vad kan vi göra idag, för att ändra riktning mot en mer hopfull och inspirerande framtid?

3) The Swedish original, at 03:48: Men om hela mänskligheten dör ut, för att vi klantat till det med artificiell intelligens, så känner jag däremot att vi varken levt färdigt eller dött värdigt. Snarare skulle det kännas tragiskt och onödigt, som om ett barn av misstag cyklar över kanten på ett stup, trots många varningar. Vi är så unga ur ett kosmiskt perspektiv, med miljarder lovande år framför oss. Om vi undviker det där stupet så kan vår framtid dessutom bli så mycket bättre än vårt förflutna. Vi är på vippen att äntligen ta kontroll över vårt eget öde, och lösa många av de största problem som vi människor hittills gått bet på.

4) The Swedish original, at 54:45: Jag har pratat mycket om hotet från artificiell intelligens, men vad händer om vi lyckas ändra kurs, och hamnar i en framtid med en superintelligens under vår kontroll, som inte används illvilligt, är felriktad eller konkurrerar med oss? Först och främst blir det som julafton för alla som gillar forskning och teknik, eftersom superintelligensens forskning blir begränsad inte av vad vi människor kan lista ut, utan bara av vad som är fysiskt möjligt. Upptäckter som jag som tonåring trodde skulle ta tusentals år eller en evighet skulle kunna ske under vår livstid. Både min morbror Erik och hans dotter Anna dog t.ex. av cancer. Jag är övertygad om att all cancer går att bota, problemet är att vi människor hittills inte lyckats lista ut hur. Jag tror att superintelligens snabbt skulle hitta botemedel för alla sjukdomar, och lyfta alla ur fattigdom, stabilisera klimatet, och lösa alla de klassiska världsproblemen om vi hittills gått bet på.

5) The Swedish original, at 56:10: Min AI-aktivism drivs inte bara av att jag vill undvika problem utan också av att jag vill bevara de här inspirerande möjligheterna.

6) The Swedish original, at 01:04:00: Vi behöver inte konkurrera med AI. Det är bara Moloch som försöker lura i oss det. Det är nämligen vi som bygger AI, och om vi ser till att vi behåller kontrollen så blir det vi och inte AI som bestämmer var skåpet skall stå.

7) For a summary statement of where I stand on AI issues, readers who know Swedish are encouraged to consult the bonus chapter (downloadable for free) in the 2023 edition of my book Tänkande maskiner. For those who prefer English, there are various video recordings of talks I've given that can serve a similar purpose; see here, here and here.