För den oinvigde kan det lätt framstå som förbluffande hur mycket kraft som AI-futurologer lägger på att diskutera gem (pappersklämmor), och då i synnerhet scenarier där en gemtillverkningsmaskin går överstyr i ett så kallat
Paperclip Armageddon, där den omvandlar hela vår planet och eventuellt stora delar av övriga världsrymden till en gigantisk ansamling av gem. Vad är det då som är så viktigt med just gem? Inget alls egentligen - det fungerar precis lika bra med häftstift. Gemtillverkningsmaskinen används bara som ett illustrerande exempel på att det inte krävs någon ondsint Lex Luthor (med ambitionen att hämnas på mänskligheten) för att ett ogenomtänkt genombrott inom artificiell intelligens skall bli ett hot mot mänsklighetens överlevnad. Även jag faller utförligt tillbaka på detta exempel i min bok
Here Be Dragons, där jag på s 116 introducerar tankegången med följande ord:
It may perhaps be tempting to think that as long as we don't give [the potentially superintelligent AI] an outright destructive goal such as "kill all humans", the outcome will not be disastrous. This, however, is very naive. An instructive
and oft-repeated example introduced by Bostrom (2003c) is the paperclip maximizer. The seed AI is given the goal of producing as many paperclips as it can.263 Once this results in a superintelligent AGI, the machine is likely to find ways to transform most of our planet into a monstrous heap of paperclips, followed by a similar transformation of the entire solar system, and probably (if the informed speculations in the upcoming Chapter 9 about the eventual feasibility of interstellar and intergalactic travel are right) the Milky Way, and most of the observable universe. Such a scenario will look very unappetizing to us humans, and as soon as we realize what the machine is up to we would try to do everything in our power to stop it. But we're up against someone who is so much more intelligent than we are that our chances of succeeding are (unlike what Hollywood would have us think) microscopic. Perhaps most likely, before we even have the time to think about how to organize our resistance, the machine will have realized what we might be up to, and exterminated us simply as a safety precaution.
263) This might be a sensible goal for someone who owns a paperclip factory and sets out to fully automatize it by means of an AGI [artificial general intelligence]. What seems a bit silly, however, is for someone who plans to take our civilization into its next era by means of an intelligence explosion to choose such a narrow and pedestrian goal as paperclip maximization. What makes the paperclip maximizer intelligence explosion a somewhat less silly scenario is that an intelligence explosion might be triggered by mistake. We can imagine a perhaps not-so-distant future in which moderately intelligent AGIs are constructed for all sorts of purposes, until one day one of the engineering teams happens to be just a little bit more successful than the others and creates an AGI that is just above the intelligence threshold for serving as a seed AI.
Häromveckan fick jag på Facebook en fråga från Tobias Malm (som även tidigare
bidragit till spännande diskussioner här på bloggen) rörande Paperclip Armageddon, vilken ledde till en belysande diskussion om vilka slags varelser och maskiner kan ha mål, drivkrafter och preferenser. Med Tobias tillåtelse återger jag diskussionen, minimalt redigerad, här:
TM: Här är en fråga om problematiken gällande AI och gem: hur kan det ses som ett hot att en superintelligent maskin skulle förvandla hela världen till gem?
Det är förvisso sant att intelligens inte garanterar att de uppsatta målen kommer att ifrågasättas utifrån något slags moraliskt ramverk. Dock är ju det sagda målet att tillverka gem inte samma som det menade målet, det vill säga att till exempel skapa en viss mängd gem för att kunna sälja dem på den öppna marknaden och tjäna pengar. Och att uppfatta det menade målet är ju i högsta grad en intelligensfråga. Kort sagt: varför skulle en superintelligent AI också vara superautistisk, givet att vi inte väljer att bygga den så - och varför skulle vi välja det när vi kan undvika det?
OH: I det tänkta scenariot har maskinen, genom dess ursprungliga programmering, som mål att maximera antalet gem, inte att uppfylla våra outtalade önskningar.
Låt oss föreställa oss vad som skulle kunna få den att byta mål. Kanske stannar den någon gång till och reflekterar över om den skall byta till något mer modest mål, något som är mer i linje med våra önskningar. "Hm", tänker den, "skall jag byta till det modesta målet, eller skall hålla fast vid gemproduktionsmaximering?". För att bestämma sig för om den skall byta eller inte behöver den ett kriterium. Och eftersom den ännu inte har bytt utan bara kontemplerar saken, så har den fortfarande kvar sitt gemmaximeringsmål, så detta blir det kriterium den använder. Den frågar sig alltså: "Vad kommer att ge flest gem, fasthållande vid gemmaximeringsmålet, eller byte till det mer modesta målet", och den kommer snabbt fram till att fastållande vid gemmaximeringsmålet sannolikt ger betydligt fler gem än byte, och den håller därför fast vid gemmaximeringsmålet.
Så ungefär lyder Omohundro-Bostrom-teorins argument för Paperclip Armageddon. Den teorin är dock inte någon Säker Sanning Ristad i Sten. Den skulle kunna vara felaktig, t.ex. om det finns någon universell princip om att varje tillräckligt intelligent varelse kommer att vilja behaga sin skapares önskningar. Det tycks vara en sådan princip du implicit lutar dig mot i ditt argument, och det är fullt möjligt att du har rätt i att en sådan universell princip föreligger, men jag tycker att det verkar lite långsökt.
TM: Hade det här varit en konversation IRL hade jag avbrutit dig redan efter din första mening ("I det tänkta scenariot har maskinen...") och sagt att du missförstått min fråga vilket antagligen hade besparat dig lite tid. Dock är det säkert mitt fel att du missförstod, för jag kanske inte var tillräckligt tydlig. Jag menar hur som helst inte att maskinen förväntas ändra/byta sitt mål (därmed det jag skrev ovan om att intelligens inte leder till att målet ifrågasätts utifrån något moraliskt ramverk/princip).
Det jag menar är att målet för en tillräckligt intelligent maskin alltid kommer att vara det avsändaren menar snarare än någon specifik utsaga samt att det enbart krävs intelligens för att förstå vad en avsändare menar. Om jag till exempel frågar vår superintelligenta AI om den "kan öppna fönstret" kan vi förvänta oss att den, genom sin intelligens, inte kommer att svara "ja" och sen inte göra någonting. Sannolikt kommer den förstå att jag menade något mer än att få veta huruvida den kunde öppna fönstret eller inte, rimligtvis skulle den antagligen också förstå att den skulle behöva flytta på det som står lutat mot fönstret så att det inte trillar ut.
Alltså: en tillräckligt intelligent AI skulle inse att jag uttrycker en önskan med "kan du öppna fönstret" i likhet med "öppna fönstret på ett preferenstillfredställande sätt utifrån mitt perspektiv". Om en AI kan förestå mänsklig psykologi så pass bra att den vet vad "kan du öppna fönstret" syftar på – vilket nog krävs för att kunna ta över världen och undfly "lådan" etc – så borde den rimligtvis även förstå att "maximera antalet gem" i kontexten att en affärsman som vill försörja sin familj betyder något mer än "maximera antalet gem, punkt."
Min fråga lyder alltså: en superintelligent AI måste väl vara tillräckligt intelligent för att kunna ta emot kommandon genom att utvärdera preferenser bakom ord, snarare än att bara ta orden rakt upp och ner och sen ändå på något märkligt sätt förstå hur man omvandlar ett solsystem till gem?
OH: Aha OK Tobias, då har du missförstått Paperclip Armageddon-scenariot. Maskinen är inte superintelligent när den får sitt gemmaximeringsmål. Det är först efter att detta mål lagts fast som den går in i den eskalerande rekursiva självförbättringsspiral som för den till superintelligensnivåer.
TM: Okej Olle, det får scenariot att framstå som mycket rimligare. Men då handlar det alltså inte om ett mål - vilket var ett begrepp som förvirrade mig - utan om en funktion i likhet med: ta notis om hur många gem som skapas per sekund, testa olika versioner av dig själv och spara och arbeta vidare utifrån versionerna som skapar fler gem per sekund än versionen innan. Detta kan jag föreställa mig att man kan programmera utan att maskinen förstår mänskligt språk, och ja, med en tillräckligt kraftig dator skulle den kanske kunna bli så bra på att maximera gem att mänskligheten får göra plats för 3D-skrivare. Tack för att du tog dig tiden att förklara detta. Jag känner fortfarande att något skaver, men måste fundera mer på det innan jag kan formulera det.
Här kunde vi, vad Paperclip Armageddon anbelangar, gott ha avrundat diskussionen, men jag blev lite provocerad av Tobias påstående om att
"då handlar det alltså inte om ett mål", vilket tydde på att han hade en enligt min uppfattning alltför snäv idé om begreppet mål. Jag fortsatte därför diskussionen, men från och med nu handlade den inte egentligen om Paperclip Armageddon, utan mer om vad vi bör mena med mål och liknande begrepp.
OH: Mål är ett ganska vitt begrepp. Hillary Clinton har som (ett av sina) mål att bli USA:s första kvinnliga president, och jag har som mål att bli klar med tentarättningen innan jag tar helg imorgon. Även dagens målsökande robotmissiler har mål. Liksom termostaterna i våra bostäder. Om man vill kan man försöka dra en skarp skiljelinje någonstans längs den långa vägen mellan å ena sidan termostaternas skäligen enkla mål, och å andra sidan Hillary Clintons mål att bli USA:s första kvinnliga president, men jag tror inte att det går. Jag tror att man landar i något slags ohållbar John Serlesk geggamoja.
TM: För mig förlorar begreppet mål sin betydelse om det räcker med att något orsakar något annat för att detta ska bli dess "mål".
En sten som rullar ner för en backe har inte som mål att komma ner till slutet av backen, därom tror jag vi båda håller med varandra. Om jag sätter upp en stolpe i mitten av backen som får stenen att rulla åt höger istället för vänster tror jag att vi båda håller med varandra att stenen fortfarande inte har som mål att rulla åt höger.
Utan att, så att säga, gå vilse i det kinesiska rummet vill jag hävda att stenen aldrig kommer att ha som mål att hamna någonstans oavsett hur komplicerad vägen med för backen blir.
Vi kan t ex. tänka oss att vi sätter ut stolpar på ett sådant sätt att stenen följer ett mönster som får den att rita ett ansikte i jorden och den skulle ändå inte ha det som mål och detta av precis samma anledning som när det bara satt en stolpe i backen.
Här skulle Searle gå in och prata om att hjärnan funkar likadant - att den bara är massa stenar och stolpar - och att det är ett problem för våra intuitioner om medvetandet. Jag är förvisso beredd att hålla med om att det uppstår genuina filosofiska problem med den mekaniska hjärnan, nu tänker jag dock inte börja ta ställning för att mål kräver något utöver systemets inneboende delar. Istället vill jag påstå att ett mål kräver en preferens hos systemet för det systemet orsakar.
Om vi kräver en preferens hos systemet kan vi dra en ganska skarp skiljelinje mellan maskiner med och utan mål. En termostat, t ex. har inget mål med denna definition, men en dator som får någon typ av inre belöning (vi kan låta det vara osagt vad känslor har för metafysik nu) av något den orsakar och därför väljer att orsaka har ett mål. Ergo: ett mål är inte synonymt med verkan efter orsak, utan med prefererad verkan.
Naturligtvis är inte din definition objektivt fel, jag tycker bara inte att den fångar in det vi vanligtvis menar med begreppet. Ett exempel på det är att du antagligen skulle protestera om jag sa att du hade som mål att ha sönder din grannes dyra vas bara för att du orsakade det.
OH: Jag likställer inte mål med orsaksamband.
TM: Okej, men hur skiljer sig din definition från min?
OH: Termostaten "prefererar" en temperatur på tjugo grader. I alla fall är det så den beter sig, vilket är det enda vi har att gå efter utan att förfalla till chauvinism.
TM: Jag tycker inte att den beter sig som att den prefererar - alltså i någon grad tycker om - någon särskild temperatur (lika lite som stenen som rullar ner för en backe tycker om att rulla åt höger istället för vänster bara för att det står en stolpe i dess väg). Det finns väl inga goda skäl att anta att den mår bra av temperaturen den orsakar och därför orsakar den?
OH: Men om inte termostaten har mål och preferenser, hur tusan förklarar du då dess målmedvetna beteende? Så fort temperaturen understiger 20 så slår den ju på radiatorn, och så fort det blir varmare än 20 slår den av.
Nej, här skojar jag såklart. Givetvis kan du förklara det med termostatens elektroniska kopplingsschema. Men det finns en allvarlig poäng här, nämligen att om du väljer den förklaringsnivån så kan jag välja samma slags förklaring till ditt beteende. Att du tycks eftersöka klarhet om Paperclip Armageddon beror alls inte på att du har en preferens för sådan klarhet, utan på konfigurationen av molekyler och elementarpartiklar innanför ditt skallben. Kan jag hävda. Men jag gör det som regel inte, eftersom det är praktiskt för den makroskopiska förståelsen att tänka på ditt beteende i termer av preferenser och mål. Detsamma gäller, i viss mån, termostaten.
Jag tror inte att "mål" och "preferenser" har någon metafysisk existens, något som går utanpå deras agenters fysiska konstitution av molekyler etc. Om vi vill kan vi därför rycka på axlarna åt vår diskussion och kalla den semantik. Men jag tror att det faktiskt finns ett värde i diskussionen, inte för att avgöra vad (vilka mål) som faktiskt finns, utan i vilka fall det är intressant och praktiskt att tänka i termer av mål. Här finns ingen absolut gräns. I fallet med den rullande stenen är det nästan helt ointressant. I fallet med Hillary Clinton är det uppenbart intressant och viktigt (att ge en rent mikroskopisk-fysikalisk förklaring till hennes beteende vore idiotiskt). Och däremellan en lång skala, där det kanske blir mest en smaksak var man drar gränsen för vilka man vill tillskriva mål och preferenser. Jag drar medvetet min gräns lägre än de flesta. (Du är inte den ende som sparkat bakut inför termostatexemplet.) Men jag tror att det allmänt är klokt, inför en okänd komplex framtid med robotar och allt möjligt, att försöka tänka mer vidsynt och mindre chauvinistiskt kring egenskaper som vi hittills (men felaktigt) tänkt på som unikt mänskliga.
TM: Ja, jag kommer ihåg att du är eliminativ materialist/reducerbar fysikalist. Och utifrån det perspektivet är din uppfattning helt förståelig och frågan om vad ett mål är måste te sig förhållandevis enkel. Jag tror emellertid att mentala tillstånd – till exempel behag – existerar i sin egen rätt och därmed inte bara är enskilda partiklar betraktade från ett makroskopiskt perspektiv.
Jag tror det eftersom vi inte tittar på behag som vi tittar på atomer som formar en sten från ett visst perspektiv. Vi upplever behag och det går inte att applicera ett mikroskop på den upplevelsen som visar oss några atomer. Behag är inte en observation och det är bara observationer som kan vara föremål för zoomning från makroskopiskt till mikroskopiskt.
Märk väl att jag inte argumenterar för att behag är något mystiskt som svävar omkring i andevärlden nu, jag menar bara att behag inte påminner om den sortens saker vi brukar reducera ner till enskilda beståndsdelar. Det är enkelt att förstå att Vintergatan kan reduceras ner till stjärnor och att stjärnor kan reduceras ner till atomer. Vi kan titta närmare och se hur observationen av det enskilda blir till en observation av en mångfald. Det är inte lika enkelt att titta närmare på upplevelsen av behag, vi kan inte koncentrera oss på det jättenoga och plötsligt se något annat än behag. Vad exakt behag är för sorts sak vet jag inte, men om vi ser det som en objektivt existerande företeelse (olikt Vintergatan som rent objektivt ju bara är atomer), så behöver vi kanske inte tillerkänna termostaten något mål.
OH: Well said, klargörande. Men jag tycker nog att även den som avvisar det du kallar eliminativ reduktionism har anledning att försöka vara lite mindre fördomsfull i frågan om vem eller vad som kan ha preferenser eller uppleva behag. Kan du verkligen veta säkert hur det känns (eller inte känns) att vara en termostat?
TM: Nej, detta är jag benägen att hålla med om. Dock vill jag inte bli allt för öppen, jag vill helst inte behöva inkludera termostater i mina moraliska överväganden.