måndag 1 oktober 2018

My paper on the Omohundro—Bostrom framework for AI goals and motivations

My latest paper on artificial intelligence, Challenges to the Omohundro—Bostrom framework for AI motivations, has been accepted for publication in the journal Foresight. From the introduction:
    The present paper is concerned with scenarios where AI development has succeeded in creating a machine that is superintelligent, in the sense of vastly outperforming humans across the full range of cognitive skills that we associate with intelligence, including prediction, planning and the elusive quality we speak of as creativity. [...]

    While important, [...] matters of timing and suddenness of AI development will mostly be abstracted away in the present paper, in order to focus on issues about what happens next, once a superintelligent machine has been created. A widely accepted thesis in contemporary AI futurology is that we humans can then no longer expect to be in control of our own destiny, which will instead be up to the machine. [...]

    This leads to the crucial issue of what the superintelligent machine will want – what will it be motivated to do? The question is extraordinarily difficult and any answer at present is bound to come with a high degree of uncertainty – to a large extent due to our limited understanding of how a superintelligent machine might function, but also because the answer may depend on what we choose to do during the development stage, up to the point when we lose control. [...]

    So our inexperience with superintelligence puts us in a situation where any reasoning about such a machine’s goals and motivations need to be speculative to a large degree. Yet, we are not totally in the dark, and the discussion need not be totally speculative and ungrounded. The main (and pretty much only) theoretical framework available today for grounding our reasoning on this topic is what in an earlier publication I decided to call the Omohundro—Bostrom theory on instrumental vs final AI goals [...]. The two cornerstones of the theory are what Bostrom (2012) dubbed the Orthogonality Thesis (OT) and the Instrumental Convergence Thesis (ICT), which together give nontrivial and (at least seemingly) useful predictions – not about what will happen, but about what might plausibly happen under various circumstances. The OT and the ICT are, however, not precise and definite on the level that mathematical theorems can be: they are not written in stone, and they have elements of vagueness and tentativeness. The purpose of the present paper is to discuss some reasons to doubt the two theses – not with the intent of demonstrating that they are wrong or useless, but mostly to underline that further work is needed to evaluate their validity and range of applicability.

Read the entire paper here.

2 kommentarer:

  1. Ja, intressant! Jag behöver säkert smälta innehållet i texten lite grann, men det är alldeles klart ingen dynga du serverar.

    Lars Bergström var oförskämd (?) nog att aldrig svara något på texten jag på din inrådan skickade till Filosofisk Tidskrift, trots att han är pensionär och borde haft tid att åtminstone säga "tack, men nej tack".

    Utan ett överordnat mål som man kan ta på allvar kan man i bästa fall ta ett eller flera av sina instrumentella mål på allvar, eller så blir man alldeles håglös. Jag är mindre håglös nu än jag var förr i tiden, vilket tyder på att jag antingen är lite dum eller har hittat en eller flera motivationskällor som faktiskt överlever förståndets kritiska analyser.

    För närvarande funderar jag snarare på politik mm än på filosofi och psykologi av motivationskaraktär, vilket tillsammans med annat tyder på att jag kan hantera mina motivationsproblem.

    En människa har till skillnad från en robot en massa begär som sannolikt inte går i dvala bara för att intellektet har svårt att finna några verkligt objektiva finala värden. Problemet ligger närmast i att samordna en massa begär som saknar ett överordnat mål.

    En robot kan också tänkas ha ett eller flera instrumentella begär som inte utsläcks för att roboten inte finner några finala värden och som den därför väljer att fortsätta agera på.

    En människas begär torde vara hyfsat livsbejakande, då deras biologiska syfte är att främja livet. En robots begär kan dock vara snart sagt vad som helst, så hur ger man en robot sunda livsbejakande begär?

    Livsbejakande begär måste förvisso inte vara människobejakande begär. En super-AI med något slags livsbejakande begär kan få för sig att minska antalet människor på Jorden med mer eller mindre drastiska medel, men det förefaller ändå tämligen osannolikt att den helt vill eliminera människosläktet.

    Vi kan dock finna ett mindre totalt eliminerande av människor vara synnerligen obehagligt, också för att vi själva eller våra nära och kära riskerar att elimineras.

    Steget från begär till moral är relativt problematiskt, även fast människor normalt också har "moraliska" begär. Det ter sig ganska svårt att försäkra sig om att en rationell egennytta blir tillräckligt moralisk.

    SvaraRadera
  2. Tack för intressant arbete. Jag har en fråga angående den andra utmaningen: kommer superintelligensen någonsin vara helt säker på att dess mål är meningslöst? När det gäller existensen av människans själ känns det inte så troligt att det går att avgöra med 100% säkerhet. Men även om AIn t.ex. upptäcker att målet är självmotsägande skulle det ju kunna vara något fel på de "logiska axiomen" så att denna motsättning egentligen är falsk. Ett rimligt agerande vore väl då att satsa allt krut på självförbättring för att kunna avgöra om målet har en mening trots allt? Mvh Jon

    SvaraRadera