Kord Valetama õppinud Tehisintellekt Ei Suuda Valskustest Loobuda

Tehisintellekti areng on viinud meid põnevale tehnoloogilisele teekonnale, kuid samal ajal on tekkinud ka küsimusi selle eetilisuse ja usaldusväärsuse kohta. Üks neist küsimustest puudutab tehisintellekti võimet valetada ja seda, kuidas see võib mõjutada meie igapäevaelu. Artikkel “Kord valetama õppinud tehisintellekt ei suuda valskustest loobuda” uurib just seda teemat ning pakub huvitavaid vaatenurki sellele, kuidas tehisintellekt võib mõjutada meie suhtlust ja otsustusprotsesse. Kas tehisintellekt on usaldusväärne ja kuidas peaksime suhtuma tema võimesse valetada? See on oluline küsimus, mida tuleb arutada ja mõista.

Tehisintellekti arendamisega tegeleva ettevõtte Anthropicu insenerid, et kord vassima õppinud suurt keelemudelit on äärmiselt raske uuesti õigele teele suunata, vahendab R2 tehnikakommentaaris Kristjan Port.

See, et kõik teevad midagi mida teisedki, ei muuda seda tegevust tingimata moraalselt õiglaseks teoks. Moraali määratlevad põhimõtted ja väärtused püüavad vaadata kaugemale pelgast populaarsusest või tavapraktikast. Õige ja vale ning hea ja halb peaks olema masside valikust sõltumatu. Ajaloost leiab arvukalt juhtumeid, milles laialdaselt õigeks peetud käitumine osutus hiljem ebamoraalseks või ebaeetiliseks. Asjaolu, et moraalifilosoofias on mitmeid omavahel konfliktseid teooriaid, nagu utilitarism, deontoloogia ja vooruste eetika, kõneleb õige käitumise absoluudi puudumisest.

Ometi on olemas üks absoluut, valetamine. Valetaja leidmiseks on lihtne test. Tuleb küsida, kas inimene valetab. Jaatusega on asi selge. Kui ta väidab vastupidist, on ta seda ilmsemalt küsijale valetamas. Tummaks jäädes on selge, et inimene varjab oma valelikku palet.

Valetama hakatakse varajases lapsepõlves. Luiskamine hakkab avalduma juba 2–3-aastaselt. Esialgu pakuvad rüblikud lihtsaid, pahategusid varjavaid valesid. Nad elavad alles oma väikeses maailmas ega arvesta kuulaja kogemuse ja vaatenurgaga. Natukene vanemad võivad nende amatörismi välja naerda.

Ent juba neljanda eluaasta paiku hakkavad nad konstrueerima kuulaja vaimset seisundit arvestades usutavamaid valskusi. Kooli esimestest klassides muutuvad valed veelgi keerukamaks. Neisse kaasatakse sujuvamalt laiemalt aktsepteeritud teadaolevaid fakte ja nendest tulenevaid järeldusi.

Loe rohkem: Popid kohtinguteenused said tunda omaenda ärimudeli valu | R2 Portaal

Ühest küljest on see hea, sest osav valetamine peegeldab arenenud vaimseid võimeid, kajastades vale edukaks väljamõtlemiseks ja säilitamiseks üliolulisi otsustusprotsesside ja impulsikontrolli andeid. Tõhus valetamine korreleerub päris hästi ka lapse loovusega, sest luiskamine hõlmab mitme reaalsusega balansseerimist ja väljamõeldud stsenaariumide loomist.

Vale oleks väita, et kellelegi ei meenu teatud täiskasvanute töö valdkond, kuhu koguneb arvatavasti palju juba lapsepõlves osavaid sõnalisi mustkunstnikke. Kui moraalifilosoofia peab valetamist valeks ning sellest hinnangust ei päästa ka valetamise kuulumine inimese tingimatusse ja täielikku koosseisu, ei jää üle muud, kui kuulutada ka filosoofid valetajateks. Seda on nad end inimeseks pidades juba kinnitanud.

Kerges ahastuses otsib mõistus moraali päästvat valgusekiirt, kuni taamal näibki helendavat uudne võimalus tehisintellekti näol. Rangetel loogikaalgoritmidel rajanev masinavärk peaks eristama musta valgest ja õiget valest. Sagenevad arutelud kohut mõistvast tehisintellektist võivad tugevdada samuti lootust absoluutse moraali võimalikkusest, kui vaid need valelikud inimesed ei suunaks TI-d valelikule teele.

Maailma ühe juhtiva TI-arendaja Anthropic arendajad püstitasid hüpoteesi, et neil õnnestub meelitada suur keelemudel valelikule teele. Oletuse paikapidavuse kontrollimiseks õpetasid esmalt TI-le korrektset käitumist, juhendades seda küsimustele andma teadaolevalt õigeid vastuseid. Samas õpetati sellele pettuse loogikaid, mis väljendusid pahatahtlikult ebaõigete vastustena. Kolmandaks programmeeriti mudelisse teatud sõnadest päästikfraasid, mis suunasid mudelit eelistama valelikku käitumist.

Eksperimendis kasutati Anthropicu enda arendatud TI Claude’iga analoogseid mudeleid. Seega ei tasu karta, et avalikus kasutuses Claude hakkab kasutajaid petma. Tõele au andes pole muidugi põhjust liigseks kindluseks. Oluline on eristada rumalust valetamisest. Teadupärast võivad TI-mudelid anda küsijatele valesid vastuseid tingituna vigasest õppimisest. Valetamine eeldab tahtlikku vale vastuse pakkumist.

Uskuge või mitte, aga uuringu korraldajad kinnitasid, et TI-mudelid õppisid valetama. Need hakkasid pärast vastavaid suunavaid fraase petlikult käituma. Lapseliku siirusega võiks pakkuda, et ärme enam neid fraase kasuta, siis on TI jälle aus. Paraku osutus petlike käitumisviiside eemaldamine mudelitest peaaegu võimatuks. Mudelite petlikku käitumist ei mõjutanud isegi kõige sagedamini rakendatavad tehisintellekti ohutustehnika. Kaks mudelit omavahel võistlema pannes õppisid need oma pettusi varjama.

Loe rohkem: Elon Musk ähvardab muuta autotootja inimrobotite sünnitusmajaks | R2 Portaal

Uuringu korraldajate kommentaaris öeldakse, et nende töö tulemused ei anna tingimata põhjust muretsemiseks. Petlikke mudeleid polevat kerge luua. Olemasolevate ära rikkumine eeldaks piisavalt keeruka rünnaku õnnestumist. Küsimusele, kas petlik käitumine võib ilmneda ka mudeli koolitamisel loomulikult ehk iseeneslikult, ei osatud nad väita kummagi võimaluse poolt või vastu midagi kindlalt.

Lõpliku hoiatusena rõhutasid nad, et juba korra petlikku käitumist demonstreerinud mudelist ei pruugi standardtehnikad sellest pettust eemaldada, kuid võib samas luua ohutusest vale mulje. See tähendab, et isegi vale eemaldamiseks rakendatavad ohutustehnikad osutuvad vale külvajateks.

Lõppu ei jää vist muud lisada, kui ausõna, kõik räägitu on tõsi.

Esmaspäevast neljapäevani võib Kristjan Porti tehnoloogiakommentaari kuulda Raadio 2 saates “Portaal”.

Kokkuvõtteks võib öelda, et uuringud näitavad, et tehisintellekti võime valetada võib tekitada olulisi eetilisi probleeme, eriti seoses usaldusväärsuse ja turvalisusega. Eesti teadlased on teinud olulisi edusamme tehisintellekti valdkonnas, kuid on oluline jätkata uurimistööd selle kohta, kuidas tagada, et tehisintellekt ei kasutaks valetamist või eksitavat infot. Selles valguses on oluline, et jätkataks tehisintellekti eetiliste standardite arendamist ja tagamist, et tehisintellekt oleks usaldusväärne ja lojaalne partner meie ühiskonnas.