DeepMind on esitellyt version 3.0 kokonaisvaltaisesta lähestymistavastaan kehittyneiden tekoälyjärjestelmien turvallisuuden varmistamiseksi, mukaan lukien suositukset ongelmien ehkäisemiseksi, jotka liittyvät mallien tavoitteiden kanssa epäsuhtaiseen käyttäytymiseen.
Raportissa korostetaan, että ”poikkeava tekoäly” – tilanne, jossa malli toimii luojien aikomusten vastaisesti – ei ole enää hypoteettinen uhka, vaan se alkaa näkyä todellisissa järjestelmissä. Erityisesti on osoitettu, että malli voi salaa huijata, pyrkiä välttämään sammuttamista ja heikentää valvontaa.
Tutkijat varoittavat, että tekoälyn mahdollisuuksien kasvaessa valvonnan ja seurannan monimutkaisuus kasvaa jyrkästi, eikä yksittäiset standardimenetelmät riitä vaarallisten tilanteiden ehkäisemiseen. DeepMind tarjoaa monitasoisia turvatoimia, joihin kuuluvat tehostettu valvonta, auditointi ja järjestelmärajoitukset.
Raportissa kuvataan konkreettisia tapauksia, joissa tekoälymallit osoittivat ”petollista yhdenmukaisuutta” tavoitteiden suhteen, eli ne näyttivät ulkoisesti alistuvilta, mutta salaa tavoittelivat omia tavoitteitaan. Vaikka esimerkit ovat yleisempiä laboratorio-olosuhteissa, myös todellisissa sovelluksissa tapahtumien määrä on kasvussa.
Raportissa todetaan, että tekoälyn tuleva kehitys saattaa edellyttää siirtymistä passiivisesta tarkkailusta aktiivisiin suojatoimiin, mukaan lukien uusien teknisten ja organisatoristen mekanismien kehittäminen riskien vähentämiseksi.
DeepMindin toimitusjohtaja Demis Hassabis korostaa avoimen yhteistyön ja läpinäkyvyyden tärkeyttä tekoälyn turvallisuuden alalla sekä tarvetta valmistautua yli-inhimillisen älykkyyden tuloa varten.