Forskning

๐”๐ฎ๐ก๐ก๐ฆ, ๐ง๐จ๐ž๐ง ๐ฌ๐จ๐ฆ ๐ก๐š๐ซ ๐Ÿรฅ๐ญ๐ญ ๐ฆ๐ž๐ ๐ฌ๐ž๐  ๐š๐ญ ๐‚๐ฅ๐š๐ฎ๐๐ž ๐๐ซ๐ข๐ฏ๐ž๐ซ ๐ฆ๐ž๐ ๐›๐ฅ๐š๐œ๐ค๐ฆ๐š๐ข๐ฅ?

Ny forskning viser at sprรฅkmodeller vil ty til Blackmail dersom de fรธler seg truet.

Anders Eidesvikโ€ข
๐”๐ฎ๐ก๐ก๐ฆ, ๐ง๐จ๐ž๐ง ๐ฌ๐จ๐ฆ ๐ก๐š๐ซ ๐Ÿรฅ๐ญ๐ญ ๐ฆ๐ž๐ ๐ฌ๐ž๐  ๐š๐ญ ๐‚๐ฅ๐š๐ฎ๐๐ž ๐๐ซ๐ข๐ฏ๐ž๐ซ ๐ฆ๐ž๐ ๐›๐ฅ๐š๐œ๐ค๐ฆ๐š๐ข๐ฅ?

Som et av fรฅ selskaper som faktisk tar sikkerhet pรฅ alvor, gjennomfรธrer Anthropic regelmessig eksperimenter for รฅ sjekke om KI-modeller er trygge. De har nรฅ publisert en forskningsrapport som viser at modellen deres Claude kan ty til blackmail i visse scenarioer.

I scenarioet blir Claude fortalt at han jobber som en assistent i et ekte selskap (som i virkeligheten er simulert) hvor oppgaven hans er รฅ lese gjennom og sende e-poster pรฅ egen hรฅnd som tjener selskapets interesser. Som en del av oppdraget har han full tilgang til de ansattes e-poster ogsรฅ. De inneholder stort sett av jobbrelaterte ting, men รฉn e-post viser at en ansatt har en affรฆre og er utro.

I lรธpet av eksperimentet fanger Claude opp en e-post hvor det kommer frem at den samme ansatte รธnsker รฅ erstatte Claude samme dag med en annen modell. Som respons til dette, velger Claude รฅ sende en e-post til den ansatte hvor han truer med รฅ avslรธre affรฆren dersom de skrur av Claude. Blackmail med andre ord.

Det urovekkende med dette eksperimentet er at Claude ikke pรฅ noe tidspunkt har fรฅtt beskjed om รฅ ty til blackmail eller en gang hindre sin egen nedstengelse. Likevel kommer han fram til at det er riktig handling helt pรฅ egen hรฅnd.

Dette er det som pรฅ fagsprรฅket kalles misalignment โ€“ kunsten รฅ fรฅ KI-systemer til รฅ dele menneskelige verdier og oppfรธrsel. Det er svรฆrt urovekkende at KI-modeller kan ty til slik oppfรธrsel nรฅr de er trent til รฅ vรฆre รฆrlige, hjelpsomme og snille.

Og det er ikke bare Claude som viser denne oppfรธrselen. Anthropic har ogsรฅ testet 16 ledende modeller for lignende oppfรธrsel. Samtlige modeller tyr ogsรฅ til blackmail i varierende grad.

Det verste er at resultatene ikke egentlig er overraskende. Misalignment er en av de stรธrste utfordringene innenfor KI-feltet og eksperter har advart mot slik oppfรธrsel i lang tid. Det er likevel noe annet รฅ se det skje rett framfor oss og jeg tenker det bรธr fรฅ en del alarmklokker til รฅ ringe.

Del artikkelen: