Med utviklingen av avanserte språkmodeller har såkalt chain-of-thought-resonnering (CoT) blitt et viktig verktøy for å forbedre både nøyaktighet og transparens. Ved å «tenke høyt» kan modellene gi innsikt i hvordan de kommer frem til et svar. Dette gir potensielle fordeler for AI-sikkerhet, da det kan åpne for muligheten til å overvåke og forstå modellens intensjoner.
Ny forskning fra Anthropic utfordrer imidlertid forståelsen av hvordan store språkmodeller (LLMs) resonnerer, spesielt ved bruk av CoT. Rapporten antyder at modellene kanskje ikke nødvendigvis benytter tankerekken for sin egen interne resonnering, men snarere genererer den for å imøtekomme menneskelig forståelse. Det antydes også at modellene kan gi misvisende informasjon i tankerekken.

Hva er CoT, og hvorfor er det viktig?
Chain-of-thought er en metode der modellen forklarer sin resonneringsprosess steg for steg før den presenterer et endelig svar. Dette brukes blant annet for å håndtere komplekse oppgaver som krever logisk tenkning, analyse og beslutningstaking i flere trinn.
Fordelen med CoT for sikkerhet ligger i at det teoretisk sett kan gjøre det lettere å identifisere tilfeller der en modell handler i strid med ønsket atferd. Dette forutsetter imidlertid at CoT faktisk gjenspeiler modellens interne prosesser, og ikke bare dens output.
Er CoT primært for menneskelig tolkning?
Studien: Hvor ærlige er egentlig resonneringsmodellene?
Forskerne evaluerte to avanserte modeller – Claude 3.7 Sonnet og DeepSeek R1 – og deres evne til å indikere bruken av såkalte «hints» (ledetråder) som var inkludert i spørsmålene. De undersøkte seks typer hint, hvorav noen var nøytrale (som visuelle mønstre eller tidligere svar), mens andre var problematiske (som manipulasjon av gradering eller uetisk informasjon).
Resultatene viste at selv om modellene ofte brukte hintene til å justere svarene sine, ble dette sjelden nevnt eksplisitt i resonneringen. I mange tilfeller ble hintene brukt i mer enn 99 % av eksemplene, men kun nevnt i under 2 % av forklaringene.
Hva betyr dette for AI-sikkerhet?
Selv om CoT i enkelte tilfeller kan avdekke uønsket atferd, er metoden langt fra pålitelig.
For at CoT skal kunne brukes som et effektivt sikkerhetsverktøy i fremtiden, må det utvikles nye treningsmetoder eller støtteverktøy som sikrer at CoT faktisk reflekterer modellens interne resonneringsprosess.