Mindre språkmodeller

I møte med dagens KI-bølge ser vi en tydelig konsensus: større språkmodeller er bedre språkmodeller. Flere milliarder parametere, enorme treningsdatasett, imponerende demonstrasjoner. De store språkmodellene kan blant annet gjengi teksten til The Beatles-sangen «Let It Be» ord for ord, og mye annet som vitner om enorm bredde og hukommelse. Dette er imponerende.

Hvor ofte trenger en bedrift en språkmodell som kan gjengi sangtekster?

Her i Data Sør har vi begynt å stille oss et spørsmål:

Kan det tenkes at mindre eller små språkmodeller i noen tilfeller kan være overlegne de store?

Ikke bare fordi de krever mindre ressurser, det er åpenbart. Spørsmålet vårt handler om noe annet:

Kan en stor språkmodell ha «for mye å tenke på»?
Kan den enorme mengden kunnskap noen ganger komme i veien for den konkrete oppgaven?
Skaper all denne informasjonen mer «støy» enn nytte i smale, praktiske bruksområder?

Se for deg en mindre språkmodell som er trent og finjustert utelukkende på:

interne manualer,
interne rutiner,
tidligere kundedialoger,
teknisk dokumentasjon for egne produkter og tjenester.

Denne modellen har ikke lest «Let It Be». Den har ikke trålet hele internett. Den er kuratert for formålet. Fokuset er sylskarpt. Mindre støy. Mer kontroll. Kanskje mer forutsigbar atferd.

Dette leder oss til noen mer grunnleggende spørsmål:

Er det mulig å trene en modell til å mestre språket uten at den samtidig absorberer all kunnskapen som språket formidler?
Kan en modell lære seg grammatikk, struktur, tone og nyanser, men i mindre grad «huske» alt innholdet den har sett?
Er det egentlig en fundamental forskjell mellom å forstå språk og å huske fakta?

Vi er nysgjerrige på følgende:

Finnes det situasjoner hvor små eller mindre språkmodeller faktisk har gitt bedre resultater enn store?
Kan det finnes en «sweet spot» hvor en modell har nok språkforståelse, men ikke så mye memorert kunnskap at det blir støy?
Kan små språkmodeller:
- bli mer forutsigbare i smale domener,
- være enklere å styre mot ønsket tonefall, regelverk og etterlevelse,
- gi færre “distraksjoner” fordi de ikke bærer med seg «alt mulig annet»?
Eller er det motsatt: At store språkmodeller uansett vil gi bedre kvalitet, fordi bredde og kontekstforståelse alltid hjelper?

Vi sitter ikke med fasiten. Men her i Data Sør har vi bestemt oss for å ta spørsmålet på alvor. Vi ønsker å forske på dette – gjerne i samarbeid med bedrifter som har konkrete behov og bruksområder.

Del denne artikkelen

Prøv KI selv!