Hjem Chat Oppgave Middagstips Artikler KI-spillet KlippKort
← Tilbake til alle artikler

Gemini 3 – vi mangler superlativer

Er dette det største hoppet vi har sett siden GPT-4? Tallene bak Gemini 3.

Vi har blitt vant til ukentlige lanseringer av «revolusjonerende» AI-modeller. Det er lett å bli nummen for superlativene. Men ser vi bak markedsføringen og dykker ned i benchmarks og tekniske rapporter for den nylanserte Gemini 3, ser vi tegn til et reelt paradigmeskifte – spesielt når det gjelder resonnering og multimodalitet.

Det er ikke lenger snakk om marginale forbedringer. Her er de konkrete, målbare endringene som gjør at utviklere og analytikere nå sperrer opp øynene:

📊 Et kvantesprang i resonnering (ARC-AGI)
ARC-AGI anses av mange som den «hellige gral» for å måle om en AI faktisk kan lære nye mønstre, fremfor å bare repetere treningsdata.

  • Tidligere toppmodeller (som GPT-5-familien og Claude 3.5 Sonnet) har stanget i taket på rundt 15–17 %.
  • Gemini 3 knuser dette taket med en score på over 31 %.
    Dette indikerer en drastisk forbedret evne til abstrakt problemløsning og visuell logikk.

🧠 Humanities Last Exam
Dette er en test designet for å være ekstremt vanskelig, med spørsmål på ekspertnivå.

  • Der ledende konkurrenter ligger på ca. 26 %, scorer Gemini 3 hele 37,5 % (uten verktøy) og opp mot 46 % når den får bruke kjemmekjøring av kode. Avstanden ned til andreplassen er nå betydelig.

🏢 Planlegging over tid (Vending Bench)
I tester som simulerer langsiktig forretningsdrift (å styre en vareautomat over tid), sliter mange modeller med å holde tråden.

  • Gemini 3 oppnådde en simulert «net worth» på $5,478, sammenlignet med nærmeste konkurrent (Claude) på $3,800. Dette viser en langt bedre evne til «long horizon planning» – altså å ta valg nå som lønner seg langt frem i tid.

🎥 Ekte multimodalitet
Modellen prosesserer nå video «frame-by-frame» med et vindu på 1 million tokens. Det betyr at den ikke bare leser transkripsjonen, men analyserer visuelle endringer i bildet over tid med en presisjon vi ikke har sett før.

Hva betyr dette for oss?
Vi beveger oss fra modeller som er gode på tekstgenerering, til systemer som kan håndtere kompleks logikk, visuelle gåter og lange tidslinjer på en måte som begynner å ligne på faktisk problemløsning.

Det er fortsatt «hallusinasjoner» og feilskjær (ingen modell er perfekt), men bunnlinjen er at listen for hva vi kan forvente av en AI-modell er flyttet betraktelig i løpet av de siste dagene.

Prøv KI selv!

Opplev kraften av kunstig intelligens med vår gratis KI-chat.

Start KI-chat