En ny og spennende konkurranse har blitt lansert for å undersøke hvor dyktige kunstig intelligens (KI)-systemer faktisk er til å utføre forskning. OpenAI, selskapet bak den velkjente KI-modellen ChatGPT, har utviklet en test kalt PaperBench. Denne testen utfordrer ulike KI-agenter til å reprodusere resultater fra ledende forskningsartikler innen maskinlæring.
Se for deg at en KI-robot får en kompleks forskningsartikkel. Den får deretter tilgang til internett, verktøy for å skrive og kjøre kode, samt et avgrenset miljø for eksperimentering. Oppgaven består i å forstå artikkelen, skrive all nødvendig kode fra grunnen av, utføre eksperimentene og verifisere om den oppnår de samme resultatene som de opprinnelige forskerne.
Dette er en krevende oppgave. Vanligvis bruker erfarne forskere flere dager på å fullføre dette for bare én artikkel. Nå viser det seg at KI-agenter kan klare det på bare noen få timer.
Hvorfor er dette viktig?
Dersom KI etter hvert overgår menneskelig forskningskapasitet innen KI-feltet, kan det føre til en akselerert utvikling. Tenk deg at KI ikke bare kan reprodusere eksisterende forskning, men også identifisere nye metoder for å forbedre seg selv – kontinuerlig. Dette fenomenet omtales av noen som en «intelligenseksplosjon».
PaperBench er derfor et forsøk på å evaluere hvor langt man har kommet i retning av denne selvdrevne KI-forskningen. Den bidrar også til å belyse de potensielle risikoene og fordelene ved mer autonome KI-systemer.
Slik foregår testen
- 20 utvalgte forskningsartikler: PaperBench omfatter 20 nylige og anerkjente forskningsartikler fra en stor internasjonal maskinlæringskonferanse (ICML).
- Detaljerte vurderingskriterier: For hver artikkel har forskerne bak PaperBench, i samarbeid med de opprinnelige forfatterne, utarbeidet spesifikke og detaljerte sjekklister (rubrikker) for å definere kravene for å reprodusere forskningen. Disse sjekklistene inneholder tusenvis av individuelle krav.
- KI-dommer: Ettersom det er tidkrevende for mennesker å vurdere om en KI har reprodusert en artikkel korrekt, er det utviklet en KI-dommer som kan automatisere denne prosessen. Denne KI-dommeren er trent til å sammenligne KI-agentens forsøk med de opprinnelige forskningsresultatene og sjekklisten.
- Juks er ikke tillatt: KI-agentene har tilgang til internett, men de har ikke tillatelse til å laste ned den originale koden fra forskernes nettsteder. Målet er å vurdere om KI-en kan skrive koden selv fra bunnen av.
Hvem er best i klassen?
I den første runden av PaperBench var det Anthropic sin KI-modell, Claude 3.5 Sonnet, som oppnådde best resultat med en score på 21 %. OpenAIs egen modell kom på andre plass med 13,2 %. Andre testede modeller presterte svakere.
Det er interessant å merke seg at menneskelige eksperter (PhD-studenter og personer med doktorgrad i maskinlæring) også ble utfordret til å reprodusere et utvalg av de samme forskningsartiklene. Etter 48 timers arbeid klarte de i gjennomsnitt å reprodusere 41,4 % av forskningen i de tre utvalgte artiklene. Dette indikerer at KI-systemene fortsatt har et stykke igjen før de er like dyktige som menneskelige forskere til denne typen oppgaver.
Hva nå?
Selv om KI-systemene ikke overgikk menneskene denne gangen, er forskerne bak PaperBench optimistiske. De mener at forbedrede verktøy og rammeverk rundt KI-modellene vil føre til at de blir betydelig bedre til å løse slike komplekse forskningsoppgaver i fremtiden.
PaperBench og lignende tester er viktige for å overvåke utviklingen av KI og for å forstå potensialet for selvdreven forskning. Selv om en full «intelligenseksplosjon» kanskje fortsatt er et stykke unna, viser resultatene fra PaperBench at KI allerede besitter imponerende evner når det gjelder å forstå og reprodusere avansert vitenskapelig arbeid.
Det blir spennende å følge med på hvordan KI-robotene vil prestere i neste forsknings-NM!