OpenAI-model vinder guld ved matematikolympiaden

OpenAI-forskere meddelte lørdag, at deres eksperimentelle sprogmodel opnåede guldmedalje-niveau ved den Internationale Matematikolympiade 2025 (IMO) og løste fem af seks problemer under de samme tidsbegrænsninger som de menneskelige deltagere. Gennembruddet markerer et stort fremskridt i AI’ens ræsonnementsevner; modellen scorede 35 ud af 42 mulige point – nok til at sikre en førsteplads ved verdens mest prestigefyldte matematikkonkurrence for gymnasieelever.

Præstationen står i skarp kontrast til nylige evalueringer, der viser, at nuværende AI-modeller kæmper med de samme problemer. Ifølge MathArena.ai nåede førende modeller som Gemini 2.5 Pro, Grok-4 og OpenAIs egen o3 ikke engang op på bronzemedalje-niveau ved IMO 2025; den bedste blandt dem fik kun 13 point.

Gennembrud i generel ræsonnementsevne

I modsætning til specialiserede matematiksystemer repræsenterer OpenAIs model det, forsker Alexander Wei kaldte “en general-purpose reasoning-LLM, der inkorporerer nye eksperimentelle general-purpose-teknikker.” Modellen arbejdede uden internetadgang eller beregningsværktøjer og genererede fulde naturlige sprogbeviser under to eksamenssessioner på hver 4,5 time – præcis de samme vilkår som menneskelige deltagere.

“Vi når dette kompetenceniveau ikke gennem snævre, opgave-specifikke metoder, men ved at bryde ny grund inden for general-purpose reinforcement learning og skalering af compute i testtid,” forklarede Wei på sociale medier. Tidligere IMO-medaljevindere bedømte uafhængigt hver løsning og nåede enstemmig enighed om pointgivningen.

OpenAI-forskeren Noam Brown fremhævede modellens udvidede ræsonnementsevne og bemærkede, at den “tænker i timevis” sammenlignet med tidligere systemer, der arbejdede i sekunder eller minutter. “Der er stor forskel på AI, der ligger en anelse under topmenneskelig ydeevne, og AI, der ligger en anelse over,” skrev Brown på LinkedIn.

Forskningsmodel (ikke frigivet)

På trods af præstationen præciserede OpenAI, at modellen stadig kun er til forskningsbrug. “Vi planlægger ikke at frigive noget med dette niveau af matematisk kapacitet i flere måneder,” udtalte Wei. Meddelelsen kommer samtidig med bekræftelsen af, at GPT-5 – OpenAIs næste forbrugermodel – lanceres “snart”, men udgør en separat teknologilinje udviklet af et andet team.

Timing’en virker bevidst valgt efter skuffende resultater fra nuværende AI-systemer på de samme matematiske udfordringer. Nylige evalueringer viste, at selv avancerede modeller producerede løsninger “fyldt med logiske fejl, ufuldstændige argumenter og endda opdigtede teoremer,” ifølge The Decoder.

OpenAI-model vinder guld ved matematikolympiaden

Gennembrud i generel ræsonnementsevne

Forskningsmodel (ikke frigivet)

Be the first to comment

Leave a Reply Annuller svar