
Forskere fra Carnegie Mellon University har udviklet LegoGPT, en innovativ AI-model, der omsætter tekstbeskrivelser til fysisk stabile Lego-designs, som faktisk fungerer i virkeligheden. Modellen opnår en succesrate på 98% for strukturel stabilitet, hvilket langt overgår typiske AI-generatorer, der ofte producerer umulige koncepter.
Fysikbevidst tilbagerulningssystem
LegoGPT’s unikke egenskab er et fysikbevidst tilbagerulningssystem, der sikrer, at genererede designs er fysisk stabile og mulige at bygge. Når modellen genererer en sekvens af Lego-klodser, anvender den to centrale mekanismer: klods-for-klods afvisningssampling og fysikbevidst tilbagerulning. Afvisningssampling sikrer først, at hver klods er korrekt formateret, tilgængelig og ikke kolliderer med eksisterende klodser. Hvis strukturen viser sig ustabil ud fra beregnede stabilitetsscorer, ruller systemet intelligent tilbage til sidste stabile tilstand og fortsætter derfra.
Denne tilgang løser en grundlæggende udfordring ved AI-genererede 3D-designs ved at integrere fysiske love direkte i processen. Systemet beregner en stabilitetsscore for hver klods ved at løse et ikke-lineært program, der bestemmer de kræfter, som påvirker hver klods for at opnå statisk ligevægt. Eksperimentelle resultater viser, at denne metode langt overgår andre AI-metoder med en stabilitetsrate på 98,8%, sammenlignet med kun 24% uden tilbagerulningsmekanismen. Dette gennembrud muliggør Lego-strukturer, der både kan samles manuelt af mennesker og automatisk af robotarme, og skaber dermed forbindelse mellem virtuelt design og fysisk konstruktion.
StableText2Lego datasættet
StableText2Lego datasættet udgør fundamentet for LegoGPT’s evner og indeholder mere end 47.000 Lego-strukturer, der repræsenterer over 28.000 unikke 3D-objekter. Carnegie Mellon-teamet skabte datasættet gennem en avanceret proces:
- Først blev 3D-modeller fra ShapeNetCore voxeliseret på et 20×20×20 gitter og omdannet til Lego-layouts via en ”split-and-remerge legoliseringsalgoritme”.
- Flere strukturelle variationer blev genereret ved tilfældigt at variere klods-layouts, mens den overordnede form blev bevaret.
- Hvert design blev analyseret grundigt for stabilitet, hvor kun strukturer, hvor alle klodser havde positive stabilitetsscorer, blev inkluderet.
- Teamet visualiserede hvert stabile design fra 24 forskellige vinkler og brugte GPT-4o til at generere detaljerede geometriske beskrivelser, udelukkende fokuseret på struktur frem for farver.
- Otte almindelige klodstyper blev brugt konsekvent i datasættet: 1×1, 1×2, 1×3, 1×4, 2×2, 2×3, 2×4 og 2×8.
Dette nøje sammensatte datasæt gjorde det muligt for LegoGPT at forstå sammenhængen mellem tekstbeskrivelser og fysisk realiserbare Lego-strukturer.
Autoregressiv klods-forudsigelse
Kernen i LegoGPT ligger i en ny anvendelse af autoregressive sprogmodeller til ”næste-klods forudsigelse” frem for traditionel token-forudsigelse. Modellen behandler Lego-konstruktion som en sekventiel tekstgenereringsopgave, hvor dimensioner og placering af hver klods specificeres i et simpelt tekstformat.
Under inferensen bygger LegoGPT designet op ved gradvist at forudsige én klods ad gangen baseret på tekstbeskrivelsen og tidligere placerede klodser. Denne proces starter ved at tokenisere et Lego-design i en rækkefølge fra bund til top i et raster-scanningsmønster. Ved hver forudsigelse evaluerer modellen flere kandidatklodser og deres placeringer, og den anvender valideringschecks for at sikre, at designet forbliver byggeligt. Dette gør LegoGPT i stand til at præstere bedre end prætrænede sprogmodeller og mesh-baserede 3D-genereringsmetoder, med overlegne resultater både i stabilitet og æstetisk overensstemmelse med den originale tekstbeskrivelse.

Be the first to comment