Stel je voor dat je een slimme robot koopt die je huis moet opruimen, maar hij ziet je bank als een obstakel in plaats van een meubelstuk. Dat is het probleem met veel huidige AI: ze begrijpen de fysieke ruimte niet goed genoeg. Tot nu toe was dit een groot struikelblok voor serieuze 3D-ruimtelijke AI.

Wat nu gebeurt in Bulgarije, kan de manier waarop machines de wereld zien fundamenteel veranderen. Wetenschappers van het INSAIT-instituut van de Universiteit van Sofia hebben niet zomaar een database gemaakt; ze hebben de grootste openbare 3D-dataset ter wereld gelanceerd die taal en ruimte écht koppelt.

De ‘SceneSplat-49k’ revolutie

Het meest frustrerende in onze digitale wereld – of je nu een nieuwe *smart speaker* installeert of je *drone* programmeert – is hoe beperkt het ruimtelijk inzicht van AI is. Ze denken nog te veel in platte beelden.

INSAIT, in samenwerking met topinstituten zoals de Universiteit van Amsterdam en ETH Zürich, heeft dit aangepakt met **SceneSplat-49k**. Dit is geen verzameling simpele foto's. Het gaat hier om bijna 49.000 ongelooflijk gedetailleerde 3D-scènes uit de echte wereld.

Waarom Bulgaarse wetenschappers stiekem de grootste 3D-dataset voor AI bouwden - image 1

Meer dan alleen een kiekje: Het gaat om interactie

Wat deze verzameling zo bijzonder maakt, is de combinatie van 3D-data en taal. Ongeveer 12.000 van deze scènes bevatten ook taalkundige kenmerken. Dit betekent dat de AI nu kan leren wat het betekent als je zegt: "Zet de sleutel op de kast naast de deur."

Denk aan de uren die ze hierin hebben gestoken: ze hebben maar liefst 861 GPU-dagen gebruikt. Dat is een serieuze investering, vergelijkbaar met het runnen van supercomputers non-stop gedurende bijna tweeënhalf jaar. Dit is geen hobbyproject voor in de avonduren.

  • Diepte is cruciaal: Oude systemen beoordeelden 3D-ruimte vaak via 2D-projecties. Dit is alsof je een gebouw wilt ontwerpen na alleen de schaduw te hebben gezien.
  • Nieuwe benchmark: Ze lanceerden ook de SceneSplat-Benchmark. Dit is de testomgeving die AI-modellen dwingt om in de 3D-werkelijkheid te presteren, niet alleen op simpele platte vragen.
  • Robots leren lopen én praten: Dit onderzoek is een directe springplank voor betere robots, navigatie in *Augmented Reality* (AR) en veel natuurlijker mens-machine interactie.

De Nederlandse connectie: Waarom dit nu relevant is

Hoewel het onderzoek uit Sofia komt, merk je als consument in de Lage Landen de impact snel. Stel je voor hoe de logistiek in de distributiecentra rondom Rotterdam efficiënter kan worden, of hoe zelfrijdende auto's betrouwbaarder obstakels in de regen herkennen. **AI wordt eindelijk echt 'aards'.**

Waarom Bulgaarse wetenschappers stiekem de grootste 3D-dataset voor AI bouwden - image 2

Veel van dit werk is vergelijkbaar met het filteren van ruis uit je radio-ontvangst: voorheen was de data 'rommelig' en inconsistent. Door dit enorme, schone 3D-dataset aan te bieden, geven de Bulgaarse onderzoekers de wereld een perfect gefilterde databron.

De volgende stap ziet er minder futuristisch uit dan je denkt

Dit klinkt misschien als sciencefiction die nog jaren duurt, maar de implementatie gaat snel. De volgende keer dat je je slimme stofzuiger een opdracht geeft, zal hij de ruimte niet alleen 'zien' maar werkelijk 'begrijpen' hoe hij de hoeken moet ontwijken. Dit is de onderliggende technologie die dit mogelijk maakt.

Mijn persoonlijke indruk is dat de focus op openbare datasets, in plaats van gesloten commerciële silo's, de sleutel is tot deze snelle vooruitgang. Ze geven de hele gemeenschap de gereedschappen.

Wat denk jij: welk alledaags apparaat in je huis zal het eerste zijn dat profiteert van AI dat de driedimensionale ruimte echt begrijpt?