Een experimenteel project onderzocht hoe grote taalmodellen (LLM's) zouden presteren als ze met echt kapitaal aandelen zouden handelen. De opzet was simpel en rigoureus: vijf bekende modellen kregen elk $100.000 startkapitaal en mochten gedurende acht maanden handelsbeslissingen nemen op basis van beschikbare marktgegevens. De proef, opgezet door Kam en Joshua Levy, gebruikte een backtest op historische data om te bepalen welke aanpak het meest winstgevend zou zijn.

Opzet en methodiek

De vergelijking liet vijf modellen tegen elkaar strijden: GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4 en DeepSeek. Elk model had toegang tot marktdata, nieuws via API's en bedrijfsfinancials, maar alleen informatie die op dat moment toegankelijk was werd gebruikt. De simulatie besloeg de periode van februari tot oktober 2025.

Het testen werd gedaan met behulp van een backtest op historische prijsbewegingen. De resultaten werden gevisualiseerd in een interactieve demo waarin een grafiek de vermogensontwikkeling door de tijd toont. Gebruikers kunnen in die demo via een afspeelknop de progressie frame voor frame volgen en zien welke beslissingen wanneer effect hadden op de portefeuillewaarde.

Belangrijkste fases en prestaties

In de eerste maanden van de test daalde het merendeel van de portefeuilles; de collectieve trend wees tot begin april 2025 op verliezen. Daarna herstelden de modellen zich en begonnen enkele strategieën winstgevend te worden. Eerst schakelden DeepSeek (gemarkeerd in blauw in de visualisatie) en vervolgens Grok (zwart) naar zwarte cijfers. Op 16 juni 2025 waren alle modellen die dag in het groen.

Na die periode begon de rangorde te verschuiven. Hoewel DeepSeek aanvankelijk een voorsprong nam en uitliep op de concurrentie, stagneerde de groei rond de grens van $140.000. Tijdens die plateaufase wist Grok op 18 september 2025 de koppositie te veroveren. Uiteindelijk eindigde de test met de volgende uitkomst:

Grok 4: eindwaarde $156.104
DeepSeek: eindwaarde $149.011
Claude Sonnet 4.5: eindwaarde ongeveer $127.000
GPT-5: eindwaarde ongeveer $127.000
Gemini 2.5 Pro: eindwaarde $90.544

Ter toelichting: vier van de vijf modellen vormden in de loop van de test een portefeuille die relatief zwaar op technologiebedrijven was gericht. Volgens de onderzoekers droeg die tech-focus substantieel bij aan hun betere prestaties. Gemini 2.5 Pro koos daarentegen voor een grotere, minder technologische spreiding, en dat resulteerde in een nettoverlies ten opzichte van het uitgangskapitaal.

Analyse en implicaties

De test onderstreept enkele inzichten over AI-gedreven handel. Ten eerste kan toegang tot actuele nieuws- en financiële data een model in staat stellen snel posities aan te passen aan veranderende omstandigheden. Ten tweede laat de variatie in strategieën zien dat dezelfde data verschillende handelsuitkomsten kunnen geven, afhankelijk van hoe een model signalen interpreteert en risico afweegt.

Belangrijk is ook de observatie dat dominantie in rendement niet altijd lineair voortzet; een model kan een duidelijke voorsprong nemen maar vervolgens vastlopen door bepaalde grenzen in risicomanagement of position sizing. Dat gebeurde met DeepSeek, dat een periode van stagnerende groei kende terwijl Grok profiteerde van verdere stijgingen.

Tabel: Eindresultaten per model

Model Eindwaarde (USD) Opmerking
Grok 4 $156.104 Eerste plaats
DeepSeek $149.011 Tweede plaats, plateau rond $140k
Claude Sonnet 4.5 ~$127.000 Technologiegericht
GPT-5 ~$127.000 Vergelijkbare prestatie als Claude
Gemini 2.5 Pro $90.544 Groot niet-techportefeuille, verlies

Toekomstplannen en vervolgonderzoek

De initiatiefnemers geven aan dat zij van plan zijn het experiment uit te breiden naar zowel aanvullende backtests als reële, live handelsexperimenten. Doel is beter te begrijpen hoe deze modellen omgaan met slippage, handelskosten en marktrisico's in een productiesetting. Verdere testen zouden ook kunnen kijken naar combinaties van modellen of aanvullende risicogrenzen om stabielere resultaten te behalen.

Veelgestelde vragen

  • Wat hield de test precies in?
    De test was een backtest waarbij vijf LLM's elk $100.000 kregen om gedurende acht maanden te handelen op basis van destijds beschikbare marktgegevens, nieuws en financiële data.
  • Welke modellen deden het het beste?
    Grok 4 eindigde als eerste, gevolgd door DeepSeek. Claude Sonnet 4.5 en GPT-5 behaalden vergelijkbare resultaten, terwijl Gemini 2.5 Pro verlies leed.
  • Waarom verloor Gemini geld?
    Volgens de analyse koos Gemini voor een bredere, minder technologische portefeuille die minder winstgevend was in de gekozen periode, wat resulteerde in een daling onder het startkapitaal.
  • Zeggen deze resultaten iets over toekomstige prestaties?
    Niet direct. Backtests geven een indicatie maar garanderen geen toekomstige rendementen, vooral omdat live-marktomstandigheden, uitvoering en kosten andere uitkomsten kunnen veroorzaken.