Waarom DeepSeek R1 zo revolutionair is

DeepSeek R1 is de laatste dagen veel in het nieuws en heeft zelfs gezorgd voor een enorme daling in waarde van gerenommeerde bedrijven als Nvidia en OpenAI. Maar waarom is DeepSeek R1 zo revolutionair? 

De makkelijke uitleg is dat er veel minder rekenkracht nodig is om vergelijkbare of soms zelfs betere resultaten te behalen dan modellen zoals ChatGPT en Llama. Zo wordt beweerd dat het model getraind is met een budget van 6 miljoen dollar, in tegenstelling tot andere modellen zoals ChatGPT 4o en Gemini. Deze modellen kosten al snel honderdduizenden GPU’s (grafische kaarten) en honderden miljoenen dollar om te trainen. Daarnaast is het project in tegenstelling voor modellen als ChatGPT 4o en Gemini open source zodat er inzicht in de werking is en iedereen er gebruik van kan maken. 

We bespreken in deze blog hoe ze dit voor elkaar hebben gekregen, een paar van de gebruikte technieken en waarom het open source maken van AI-modellen zo belangrijk is voor de vooruitgang van AI.

Hoe hebben ze dat voor elkaar gekregen?

Traditionele modellen worden slimmer gemaakt door meer informatie toe te voegen. Hoe groter het model, hoe meer informatie deze bevat en des te meer vragen dit model kan beantwoorden.

Dit is nog steeds waar, maar de manier waarop modellen getraind worden is aan het veranderen. DeepSeek gebruikt meerdere trucjes om slimmer en efficiënter te trainen. We zullen hier een paar van deze nieuwe technieken bespreken, al zijn er natuurlijk vele andere verbeteringen t.o.v. traditionele AI-modellen.

Een van de gebruikte technieken is gebruiken van een Train-of-Thought AI-techniek, dat AI in staat stelt om stap voor stap te redeneren. Tegelijkertijd zien we de opkomst van Distilled AI en Distributed AI, waarbij meerdere AI-systemen samenwerken om problemen efficiënter op te lossen.

AI-modellen zoals ChatGPT 4o maken waarschijnlijk al gebruik van deze technieken, maar de details zijn niet open source en dus een bedrijfsgeheim. Daar heeft DeepSeek nu dus verandering in gebracht zodat iedereen hier gebruik van kan maken en we dus in de toekomst nog veel betere en efficiëntere modellen kunnen verwachten zonder dat hier een enorm prijskaartje aan komt te hangen.

Wat is een Train-of-Thought AI-model?

Een Train-of-Thought AI-model werkt anders dan traditionele AI-modellen. In plaats van direct een antwoord te geven, redeneert het model stap voor stap, net zoals een mens zou doen.

Stel dat je een rekensom hebt: Wat is (25 × 4) + (10 ÷ 2)?

Een gewone AI zou proberen direct het antwoord te geven, wat betekent dat er vergelijkbare rekensommen in de gebruikte trainingsdata moeten zitten om de taak goed uit te kunnen voeren.

Een Train-of-Thought AI-model denkt daarentegen na zoals jij dat zou doen:

Stap 1: 25 × 4 = 100
Stap 2: 10 ÷ 2 = 5
Stap 3: 100 + 5 = 105

Door deze stap-voor-stap methode kan AI beter redeneren en fouten voorkomen omdat de antwoorden op de kleinere stappen veel gemakkelijk gevonden kunnen worden.

Dit soort AI is betrouwbaarder dan traditionele modellen omdat het fouten beter kan herkennen (door de ‘kleinere’ vraagstukken) en corrigeren. Het helpt vooral bij taken die redeneren vereisen, zoals wiskundige berekeningen, logische puzzels of besluitvorming.

In tegenstelling tot bedrijven als OpenAI, Google en Meta heeft DeepSeek deze denkstappen nu open source gemaakt zodat mensen inzicht krijgen hoe dit werkt en dus eigen modellen kunnen maken en verbeteren. Niemand weet hoe ChatGPT precies werkt en dat is nu precies wat de vooruitgang tegenhoudt (maar OpenAI meer waard maakt).

Wat is Distributed AI?

Naast slimme AI-modellen zoals Train-of-Thought, wordt AI ook steeds beter gedistribueerd. Dit betekent dat AI-systemen niet meer zelfstandig werken maar samenwerken in netwerken.

In traditionele AI-modellen werden alle gegevens in 1 model ingeladen in het geheugen. Dit betekent dat dit model vragen kan beantwoorden over heel veel verschillende onderwerpen en maar al heel snel heel groot wordt. Bij distributed AI zijn er heel veel kleinere modellen die samenwerken. 

Denk aan hoe mensen in teams werken: ieder lid heeft een eigen specialisatie maar door samen te werken bereiken ze betere resultaten zonder dat iedereen alles hoeft te weten. Dit geldt ook voor AI.

In een gedistribueerd AI-systeem werken meerdere AI-agenten samen, aangestuurd door een AI-model die weet welke vraag aan welke agent gevraagd moet worden. Dit heeft grote voordelen:

  • Efficiënter gebruik van rekenkracht. In plaats dat het volledige model moet worden ingeladen worden alleen de AI-agenten aangesproken die nodig zijn.
  • Verdeling van rekenkracht. AI-modellen kunnen sneller werken doordat de taak over meerdere machines wordt verdeeld.
  • Upgradeability. Het AI-model kan gemakkelijker uitbreidt worden zonder het hele AI-model opnieuw te trainen. Je kunt simpelweg AI-agents toevoegen of verbeteren en het hoofdmodel ervan op de hoogte brengen.

Wat is Distilled AI?

Distilled AI is een techniek waarbij een groot en krachtig AI-model wordt “gecomprimeerd” tot een kleiner model, zonder veel prestatieverlies. Dit proces wordt knowledge distillation genoemd.

Dit werkt door een groot AI-model (teacher model) te gebruiken om gerichte trainingsdata te genereren. Het kleinere model (student model) wordt dan vervolgens getraind met deze data en wordt dus feitelijk een AI-agent met doelgerichte kennis.

Dit heeft als voordeel dat dit perfect met distributed AI gecombineerd kan worden zodat je een heel efficiënte opzet kunt krijgen die snel en efficient is en gemakkelijker te updaten is omdat je niet telkens het volledige model opnieuw hoeft te trainen. 

DeepSeek heeft deze methode veelvoudig gebruikt op verschillende bestaande modellen. Deze AI-modellen zijn hierdoor zelfs eenvoudig op je eigen PC te gebruiken door bijvoorbeeld LM-studio te installeren. In een volgend blog leggen we uit hoe je dit zelf kunt doen.

De Toekomst van AI: Slimmer, efficiënter en (hopelijk) open source

DeepSeek R1 markeert een keerpunt in de wereld van kunstmatige intelligentie. Door technieken zoals Train-of-Thought reasoning, Distilled AI en Distributed AI te combineren laat het zien dat het trainen van krachtige AI niet perse enorme hoeveelheden rekenkracht nodig heeft. Waar traditionele modellen steeds groter en duurder worden, bewijst DeepSeek R1 dat efficiëntere architecturen en slimmere trainingsmethoden minstens zo effectief kunnen zijn.

Bovendien maakt het open-source karakter van DeepSeek R1 deze technologie toegankelijk voor iedereen, van onderzoekers tot bedrijven en hobbyisten. Dit staat in schril contrast met gesloten modellen van grote bedrijven zoals OpenAI en Google, waarbij veel belangrijke details geheim blijven. En hiermee opent DeepSeek de deur naar snellere innovatie en betaalbare AI-oplossingen voor een breed scala aan toepassingen.

De impact van DeepSeek R1 is nu al voelbaar in de techwereld en deze trend zal zich alleen maar verder ontwikkelen. We staan aan het begin van een nieuw tijdperk waarin snellere, slimmere en betaalbare AI voor iedereen binnen handbereik ligt!

Start vandaag nog met je eigen AI-model

Wil jij ook aan de slag met AI? Neem contact met ons op en start vandaag nog!