Jarenlang was de blauwdruk voor het bouwen van grote taalmodellen (LLM’s) gericht op één enkel doel: het optimaliseren van trainingskosten. Nu AI zich echter verplaatst van onderzoekslaboratoria naar toepassingen in de echte wereld, is er een nieuw probleem ontstaan. De kosten van het daadwerkelijk gebruiken van deze modellen (de inferentiefase) worden vaak genegeerd tijdens de ontwerpfase, wat leidt tot enorme inefficiënties wanneer modellen op schaal worden ingezet.

Onderzoekers van de Universiteit van Wisconsin-Madison en Stanford University dagen deze status quo uit. Ze hebben een nieuw raamwerk geïntroduceerd met de naam Train-to-Test (T2) schalingswetten, wat suggereert dat we, om de meest effectieve AI te bouwen, moeten stoppen met het beschouwen van training en gevolgtrekking als afzonderlijke budgetten, en ze als één geheel moeten gaan behandelen.

Het conflict: training versus gevolgtrekking

Om te begrijpen waarom dit belangrijk is, moeten we kijken naar de twee verschillende manieren waarop ‘schaling’ momenteel werkt:

  1. ** Schalen vóór de training (de Chinchilla-regel): ** Traditioneel volgen ontwikkelaars de ‘Chinchilla-regel’, die een specifieke verhouding tussen trainingsgegevens en modelgrootte suggereert (ongeveer 20 tokens per parameter). Dit optimaliseert hoeveel het kost om het model te maken.
  2. Testtijdschaling (inferentie-tijdredenering): Dit is de praktijk waarbij een model tijdens de implementatie “langer nadenkt”. In plaats van het eerste antwoord te nemen dat een model geeft, genereren ontwikkelaars meerdere redeneringsvoorbeelden (waarbij $k$ keer wordt bemonsterd) om het meest nauwkeurige resultaat te vinden. Dit komt vaak voor bij complexe taken zoals coderen of wiskunde.

Het probleem: Deze twee processen zijn momenteel niet verbonden. Als je een gigantisch, ‘Chinchilla-optimaal’ model bouwt, wordt elke afzonderlijke zoekopdracht extreem duur. Als u vervolgens “test-time scaling” probeert te gebruiken (waarbij u het model vraagt ​​meerdere keren te proberen om de nauwkeurigheid te garanderen), schieten uw operationele kosten omhoog.

De T2-oplossing: kleinere modellen, meer gegevens, meer voorbeelden

Het T2-framework biedt een wiskundige formule die gezamenlijk drie variabelen optimaliseert:
* $N$ : Modelgrootte (parameters)
* $D$ : Volume trainingsgegevens (tokens)
* $k$ : Aantal redeneringsvoorbeelden bij gevolgtrekking

Het onderzoek bewijst een contra-intuïtieve strategie: Om de prestaties onder een vast budget te maximaliseren, is het beter om een veel kleiner model te trainen op een enorme hoeveelheid data dan een groot model te trainen volgens traditionele regels.

Door een compact model te ‘overtrainen’, besparen ontwikkelaars genoeg rekenkundige overhead om het zich te kunnen veroorloven datzelfde model meerdere keren uit te voeren tijdens de inferentie. In wezen ruilt u de hoge kosten van een ‘zwaar’ model in voor de hoge frequentie van een ‘licht’ model.

Prestaties en afwegingen in de echte wereld

Om dit te valideren, hebben onderzoekers meer dan 100 modellen getest en 21 nieuwe modellen helemaal opnieuw getraind. De resultaten waren duidelijk: zeer overtrainde kleine modellen presteerden consistent beter dan grotere, traditioneel geoptimaliseerde modellen bij taken waarbij rekenkunde, ruimtelijk redeneren en kennisherinnering betrokken waren.

Deze strategie is echter geen universeel ‘wondermiddel’. De onderzoekers merkten verschillende belangrijke overwegingen op:

  • Taakspecificiteit: T2 is op maat gemaakt voor rede-zware toepassingen (zoals codering of logica). Het biedt minder voordelen voor “kennisintensieve” taken, zoals eenvoudige chatmodellen waarbij het doel alleen maar is om informatie op te halen.
  • De Data Wall: Er is een fysieke limiet aan de mate waarin u een model kunt overtrainen. Als u deze strategie te ver doorvoert, is het mogelijk dat u geen hoogwaardige trainingsgegevens meer beschikbaar heeft op internet.
  • Fine-tuning hindernissen: Extreem overtrainde modellen kunnen soms “koppig” zijn en moeilijker af te stemmen op specifieke taken, hoewel de onderzoekers ontdekten dat dit de algehele efficiëntiewinst niet teniet doet.

Waarom dit belangrijk is voor de AI-industrie

Deze verschuiving biedt aanzienlijke kansen voor bedrijfsontwikkelaars. Momenteel vormen de hoge kosten van ‘grensmodellen’ (de enorme, dure modellen zoals GPT-4) een barrière voor het opschalen van ‘agentische’ workflows: AI-agenten die hun eigen werk moeten redeneren, herhalen en controleren.

Het T2-framework biedt een blauwdruk voor het democratiseren van redeneren op hoog niveau. Het laat zien dat je niet het grootste model ter wereld nodig hebt om topprestaties te leveren; u heeft alleen een slimmere toewijzing van uw totale computerbudget nodig.

Conclusie: Door de focus te verleggen van “hoe groot kunnen we het bouwen?” tot “hoe efficiënt kunnen we het gebruiken?”, stellen de T2-schaalwetten ontwikkelaars in staat superieure redeneervermogens te bereiken met behulp van kleinere, kosteneffectievere modellen.