Per anni, il progetto per la creazione di modelli linguistici di grandi dimensioni (LLM) si è concentrato su un unico obiettivo: ottimizzare i costi di formazione. Tuttavia, man mano che l’intelligenza artificiale si sposta dai laboratori di ricerca alle applicazioni nel mondo reale, è emerso un nuovo problema. Il costo dell’effettivo utilizzo di questi modelli – la fase di inferenza – viene spesso ignorato durante la fase di progettazione, portando a enormi inefficienze quando i modelli vengono implementati su larga scala.

I ricercatori dell’Università del Wisconsin-Madison e dell’Università di Stanford stanno sfidando questo status quo. Hanno introdotto un nuovo framework chiamato Leggi di scaling Train-to-Test (T2), che suggerisce che per costruire l’intelligenza artificiale più efficace, dovremmo smettere di considerare la formazione e l’inferenza come budget separati e iniziare a trattarli come uno solo.

Il conflitto: formazione vs inferenza

Per capire perché questo è importante, dobbiamo considerare i due diversi modi in cui funziona attualmente il “ridimensionamento”:

  1. Scalatura del pre-addestramento (regola Chinchilla): Tradizionalmente, gli sviluppatori seguono la “regola Chinchilla”, che suggerisce un rapporto specifico tra i dati di addestramento e le dimensioni del modello (circa 20 token per parametro). Ciò ottimizza il costo di creazione del modello.
  2. Ridimensionamento del tempo di test (ragionamento del tempo di inferenza): questa è la pratica di lasciare che un modello “pensi più a lungo” durante la distribuzione. Invece di prendere la prima risposta fornita da un modello, gli sviluppatori generano più campioni di ragionamento (campionando $k$ volte) per trovare il risultato più accurato. Questo è comune in attività complesse come la codifica o la matematica.

Il problema: questi due processi sono attualmente disconnessi. Se costruisci un modello massiccio, “ottimale per Chinchilla”, ogni singola query diventa estremamente costosa. Se poi provi a utilizzare il “ridimensionamento del tempo di test” (chiedendo al modello di provare più volte per garantire la precisione), i costi operativi saliranno alle stelle.

La soluzione T2: modelli più piccoli, più dati, più campioni

Il framework T2 fornisce una formula matematica che ottimizza congiuntamente tre variabili:
* $N$ : dimensione del modello (parametri)
* $D$ : volume dei dati di addestramento (token)
* $k$ : Numero di campioni di ragionamento all’inferenza

La ricerca dimostra una strategia controintuitiva: Per massimizzare le prestazioni con un budget fisso, è meglio addestrare un modello molto più piccolo su un’enorme quantità di dati piuttosto che addestrare un modello di grandi dimensioni seguendo le regole tradizionali.

Eseguendo il “sovrallenamento” di un modello compatto, gli sviluppatori risparmiano un sovraccarico computazionale sufficiente per permettersi di eseguire lo stesso modello più volte durante l’inferenza. In sostanza, si baratta il costo elevato di un modello “pesante” con l’alta frequenza di un modello “leggero”.

Prestazioni e compromessi nel mondo reale

Per convalidare ciò, i ricercatori hanno testato oltre 100 modelli e ne hanno addestrato 21 nuovi da zero. I risultati sono stati chiari: piccoli modelli altamente sovrallenati hanno costantemente sovraperformato modelli più grandi e tradizionalmente ottimizzati in compiti che coinvolgevano l’aritmetica, il ragionamento spaziale e il richiamo della conoscenza.

Tuttavia, questa strategia non è una “proiettile d’argento” universale. I ricercatori hanno notato diverse considerazioni chiave:

  • Specificità del compito: T2 è fatto su misura per applicazioni pesanti di ragionamento (come codifica o logica). Offre meno vantaggi per attività “pesanti in termini di conoscenza”, come semplici modelli di chat in cui l’obiettivo è solo recuperare informazioni.
  • Il Data Wall: Esiste un limite fisico a quanto puoi sovrallenare un modello. Se spingi troppo oltre questa strategia, potresti rimanere a corto di dati di allenamento di alta qualità disponibili su Internet.
  • Ostacoli per la messa a punto: I modelli estremamente sovrallenati possono talvolta essere “testardi” e più difficili da mettere a punto per compiti specifici, anche se i ricercatori hanno scoperto che ciò non annulla i guadagni di efficienza complessivi.

Perché questo è importante per il settore dell’intelligenza artificiale

Questo cambiamento rappresenta un’opportunità significativa per gli sviluppatori aziendali. Attualmente, il costo elevato dei “modelli di frontiera” (i modelli massicci e costosi come GPT-4) funge da barriera al ridimensionamento dei flussi di lavoro “agentici”, ovvero agenti di intelligenza artificiale che devono ragionare, eseguire cicli e controllare il proprio lavoro.

Il quadro T2 fornisce un modello per democratizzare il ragionamento di alto livello. Ciò dimostra che non è necessario il modello più grande del mondo per ottenere prestazioni d’élite; hai solo bisogno di un’allocazione più intelligente del budget di elaborazione totale.

Conclusione: spostando l’attenzione da “quanto possiamo costruirlo grande?” a “quanto efficientemente possiamo usarlo?”, le leggi di ridimensionamento T2 consentono agli sviluppatori di ottenere capacità di ragionamento superiori utilizzando modelli più piccoli ed economici.