Додому Dernières nouvelles et articles Repenser l’efficacité de l’IA : l’essor de la mise à l’échelle du train...

Repenser l’efficacité de l’IA : l’essor de la mise à l’échelle du train au test

Pendant des années, le projet de création de grands modèles linguistiques (LLM) s’est concentré sur un seul objectif : optimiser les coûts de formation. Cependant, à mesure que l’IA passe des laboratoires de recherche aux applications du monde réel, un nouveau problème est apparu. Le coût de l’utilisation réelle de ces modèles (l’étape d’inférence) est souvent ignoré pendant la phase de conception, ce qui entraîne d’énormes inefficacités lorsque les modèles sont déployés à grande échelle.

Des chercheurs de l’Université du Wisconsin-Madison et de l’Université de Stanford remettent en question ce statu quo. Ils ont introduit un nouveau cadre appelé lois d’échelle Train-to-Test (T2), qui suggère que pour construire l’IA la plus efficace, nous devrions cesser de considérer la formation et l’inférence comme des budgets distincts et commencer à les traiter comme un seul.

Le conflit : formation contre inférence

Pour comprendre pourquoi cela est important, nous devons examiner les deux manières différentes dont la « mise à l’échelle » fonctionne actuellement :

  1. Mise à l’échelle du pré-entraînement (la règle Chinchilla) : Traditionnellement, les développeurs suivent la « règle Chinchilla », qui suggère un rapport spécifique entre les données d’entraînement et la taille du modèle (environ 20 jetons par paramètre). Cela optimise le coût de création du modèle.
  2. Mise à l’échelle du temps de test (raisonnement du temps d’inférence) : Il s’agit de la pratique consistant à laisser un modèle « réfléchir plus longtemps » pendant le déploiement. Au lieu de prendre la première réponse donnée par un modèle, les développeurs génèrent plusieurs échantillons de raisonnement (en échantillonnant $k$ fois) pour trouver le résultat le plus précis. Ceci est courant dans les tâches complexes comme le codage ou les mathématiques.

Le problème : Ces deux processus sont actuellement déconnectés. Si vous construisez un modèle massif « optimal pour Chinchilla », chaque requête devient extrêmement coûteuse. Si vous essayez ensuite d’utiliser la « mise à l’échelle du temps de test » (en demandant au modèle d’essayer plusieurs fois pour garantir l’exactitude), vos coûts opérationnels montent en flèche.

La solution T2 : des modèles plus petits, plus de données, plus d’échantillons

Le cadre T2 fournit une formule mathématique qui optimise conjointement trois variables :
* $N$ : Taille du modèle (paramètres)
* $D$ : volume de données d’entraînement (jetons)
* $k$ : nombre d’échantillons de raisonnement lors de l’inférence

La recherche prouve une stratégie contre-intuitive : Pour maximiser les performances avec un budget fixe, il est préférable d’entraîner un modèle beaucoup plus petit sur une quantité massive de données que d’entraîner un grand modèle en suivant les règles traditionnelles.

En « surentraînant » un modèle compact, les développeurs économisent suffisamment de temps de calcul pour se permettre d’exécuter ce même modèle plusieurs fois au cours de l’inférence. Essentiellement, vous échangez le coût élevé d’un modèle « lourd » contre la haute fréquence d’un modèle « léger ».

Performances et compromis dans le monde réel

Pour valider cela, les chercheurs ont testé plus de 100 modèles et en ont formé 21 nouveaux à partir de zéro. Les résultats étaient clairs : les petits modèles très surentraînés ont systématiquement surpassé les modèles plus grands et traditionnellement optimisés dans les tâches impliquant l’arithmétique, le raisonnement spatial et le rappel de connaissances.

Cependant, cette stratégie n’est pas une « solution miracle » universelle. Les chercheurs ont noté plusieurs considérations clés :

  • Spécificité de la tâche : T2 est conçu sur mesure pour les applications gourmandes en raisonnement (comme le codage ou la logique). Il offre moins d’avantages pour les tâches « gourmandes en connaissances », telles que les modèles de discussion simples où l’objectif est simplement de récupérer des informations.
  • Le mur de données : Il existe une limite physique au degré de surentraînement d’un modèle. Si vous poussez cette stratégie trop loin, vous risquez de manquer de données d’entraînement de haute qualité disponibles sur Internet.
  • Obstacles au réglage fin : Les modèles extrêmement surentraînés peuvent parfois être « têtus » et plus difficiles à régler avec précision pour des tâches spécifiques, bien que les chercheurs aient constaté que cela n’annulait pas les gains d’efficacité globaux.

Pourquoi c’est important pour l’industrie de l’IA

Ce changement représente une opportunité importante pour les développeurs d’entreprise. Actuellement, le coût élevé des « modèles frontières » (les modèles massifs et coûteux comme GPT-4) constitue un obstacle à la mise à l’échelle des flux de travail « agentiques », c’est-à-dire des agents d’IA qui doivent raisonner, boucler et vérifier leur propre travail.

Le cadre T2 fournit un modèle pour démocratiser le raisonnement de haut niveau. Cela montre que vous n’avez pas besoin du plus grand modèle du monde pour atteindre des performances d’élite ; vous avez juste besoin d’une allocation plus intelligente de votre budget de calcul total.

Conclusion : En déplaçant l’accent sur “quelle taille pouvons-nous construire ?” à « avec quelle efficacité pouvons-nous l’utiliser ? », les lois d’échelle T2 permettent aux développeurs d’atteindre des capacités de raisonnement supérieures en utilisant des modèles plus petits et plus rentables.

Exit mobile version