Додому Останні новини та статті Переосмысление эффективности ИИ: на смену масштабированию обучения приходит масштабирование «от обучения к...

Переосмысление эффективности ИИ: на смену масштабированию обучения приходит масштабирование «от обучения к тесту»

На протяжении многих лет стратегия создания больших языковых моделей (LLM) была сосредоточена на одной цели: оптимизации затрат на обучение. Однако по мере того, как ИИ переходит из исследовательских лабораторий в реальные приложения, возникла новая проблема. Стоимость непосредственного использования этих моделей — этап инференса (вывода) — зачастую игнорируется на этапе проектирования, что приводит к колоссальной неэффективности при масштабировании систем.

Исследователи из Висконсинского университета в Мадисоне и Стэнфордского университета бросают вызов сложившемуся положению дел. Они представили новую концепцию под названием законы масштабирования «от обучения к тесту» (Train-to-Test, T2). Она предполагает, что для создания максимально эффективного ИИ нам нужно перестать рассматривать обучение и инференс как раздельные бюджеты и начать относиться к ним как к единому целому.

Конфликт: Обучение против Инференса

Чтобы понять значимость этого подхода, необходимо рассмотреть два разных способа «масштабирования», существующих сегодня:

  1. Масштабирование предобучения (Правило Чинчиллы): Традиционно разработчики следуют «правилу Чинчиллы», которое предполагает определенное соотношение объема обучающих данных к размеру модели (примерно 20 токенов на один параметр). Это оптимизирует стоимость создания модели.
  2. Масштабирование во время теста (Рассуждение в момент вывода): Это практика, позволяющая модели «думать дольше» во время работы. Вместо того чтобы принимать первый же ответ, разработчики генерируют несколько вариантов рассуждений (путем $k$-кратной выборки), чтобы найти наиболее точный результат. Это часто применяется в сложных задачах, таких как программирование или математика.

Проблема: На данный момент эти два процесса разобщены. Если вы создаете огромную модель, оптимизированную по «правилу Чинчиллы», каждый запрос становится чрезвычайно дорогим. Если же вы попытаетесь использовать «масштабирование во время теста» (просите модель перепроверить себя несколько раз для точности), ваши операционные расходы взлетят до небес.

Решение T2: Меньше моделей, больше данных, больше выборок

Фреймворк T2 предлагает математическую формулу, которая совместно оптимизирует три переменные:
* $N$ : Размер модели (количество параметров)
* $D$ : Объем обучающих данных (количество токенов)
* $k$ : Количество выборок рассуждений при инференсе

Исследование доказывает контринтуитивную стратегию: чтобы максимизировать производительность при фиксированном бюджете, лучше обучить гораздо меньшую модель на огромном массиве данных, чем обучать большую модель по традиционным правилам.

Путем «переобучения» компактной модели разработчики экономят вычислительные ресурсы, что позволяет им позволить себе запускать эту же модель многократно во время инференса. По сути, вы меняете высокую стоимость «тяжелой» модели на высокую частоту использования «легкой» модели.

Реальная производительность и компромиссы

Чтобы подтвердить теорию, исследователи протестировали более 100 существующих моделей и обучили 21 новую с нуля. Результаты оказались однозначными: сильно переобученные малые модели стабильно превосходили более крупные, традиционно оптимизированные модели в задачах, связанных с арифметикой, пространственным мышлением и воспроизведением знаний.

Тем не менее, эта стратегия не является универсальной «панацеей». Исследователи выделили несколько ключевых нюансов:

  • Специфика задач: T2 идеально подходит для приложений, требующих интенсивного логического вывода (например, написание кода или логические задачи). Она приносит меньше пользы в задачах, где превалирует «накопленное знание» — например, в простых чат-ботах, цель которых просто извлечь информацию.
  • «Стена данных»: Существует физический предел того, насколько сильно можно переобучить модель. Если зайти слишком далеко, высококачественные обучающие данные в интернете могут просто закончиться.
  • Трудности тонкой настройки (Fine-Tuning): Чрезмерно переобученные модели иногда могут быть «упрямыми» и сложными для дообучения под конкретные задачи, хотя исследователи пришли к выводу, что это не сводит на нет общую выгоду в эффективности.

Почему это важно для индустрии ИИ

Этот сдвиг открывает значительные возможности для корпоративных разработчиков. В настоящее время высокая стоимость «фронтирных моделей» (гигантских и дорогих систем вроде GPT-4) является барьером для масштабирования «агентских» рабочих процессов — ИИ-агентов, которым необходимо рассуждать, совершать цикличные действия и проверять собственную работу.

Фреймворк T2 предлагает план по демократизации высокоуровневого логического мышления. Он показывает, что для достижения элитной производительности не обязательно иметь самую большую модель в мире; нужно лишь более грамотно распределять ваш общий вычислительный бюджет.

Заключение: Смещая фокус с вопроса «насколько большой мы можем её построить?» на вопрос «насколько эффективно мы можем её использовать?», законы масштабирования T2 позволяют разработчикам достигать превосходных способностей к рассуждению, используя более компактные и экономически выгодные модели.

Exit mobile version