Жидкостное охлаждение: следующее узкое место в AI-инфраструктуре

Взрывной рост искусственного интеллекта (AI) доводит центры обработки данных до предельных тепловых возможностей. В то время как графические процессоры (GPU) и центральные процессоры (CPU) в значительной степени перешли на жидкостное охлаждение для оптимальной производительности, системы хранения данных отстают, создавая неэффективную гибридную архитектуру, которая сводит на нет преимущества современных решений для охлаждения. Это не просто вопрос стоимости; это фундаментальный структурный недостаток, который влияет на плотность размещения оборудования в стойках, устойчивость и, в конечном итоге, на способность масштабировать развертывания AI.

Неэффективность гибридного охлаждения

В настоящее время многие развертывания AI полагаются на смешанную систему: жидкостно-охлаждаемые процессоры наряду с воздушным охлаждением для накопителей. Такой подход неэффективен в эксплуатации. Организации вынуждены обслуживать две совершенно отдельные и дорогостоящие инфраструктуры охлаждения — жидкостные контуры для вычислений и традиционные CRAC-установки для хранилищ — не в полной мере осознавая общую стоимость владения (TCO) объединенной системы.

Проблему усугубляют физические ограничения. Массивные компоненты жидкостного охлаждения препятствуют потоку воздуха внутри серверных корпусов, концентрируя тепловую нагрузку на воздушных накопителях, памяти и сетевом оборудовании. Вентиляторы изо всех сил пытаются рассеивать тепло вокруг жидкостных трубопроводов, помещая наиболее чувствительные к теплу компоненты в наихудшую возможную тепловую среду.

Потребление воды: обостряющийся кризис

Помимо стоимости и производительности, значительное влияние оказывает и экологический фактор. Системы воздушного охлаждения сильно зависят от градирен, которые могут потреблять миллионы галлонов воды с течением времени. По мере увеличения плотности мощности в стойках этот водный штраф становится неустойчивым. По словам Хардипа Сингха, руководителя команды по разработке тепло-механических аппаратных средств в Solidigm, текущая зависимость от испарительного охлаждения является “экологически и экономически неоправданной” в долгосрочной перспективе.

Переход к системному тепловому проектированию

Современная AI-инфраструктура строится не сервер за сервером; она разрабатывается как тесно интегрированные системы на уровне стойки и модуля. Подача питания, распределение охлаждения и размещение компонентов теперь неразделимы. Это означает, что архитектуры хранения данных, разработанные для центров обработки данных, зависящих от воздушного потока, становятся ограничивающим фактором. По мере того, как GPU переходят к полностью жидкостно-охлаждаемым бесвентиляторным конструкциям, хранилище должно адаптироваться или станет узким местом.

Хранилище: от пассивного к активному участнику

Исторически, хранилище рассматривалось как пассивная подсистема. Это больше не жизнеспособно. Масштабирование AI теперь зависит от того, сможет ли хранилище плавно интегрироваться в жидкостно-охлаждаемые GPU-системы, не фрагментируя архитектуры охлаждения и не ограничивая конструкцию на уровне стойки.

Скотт Шэдли, директор по стратегическому повествованию и евангелист в Solidigm, подчеркивает, что гонка за масштабирование AI — это больше не только количество GPU. Речь идет о том, кто сможет охлаждать эти GPU надежно и эффективно. Методы, такие как выгрузка кэша KV, которые перемещают данные между памятью GPU и высокоскоростным хранилищем, делают задержку хранилища и тепловую производительность критически важными для эффективности обслуживания моделей.

Путь к интегрированному жидкостному охлаждению

Переход к полностью интегрированным жидкостно-охлаждаемым стойкам повышает эффективность использования мощности (PUE) и снижает эксплуатационные расходы. Он также устраняет необходимость в шумных компьютерным охлаждающим оборудовании (CRAH), потенциально заменяя их современными, эффективными блоками распределения жидкости (CDU), способными охлаждать стойки при температурах до 45° Цельсия.

Однако для бесшовной интеграции требуется фундаментальная переработка хранилища. Традиционные конструкции SSD предполагают воздушный поток для управления теплом и часто распределяют компоненты по обеим сторонам печатной платы (PCB) — предположения, которые не работают в жидкостно-охлаждаемой среде. Обслуживаемость также имеет решающее значение; жидкостное охлаждение не должно создавать рисков утечки при установке или извлечении накопителя.

Будущее хранилища: перепроектировано для жидкостного охлаждения

Solidigm сотрудничает с NVIDIA для решения этих проблем, уделяя внимание совместимости с горячей заменой и односторонним решениям для охлаждения. Компания выступает за перепроектирование SSD с путями теплопередачи с низким сопротивлением для эффективного отвода тепла к выделенной холодной пластине.

Отрасль консолидируется вокруг стандартов для обеспечения совместимости. Solidigm возглавляет эту работу, сотрудничая с SNIA и Open Compute Project (OCP) для разработки готовых к производству конструкций, которые плавно интегрируются в жидкостно-охлаждаемые платформы GPU.

Сдвиг очевиден: хранилище больше не является изолированной инженерной проблемой. Это прямая переменная в использовании GPU, надежности системы и операционной эффективности. Будущее масштабирования AI зависит от признания этой реальности.