Refrigeración líquida: el próximo cuello de botella en la infraestructura de IA

El crecimiento explosivo de la inteligencia artificial (IA) está llevando los centros de datos a sus límites térmicos. Si bien las GPU y las CPU han hecho una gran transición a la refrigeración líquida para lograr un rendimiento óptimo, los sistemas de almacenamiento se quedan atrás, lo que crea una arquitectura híbrida ineficiente que socava los beneficios de las soluciones de refrigeración modernas. Esto no es simplemente una cuestión de costos; es una responsabilidad estructural fundamental que afecta la densidad de los racks, la sostenibilidad y, en última instancia, la capacidad de escalar las implementaciones de IA.

La ineficiencia de la refrigeración híbrida

Actualmente, muchas implementaciones de IA se basan en un sistema fragmentado: procesadores refrigerados por líquido junto con almacenamiento refrigerado por aire. Este enfoque es operativamente ineficiente. Las organizaciones terminan manteniendo dos infraestructuras de refrigeración costosas y completamente separadas (bucles líquidos para computación y unidades CRAC tradicionales para almacenamiento) sin aprovechar plenamente los beneficios del costo total de propiedad (TCO) de un sistema unificado.

El problema se ve exacerbado por las limitaciones físicas. Los voluminosos componentes de refrigeración líquida obstruyen el flujo de aire dentro del chasis del servidor, concentrando el estrés térmico en las unidades, la memoria y el hardware de red refrigerados por aire. Los ventiladores luchan por disipar adecuadamente el calor alrededor de las tuberías de líquido, lo que obliga a los componentes más sensibles al calor a entrar en el peor ambiente térmico posible.

Consumo de agua: una crisis pasada por alto

Más allá del costo y el rendimiento, el impacto ambiental es significativo. Los sistemas enfriados por aire dependen en gran medida de torres de enfriamiento por evaporación, que pueden consumir millones de galones de agua con el tiempo. A medida que aumentan las densidades de energía de las estanterías, esta penalización de agua se vuelve insostenible. Según Hardeep Singh, director del equipo de hardware termomecánico de Solidigm, la dependencia actual del enfriamiento por evaporación es “indefendible desde el punto de vista ambiental y económico” a largo plazo.

El cambio hacia el diseño térmico a nivel de sistema

La infraestructura moderna de IA no se construye servidor por servidor; está diseñado como sistemas estrechamente integrados a nivel de bastidor y módulo. La entrega de energía, la distribución de refrigeración y la ubicación de los componentes ahora son inseparables. Esto significa que las arquitecturas de almacenamiento diseñadas para centros de datos que dependen del flujo de aire se están convirtiendo en un factor limitante. A medida que las GPU avanzan hacia diseños totalmente refrigerados por líquido y sin ventilador, el almacenamiento debe adaptarse o convertirse en un cuello de botella.

Almacenamiento: de participante pasivo a activo

Históricamente, el almacenamiento se trataba como un subsistema pasivo. Esto ya no es viable. La ampliación de la IA ahora depende de si el almacenamiento puede integrarse limpiamente en sistemas GPU refrigerados por líquido sin fragmentar las arquitecturas de refrigeración ni limitar el diseño a nivel de rack.

Scott Shadley, director de narrativa de liderazgo y evangelista de Solidigm, enfatiza que la carrera para escalar la IA ya no se trata solo del recuento de GPU. Se trata de quién puede mantener esas GPU refrigeradas, confiables y eficientes. Técnicas como la descarga de caché KV, que mueven datos entre la memoria de la GPU y el almacenamiento de alta velocidad, hacen que la latencia del almacenamiento y el rendimiento térmico sean críticos para la eficiencia del servicio de modelos.

El camino hacia la refrigeración líquida integrada

La transición a bastidores refrigerados por líquido totalmente integrados mejora la eficiencia del uso de energía (PUE) y reduce los costos operativos. También elimina la necesidad de ruidosos manejadores de aire para salas de computadoras (CRAH), reemplazándolos potencialmente con unidades de distribución de enfriamiento líquido (CDU) modernas y eficientes capaces de enfriar racks a temperaturas de hasta 45 °C.

Sin embargo, una integración perfecta requiere un rediseño fundamental del almacenamiento. Los diseños de SSD tradicionales suponen un flujo de aire para la gestión térmica y, a menudo, distribuyen los componentes en ambos lados de una PCB, suposiciones que no se cumplen en un entorno refrigerado por líquido. La capacidad de servicio también es fundamental; La refrigeración líquida no debe presentar riesgos de fugas durante la inserción o extracción de la unidad.

El futuro del almacenamiento: rediseñado para líquidos

Solidigm ha colaborado con NVIDIA para abordar estos desafíos, enfocándose en la compatibilidad de intercambio en caliente y soluciones de enfriamiento de un solo lado. La compañía aboga por rediseñar los SSD con rutas de transferencia de calor de baja resistencia para conducir el calor de manera eficiente a una placa fría dedicada.

La industria se está uniendo en torno a estándares para garantizar la interoperabilidad. Solidigm lidera la carga, trabajando con SNIA y Open Compute Project (OCP) para desarrollar diseños listos para producción que se integren limpiamente en plataformas GPU refrigeradas por líquido.

El cambio es claro: el almacenamiento ya no es un problema de ingeniería aislado. Es una variable directa en la utilización de la GPU, la confiabilidad del sistema y la eficiencia operativa. El futuro del escalamiento de la IA depende de aceptar esta realidad.