O crescimento explosivo da inteligência artificial (IA) está a levar os centros de dados aos seus limites térmicos. Embora as GPUs e CPUs tenham feito a transição em grande parte para o resfriamento líquido para obter desempenho ideal, os sistemas de armazenamento ficam para trás, criando uma arquitetura híbrida ineficiente que prejudica os benefícios das soluções modernas de resfriamento. Esta não é apenas uma questão de custo; é uma responsabilidade estrutural fundamental que afeta a densidade do rack, a sustentabilidade e, em última análise, a capacidade de dimensionar implantações de IA.

A ineficiência do resfriamento híbrido

Atualmente, muitas implantações de IA dependem de um sistema patchwork: processadores refrigerados a líquido juntamente com armazenamento refrigerado a ar. Esta abordagem é operacionalmente ineficiente. As organizações acabam mantendo duas infraestruturas de resfriamento totalmente separadas e caras – loops de líquido para computação e unidades CRAC tradicionais para armazenamento – sem perceber totalmente os benefícios do custo total de propriedade (TCO) de um sistema unificado.

O problema é agravado por restrições físicas. Componentes volumosos de refrigeração líquida obstruem o fluxo de ar dentro do chassi do servidor, concentrando o estresse térmico nas unidades resfriadas a ar, na memória e no hardware de rede. Os ventiladores lutam para dissipar adequadamente o calor em torno do encanamento de líquido, forçando os componentes mais sensíveis ao calor para o pior ambiente térmico possível.

Consumo de água: uma crise esquecida

Além do custo e do desempenho, o impacto ambiental é significativo. Os sistemas refrigerados a ar dependem fortemente de torres de resfriamento evaporativo, que podem consumir milhões de galões de água ao longo do tempo. À medida que as densidades de potência do rack aumentam, esta penalização pela água torna-se insustentável. De acordo com Hardeep Singh, gerente da equipe de hardware termomecânico da Solidigm, a atual dependência do resfriamento evaporativo é “ambientalmente e economicamente indefensável” no longo prazo.

A mudança para o design térmico em nível de sistema

A infraestrutura moderna de IA não é construída servidor por servidor; ele foi projetado como sistemas totalmente integrados em nível de rack e pod. O fornecimento de energia, a distribuição de refrigeração e a colocação de componentes são agora inseparáveis. Isso significa que arquiteturas de armazenamento projetadas para data centers dependentes de fluxo de ar estão se tornando um fator limitante. À medida que as GPUs avançam para designs totalmente refrigerados a líquido e sem ventilador, o armazenamento deve se adaptar ou se tornar um gargalo.

Armazenamento: de participante passivo a ativo

Historicamente, o armazenamento foi tratado como um subsistema passivo. Isso não é mais viável. O dimensionamento da IA ​​agora depende se o armazenamento pode ser integrado de forma limpa em sistemas de GPU com refrigeração líquida, sem fragmentar as arquiteturas de refrigeração ou restringir o design em nível de rack.

Scott Shadley, diretor de narrativa de liderança e evangelista da Solidigm, enfatiza que a corrida para escalar a IA não se trata mais apenas de contagem de GPU. Trata-se de quem pode manter essas GPUs resfriadas, confiáveis ​​e eficientes. Técnicas como descarregamento de cache KV, que movem dados entre a memória da GPU e o armazenamento de alta velocidade, tornam a latência de armazenamento e o desempenho térmico essenciais para modelar a eficiência do serviço.

O caminho para o resfriamento líquido integrado

A mudança para racks refrigerados a líquido totalmente integrados melhora a eficiência do uso de energia (PUE) e reduz os custos operacionais. Ele também elimina a necessidade de manipuladores de ar para salas de computadores (CRAHs) barulhentos, potencialmente substituindo-os por unidades de distribuição de resfriamento líquido (CDUs) modernas e eficientes, capazes de resfriar racks em temperaturas de até 45° Celsius.

No entanto, a integração perfeita requer uma reformulação fundamental do armazenamento. Os designs tradicionais de SSD pressupõem fluxo de ar para gerenciamento térmico e geralmente distribuem componentes em ambos os lados de uma PCB – suposições que não se aplicam a um ambiente refrigerado a líquido. A capacidade de manutenção também é crítica; o resfriamento líquido não deve apresentar riscos de vazamento durante a inserção ou remoção da unidade.

O futuro do armazenamento: redesenhado para líquidos

A Solidigm colaborou com a NVIDIA para enfrentar esses desafios, concentrando-se na compatibilidade hot-swap e em soluções de resfriamento unilaterais. A empresa defende o redesenho dos SSDs com caminhos de transferência de calor de baixa resistência para conduzir eficientemente o calor para uma placa fria dedicada.

A indústria está se unindo em torno de padrões para garantir a interoperabilidade. A Solidigm lidera o processo, trabalhando com o SNIA e o Open Compute Project (OCP) para desenvolver designs prontos para produção que se integram de forma limpa em plataformas de GPU com refrigeração líquida.

A mudança é clara: o armazenamento não é mais um problema isolado de engenharia. É uma variável direta na utilização da GPU, na confiabilidade do sistema e na eficiência operacional. O futuro do dimensionamento de IA depende de abraçar essa realidade.