Додому Ultime notizie e articoli Raffreddamento a liquido: il prossimo collo di bottiglia nell’infrastruttura AI

Raffreddamento a liquido: il prossimo collo di bottiglia nell’infrastruttura AI

Raffreddamento a liquido: il prossimo collo di bottiglia nell’infrastruttura AI

La crescita esplosiva dell’intelligenza artificiale (AI) sta spingendo i data center ai loro limiti termici. Mentre GPU e CPU sono in gran parte passate al raffreddamento a liquido per prestazioni ottimali, i sistemi di storage restano indietro, creando un’architettura ibrida inefficiente che compromette i vantaggi delle moderne soluzioni di raffreddamento. Questo non è semplicemente un problema di costi; si tratta di una responsabilità strutturale fondamentale che incide sulla densità dei rack, sulla sostenibilità e, in ultima analisi, sulla capacità di scalare le implementazioni dell’intelligenza artificiale.

L’inefficienza del raffreddamento ibrido

Attualmente, molte implementazioni di intelligenza artificiale si basano su un sistema patchwork: processori raffreddati a liquido insieme a dispositivi di archiviazione raffreddati ad aria. Questo approccio è operativamente inefficiente. Le organizzazioni finiscono per mantenere due infrastrutture di raffreddamento completamente separate e costose: circuiti liquidi per l’elaborazione e unità CRAC tradizionali per lo storage, senza realizzare pienamente i vantaggi del costo totale di proprietà (TCO) di un sistema unificato.

Il problema è aggravato dai vincoli fisici. Gli ingombranti componenti di raffreddamento a liquido ostruiscono il flusso d’aria all’interno dello chassis del server, concentrando lo stress termico su unità raffreddate ad aria, memoria e hardware di rete. Le ventole faticano a dissipare adeguatamente il calore attorno ai tubi idraulici dei liquidi, costringendo i componenti più sensibili al calore nel peggiore ambiente termico possibile.

Consumo di acqua: una crisi trascurata

Al di là dei costi e delle prestazioni, l’impatto ambientale è significativo. I sistemi raffreddati ad aria fanno molto affidamento sulle torri di raffreddamento evaporative, che possono consumare milioni di litri d’acqua nel tempo. Con l’aumento delle densità di potenza dei rack, questa penalità idrica diventa insostenibile. Secondo Hardeep Singh, responsabile del team hardware termo-meccanico di Solidigm, l’attuale dipendenza dal raffreddamento evaporativo è “indifendibile dal punto di vista ambientale ed economico” nel lungo termine.

Il passaggio alla progettazione termica a livello di sistema

La moderna infrastruttura AI non è costruita server per server; è progettato come sistema strettamente integrato a livello di rack e pod. L’erogazione di potenza, la distribuzione del raffreddamento e il posizionamento dei componenti sono ora inseparabili. Ciò significa che le architetture di storage progettate per data center dipendenti dal flusso d’aria stanno diventando un fattore limitante. Man mano che le GPU si spostano verso progetti completamente raffreddati a liquido e senza ventole, lo storage deve adattarsi o diventare un collo di bottiglia.

Conservazione: da partecipante passivo a partecipante attivo

Storicamente, lo storage veniva trattato come un sottosistema passivo. Questo non è più fattibile. La scalabilità dell’intelligenza artificiale ora dipende dalla capacità dello storage di integrarsi in modo pulito nei sistemi GPU raffreddati a liquido senza frammentare le architetture di raffreddamento o limitare la progettazione a livello di rack.

Scott Shadley, direttore della narrativa sulla leadership ed evangelista di Solidigm, sottolinea che la corsa per scalare l’intelligenza artificiale non è più solo una questione di numero di GPU. Dipende da chi riesce a mantenere le GPU fresche, affidabili ed efficienti. Tecniche come l’offload della cache KV, che spostano i dati tra la memoria della GPU e lo storage ad alta velocità, rendono la latenza dello storage e le prestazioni termiche fondamentali per l’efficienza del servizio dei modelli.

La strada verso il raffreddamento a liquido integrato

Il passaggio a rack raffreddati a liquido completamente integrati migliora l’efficienza di utilizzo dell’energia (PUE) e riduce i costi operativi. Elimina inoltre la necessità di rumorosi sistemi di trattamento dell’aria per sale computer (CRAH), sostituendoli potenzialmente con unità di distribuzione del raffreddamento a liquido (CDU) moderne ed efficienti in grado di raffreddare rack a temperature fino a 45° Celsius.

Tuttavia, un’integrazione perfetta richiede una riprogettazione fondamentale dello storage. I progetti SSD tradizionali presuppongono il flusso d’aria per la gestione termica e spesso distribuiscono i componenti su entrambi i lati di un PCB, presupposti che non sono validi in un ambiente raffreddato a liquido. Anche la manutenibilità è fondamentale; il raffreddamento a liquido non deve introdurre rischi di perdite durante l’inserimento o la rimozione del drive.

Il futuro dello storage: riprogettato per i liquidi

Solidigm ha collaborato con NVIDIA per affrontare queste sfide, concentrandosi sulla compatibilità hot-swap e sulle soluzioni di raffreddamento su un solo lato. L’azienda sostiene la riprogettazione degli SSD con percorsi di trasferimento del calore a bassa resistenza per condurre in modo efficiente il calore verso una piastra fredda dedicata.

L’industria si sta coalizzando attorno agli standard per garantire l’interoperabilità. Solidigm guida la carica, collaborando con SNIA e Open Compute Project (OCP) per sviluppare progetti pronti per la produzione che si integrino perfettamente nelle piattaforme GPU raffreddate a liquido.

Il cambiamento è chiaro: lo storage non è più un problema tecnico isolato. È una variabile diretta nell’utilizzo della GPU, nell’affidabilità del sistema e nell’efficienza operativa. Il futuro della scalabilità dell’intelligenza artificiale dipende dall’adozione di questa realtà.

Exit mobile version