La croissance explosive de l’intelligence artificielle (IA) pousse les centres de données à leurs limites thermiques. Alors que les GPU et les CPU sont largement passés au refroidissement liquide pour des performances optimales, les systèmes de stockage sont à la traîne, créant une architecture hybride inefficace qui compromet les avantages des solutions de refroidissement modernes. Ce n’est pas seulement une question de coût ; il s’agit d’une responsabilité structurelle fondamentale qui a un impact sur la densité des racks, la durabilité et, en fin de compte, la capacité à faire évoluer les déploiements d’IA.
L’inefficacité du refroidissement hybride
Actuellement, de nombreux déploiements d’IA reposent sur un système patchwork : des processeurs refroidis par liquide et un stockage refroidi par air. Cette approche est opérationnellement inefficace. Les organisations finissent par entretenir deux infrastructures de refroidissement entièrement distinctes et coûteuses – des boucles liquides pour le calcul et des unités CRAC traditionnelles pour le stockage – sans se rendre pleinement compte des avantages du coût total de possession (TCO) d’un système unifié.
Le problème est exacerbé par les contraintes physiques. Les composants de refroidissement liquide encombrants obstruent la circulation de l’air dans le châssis du serveur, concentrant les contraintes thermiques sur les disques, la mémoire et le matériel réseau refroidis par air. Les ventilateurs ont du mal à dissiper correctement la chaleur autour de la plomberie liquide, forçant les composants les plus sensibles à la chaleur dans le pire environnement thermique possible.
Consommation d’eau : une crise méconnue
Au-delà du coût et des performances, l’impact environnemental est important. Les systèmes refroidis par air dépendent fortement des tours de refroidissement par évaporation, qui peuvent consommer des millions de gallons d’eau au fil du temps. À mesure que les densités de puissance des racks augmentent, cette pénalité en eau devient insoutenable. Selon Hardeep Singh, responsable de l’équipe matériel thermomécanique chez Solidigm, le recours actuel au refroidissement par évaporation est « indéfendable sur le plan environnemental et économique » à long terme.
Le passage à une conception thermique au niveau du système
L’infrastructure d’IA moderne n’est pas construite serveur par serveur ; il est conçu comme des systèmes étroitement intégrés au niveau du rack et du pod. La fourniture d’énergie, la distribution du refroidissement et le placement des composants sont désormais indissociables. Cela signifie que les architectures de stockage conçues pour les centres de données dépendants du flux d’air deviennent un facteur limitant. À mesure que les GPU évoluent vers des conceptions entièrement refroidies par liquide et sans ventilateur, le stockage doit s’adapter ou devenir un goulot d’étranglement.
Stockage : du participant passif au participant actif
Historiquement, le stockage était traité comme un sous-système passif. Ce n’est plus viable. La mise à l’échelle de l’IA dépend désormais de la capacité du stockage à s’intégrer proprement dans les systèmes GPU refroidis par liquide sans fragmenter les architectures de refroidissement ni limiter la conception au niveau du rack.
Scott Shadley, directeur du récit de leadership et évangéliste chez Solidigm, souligne que la course à l’intelligence artificielle ne se limite plus au nombre de GPU. Il s’agit de savoir qui peut garder ces GPU au frais, de manière fiable et efficace. Des techniques telles que le déchargement du cache KV, qui déplacent les données entre la mémoire du GPU et le stockage à haute vitesse, rendent la latence de stockage et les performances thermiques essentielles à l’efficacité du service du modèle.
La route vers le refroidissement liquide intégré
Le passage à des racks refroidis par liquide entièrement intégrés améliore l’efficacité de la consommation d’énergie (PUE) et réduit les coûts opérationnels. Il élimine également le besoin de systèmes de traitement d’air bruyants dans les salles informatiques (CRAH), en les remplaçant potentiellement par des unités de distribution de refroidissement liquide (CDU) modernes et efficaces, capables de refroidir les racks à des températures pouvant atteindre 45° Celsius.
Toutefois, une intégration transparente nécessite une refonte fondamentale du stockage. Les conceptions SSD traditionnelles supposent un flux d’air pour la gestion thermique et répartissent souvent les composants sur les deux côtés d’un PCB – des hypothèses qui ne sont pas valables dans un environnement refroidi par liquide. La facilité d’entretien est également essentielle ; le refroidissement liquide ne doit pas introduire de risques de fuite lors de l’insertion ou du retrait du variateur.
L’avenir du stockage : repensé pour les liquides
Solidigm a collaboré avec NVIDIA pour relever ces défis, en se concentrant sur la compatibilité hot-swap et les solutions de refroidissement unilatérales. La société préconise de repenser les SSD avec des chemins de transfert de chaleur à faible résistance pour conduire efficacement la chaleur vers une plaque froide dédiée.
L’industrie s’unit autour de normes pour garantir l’interopérabilité. Solidigm mène la charge, en collaboration avec la SNIA et l’Open Compute Project (OCP) pour développer des conceptions prêtes pour la production qui s’intègrent proprement dans les plates-formes GPU refroidies par liquide.
Le changement est clair : le stockage n’est plus un problème d’ingénierie isolé. Il s’agit d’une variable directe dans l’utilisation du GPU, la fiabilité du système et l’efficacité opérationnelle. L’avenir de la mise à l’échelle de l’IA dépend de l’adoption de cette réalité.
















